Gemini APIでビッグデータ分析！限界突破の活用術

大規模データセットの処理における生成AIの課題を克服し、Gemini APIを活用してビッグデータ分析を効率化する方法をご紹介します。従来の限界を超え、データから深い洞察を得るためのヒントが満載です。

背景：従来のAIの限界

生成AIは目覚ましい進化を遂げましたが、大規模データセットの処理には限界があります。

コンテキストウィンドウの制限：多くの場合、100万トークン以下という制約があります。
データレイク全体の分析：数十億、数兆規模のデータポイントからの洞察抽出が困難です。

RAG（Retrieval-Augmented Generation）などの手法も存在しますが、全体像の把握には不十分です。Gemini APIを活用することで、これらの課題を解決し、ビッグデータから有益な情報を引き出すことが可能になります。

ワークフロー：Gemini APIによるビッグデータ処理

ワークフロー図

Gemini APIを用いたビッグデータ分析のワークフローは以下の通りです。

プロンプトとビッグデータを用意: 処理内容を指示するプロンプトと、分析対象のビッグデータを準備します。
データを分割: ビッグデータを配列に分割します（例：文章であれば句点ごとに分割）。分割されたデータはAnalyzeBigDataクラスに送られます。
チャンク化: AnalyzeBigDataクラス内で、データをさらに小さなチャンクに分割します。各チャンクのトークン数がGemini APIの入力制限を超えないように調整します。
コンテンツ生成: 各チャンクに対して、与えられたプロンプトに基づいてGemini APIを用いてコンテンツを生成します。
再帰的処理（必要に応じて）: 生成されたコンテンツが複数チャンクに分割されている場合、再度AnalyzeBigDataクラスで処理を行います。
最終結果取得: チャンクが1つになった時点で、最終結果が返されます。

このワークフローにより、巨大なデータセットも効率的に処理し、必要な情報を抽出することができます。

実践：Gemini API活用ステップ

Gemini APIを使ってビッグデータ分析を行うための具体的な手順を解説します。

APIキーの取得: Gemini APIを使用するために、APIキーを取得してください。
AnalyzeBigDataクラスの利用: 提供されているPythonスクリプト（GitHubリポジトリ）のAnalyzeBigDataクラスを利用します。
- analyze_big_data_by_Gemini.pyファイルを作成し、スクリプトを記述します。
- 以下のサンプルスクリプトを使用する際は、from analyze_big_data_by_Gemini import AnalyzeBigDataとしてインポートします。
- データはリスト形式で渡す必要があります。
データ準備:

パターン1（テキストデータ）: 文字列のリスト形式でデータを準備します。

パターン2（JSONデータ）: JSON形式のデータをリストに含めることも可能です。プロンプトにJSONスキーマを含めることで、より効果的なコンテンツ生成が期待できます。

import json
from analyze_big_data_by_Gemini import AnalyzeBigData

api_key = "###"  # APIキーを設定
data = [  # データを設定
    {"key1": "value1", "key2": 123},
    {"key1": "value2", "key2": 456},
]
sample_json_schema = {
    "title": "Sample Data Schema",
    "description": "Sample description",
    "type": "array",
    "items": {
        "type": "object",
        "properties": {
            "key1": {"type": "string", "description": "Sample description"},
            "key2": {"type": "number", "description": "Sample description"},
        },
        "required": ["key1", "key2"],
    },
}
sample_response_schema = {
    "type": "object",
    "properties": {"content": {"type": "string", "description": "Generated content"}},
}
object = {
    "api_key": api_key,
    "data": data,
    "prompt": f"JSON schema of given data is as follows. <JSONSchema>{json.dumps(sample_json_schema)}</JSONSchema> Summarize the data.",
    "response_schema": sample_response_schema,
}
res = AnalyzeBigData().run(object)
print(res)  # 結果を表示 {"content": "Generated content"}

上記の例では、JSONデータとそのスキーマを定義し、プロンプトに含めています。これにより、Gemini APIはデータの構造を理解し、より適切なコンテンツを生成できます。

サンプルスクリプト: ファイルに保存されたビッグデータを処理するサンプルスクリプトです。

from analyze_big_data_by_Gemini import AnalyzeBigData
import json
import os

api_key = "###"  # APIキーを設定
filename = "###"  # ビッグデータが格納されたファイル名を設定
file_path = os.path.join("./", filename)  # ファイルパスを設定
prompt = "Summarize data."  # プロンプトを設定
data = []
with open(file_path, "r", encoding="utf-8") as f:
    data = json.loads(f.read())
object = {
    "api_key": api_key,
    "data": data,
    "prompt": prompt,
}
l = 0
res = []
while len(res) != 1:
    l += 1
    print(f"\n\n### Loop: {l}")
    res = AnalyzeBigData().run(object)
    object["data"] = res
    print(f"Number of chunks: {len(res)}")
    print(res[0])
with open(os.path.join("./", "Result_" + filename), "w", encoding="utf-8") as f:
    f.write(res[0])

このスクリプトでは、ファイルからデータを読み込み、Gemini APIで要約します。複数回ループ処理を行い、最終的な要約結果をファイルに保存します。

動作確認：ターミナルの出力例

サンプルスクリプトを実行すると、ターミナルに以下のようなログが表示されます。

ターミナル出力例

この例では、最初のループでデータが10個のチャンクに分割され、それぞれのチャンクがGemini APIによって処理されます。2回目のループでは、10個の生成結果が1つのチャンクにまとめられ、最終的な結果が得られます。

実績：StackoverflowのGoogle Apps Script分析

Gemini APIを活用したGoogle Apps Scriptの分析事例は、こちらで公開されています。

まとめ

Gemini APIを活用することで、従来のAIでは困難だった大規模データセットの分析が可能になります。本記事で紹介したワークフローとサンプルスクリプトを参考に、ぜひご自身のデータ分析に役立ててみてください。

その他

ライセンス：MIT
作者：Tanaike
記事冒頭の画像はGeminiによって生成されました。

背景：従来のAIの限界

生成AIは目覚ましい進化を遂げましたが、大規模データセットの処理には限界があります。

コンテキストウィンドウの制限：多くの場合、100万トークン以下という制約があります。

データレイク全体の分析：数十億、数兆規模のデータポイントからの洞察抽出が困難です。

ワークフロー：Gemini APIによるビッグデータ処理

Gemini APIを用いたビッグデータ分析のワークフローは以下の通りです。

プロンプトとビッグデータを用意: 処理内容を指示するプロンプトと、分析対象のビッグデータを準備します。

データを分割: ビッグデータを配列に分割します（例：文章であれば句点ごとに分割）。分割されたデータはAnalyzeBigDataクラスに送られます。

チャンク化: AnalyzeBigDataクラス内で、データをさらに小さなチャンクに分割します。各チャンクのトークン数がGemini APIの入力制限を超えないように調整します。

コンテンツ生成: 各チャンクに対して、与えられたプロンプトに基づいてGemini APIを用いてコンテンツを生成します。

再帰的処理（必要に応じて）: 生成されたコンテンツが複数チャンクに分割されている場合、再度AnalyzeBigDataクラスで処理を行います。

最終結果取得: チャンクが1つになった時点で、最終結果が返されます。

このワークフローにより、巨大なデータセットも効率的に処理し、必要な情報を抽出することができます。

実践：Gemini API活用ステップ

Gemini APIを使ってビッグデータ分析を行うための具体的な手順を解説します。

APIキーの取得: Gemini APIを使用するために、APIキーを取得してください。

AnalyzeBigDataクラスの利用: 提供されているPythonスクリプト（GitHubリポジトリ）のAnalyzeBigDataクラスを利用します。

analyze_big_data_by_Gemini.pyファイルを作成し、スクリプトを記述します。
以下のサンプルスクリプトを使用する際は、from analyze_big_data_by_Gemini import AnalyzeBigDataとしてインポートします。
データはリスト形式で渡す必要があります。

データ準備:

パターン1（テキストデータ）: 文字列のリスト形式でデータを準備します。

import json
from analyze_big_data_by_Gemini import AnalyzeBigData

api_key = "###"  # APIキーを設定
data = [  # データを設定
    {"key1": "value1", "key2": 123},
    {"key1": "value2", "key2": 456},
]
sample_json_schema = {
    "title": "Sample Data Schema",
    "description": "Sample description",
    "type": "array",
    "items": {
        "type": "object",
        "properties": {
            "key1": {"type": "string", "description": "Sample description"},
            "key2": {"type": "number", "description": "Sample description"},
        },
        "required": ["key1", "key2"],
    },
}
sample_response_schema = {
    "type": "object",
    "properties": {"content": {"type": "string", "description": "Generated content"}},
}
object = {
    "api_key": api_key,
    "data": data,
    "prompt": f"JSON schema of given data is as follows. <JSONSchema>{json.dumps(sample_json_schema)}</JSONSchema> Summarize the data.",
    "response_schema": sample_response_schema,
}
res = AnalyzeBigData().run(object)
print(res)  # 結果を表示 {"content": "Generated content"}

サンプルスクリプト: ファイルに保存されたビッグデータを処理するサンプルスクリプトです。

from analyze_big_data_by_Gemini import AnalyzeBigData
import json
import os

api_key = "###"  # APIキーを設定
filename = "###"  # ビッグデータが格納されたファイル名を設定
file_path = os.path.join("./", filename)  # ファイルパスを設定
prompt = "Summarize data."  # プロンプトを設定
data = []
with open(file_path, "r", encoding="utf-8") as f:
    data = json.loads(f.read())
object = {
    "api_key": api_key,
    "data": data,
    "prompt": prompt,
}
l = 0
res = []
while len(res) != 1:
    l += 1
    print(f"\n\n### Loop: {l}")
    res = AnalyzeBigData().run(object)
    object["data"] = res
    print(f"Number of chunks: {len(res)}")
    print(res[0])
with open(os.path.join("./", "Result_" + filename), "w", encoding="utf-8") as f:
    f.write(res[0])