Gemini APIで大規模データを徹底分析：限界を超える革新的な手法

大規模データセットの分析は、今日のGenerative AIにとって大きな課題です。コンテキストウィンドウの制限により、従来のAIモデルではデータレイク全体の把握が困難でした。しかし、Gemini APIを活用することで、この課題を克服し、データからより深い洞察を得ることが可能になります。本記事では、その革新的なアプローチについて詳しく解説します。

Gemini APIで大規模データを徹底分析：限界を超える革新的な手法

大規模データ分析における課題

Generative AIは著しい進歩を遂げましたが、データ量が増大するにつれて、その処理能力に限界が見え始めています。特に、コンテキストウィンドウの制約（通常100万トークン以下）は、巨大なデータレイクを包括的に分析する上で大きな障壁となります。

RAG（Retrieval-Augmented Generation）のような手法は、特定のデータの検索には有効ですが、数十億、数兆ものデータポイントから全体像を把握するには不十分です。

Gemini APIによる革新的アプローチ

本記事で紹介するアプローチは、Gemini APIの能力を最大限に引き出し、従来のモデルの限界を超える大規模データ分析を実現します。以下のワークフロー図をご覧ください。

ワークフロー図

ワークフローの概要:

プロンプトとビッグデータの準備: 分析の目的を明確にするプロンプトと、分析対象のビッグデータを用意します。
データの分割: ビッグデータを配列に分割します。テキストデータの場合、句読点などで区切ると効果的です。分割されたデータは、AnalyzeBigDataクラスのインスタンスに送られます。
チャンクへの分割: AnalyzeBigDataクラス内で、データをGemini APIの入力トークン制限以下になるようにチャンクに分割します。
コンテンツ生成: 分割された各チャンクに対して、与えられたプロンプトに基づいてGeminiがコンテンツを生成します。
再帰的処理: チャンクの数が複数ある場合、生成されたコンテンツは再度AnalyzeBigDataクラスで処理されます。この反復処理により、データの階層的な分析が可能になります。
最終結果の出力: チャンクが1つになるまで処理を繰り返し、最終的な分析結果を出力します。

Gemini API 利用のための準備

APIキーの取得: Gemini APIを利用するためには、APIキーが必要です。
AnalyzeBigDataクラスの利用: 提供されているPythonスクリプト（analyze_big_data_by_Gemini.py）をダウンロードし、AnalyzeBigDataクラスをインポートします。

データの準備：テキストとJSON

パターン1：テキストデータ

data = ["テキストデータ1", "テキストデータ2", "テキストデータ3", ...]

サンプルスクリプトを使用する場合は、上記の形式でテキストデータのリストを準備してください。

パターン2：JSONデータ

JSONデータも分析対象として利用できます。JSONスキーマをプロンプトに含めることで、より精度の高いコンテンツ生成が可能です。また、レスポンススキーマを設定することで、JSON形式で結果を直接生成することもできます。

sample_json_schema = {
    "title": "サンプルデータスキーマ",
    "description": "サンプルの説明",
    "type": "array",
    "items": {
        "type": "object",
        "properties": {
            "key1": { "type": "string", "description": "サンプルの説明"},
            "key2": { "type": "number", "description": "サンプルの説明"},
        },
        "required": [ "key1", "key2"],
    },
}

sample_response_schema = {
    "type": "object",
    "properties": { "content": { "type": "string", "description": "生成されたコンテンツ"}},
}

サンプルスクリプト：実際の動作

以下のサンプルスクリプトは、ファイルに保存されたテキストデータを読み込み、Gemini APIを使って要約を生成します。

from analyze_big_data_by_Gemini import AnalyzeBigData
import json
import os

api_key = "###" # APIキーを設定
filename = "###" # ビッグデータファイル名を設定
file_path = os.path.join ( "./", filename) # ファイルパスを設定
prompt = "データを要約してください。" # プロンプトを設定

data = []
with open ( file_path, "r", encoding = "utf-8") as f:
    data = json.loads ( f. read ())

object = {
    "api_key": api_key,
    "data": data,
    "prompt": prompt,
}

l = 0
res = []
while len ( res)!= 1:
    l += 1
    print ( f" \n \n ### Loop: { l} ")
    res = AnalyzeBigData (). run ( object)
    object [ "data"] = res

print ( f"Number of chunks: { len ( res)} ")
print ( res [ 0])

with open ( os. path. join ( "./", "Result_" + filename), "w", encoding = "utf-8") as f:
    f. write ( res [ 0])

テスト：実行結果の確認

上記スクリプトを実行すると、ターミナル上で処理のフローを確認できます。データがチャンクに分割され、Gemini APIが各チャンクを処理する様子を観察できます。

### Loop: 1
AnalyzeBirgData... start
Length of tempData (from './temp.txt') is 0.
Data chunking... start
The input data (1000) was divided into 10 chunks.
Gemini API calls will be attempted for 10 new chunks (total 10).
Data chunking... end
Process chunk... start
### Processing chunk 1 / 10...
Upload chunk... start
Upload chunk... end
Total tokens: 500000
Generating content... start
Generating content... end
Generated content is not in JSON format.
Saved temporary data to './temp.txt'. Current length: 1.
...

処理が完了すると、最終的な結果がres[0]に格納されます。

実践例：StackoverflowのGoogle Apps Script分析

StackoverflowのGoogle Apps Script分析では、本記事で紹介する手法を用いて、実際のデータを分析した結果を紹介しています。

Geminiによる画像生成

まとめ

Gemini APIを活用することで、従来のAIモデルでは困難だった大規模データの分析が可能になります。本記事で紹介した手法を参考に、ぜひ皆様のデータ分析にご活用ください。

Gemini APIで大規模データを徹底分析：限界を超える革新的な手法

大規模データ分析における課題

Gemini APIによる革新的アプローチ

ワークフロー図

ワークフローの概要:

プロンプトとビッグデータの準備: 分析の目的を明確にするプロンプトと、分析対象のビッグデータを用意します。
データの分割: ビッグデータを配列に分割します。テキストデータの場合、句読点などで区切ると効果的です。分割されたデータは、AnalyzeBigDataクラスのインスタンスに送られます。
チャンクへの分割: AnalyzeBigDataクラス内で、データをGemini APIの入力トークン制限以下になるようにチャンクに分割します。
コンテンツ生成: 分割された各チャンクに対して、与えられたプロンプトに基づいてGeminiがコンテンツを生成します。
再帰的処理: チャンクの数が複数ある場合、生成されたコンテンツは再度AnalyzeBigDataクラスで処理されます。この反復処理により、データの階層的な分析が可能になります。
最終結果の出力: チャンクが1つになるまで処理を繰り返し、最終的な分析結果を出力します。

Gemini API 利用のための準備

APIキーの取得: Gemini APIを利用するためには、APIキーが必要です。
AnalyzeBigDataクラスの利用: 提供されているPythonスクリプト（analyze_big_data_by_Gemini.py）をダウンロードし、AnalyzeBigDataクラスをインポートします。

データの準備：テキストとJSON

パターン1：テキストデータ

data = ["テキストデータ1", "テキストデータ2", "テキストデータ3", ...]

サンプルスクリプトを使用する場合は、上記の形式でテキストデータのリストを準備してください。

パターン2：JSONデータ

sample_json_schema = {
    "title": "サンプルデータスキーマ",
    "description": "サンプルの説明",
    "type": "array",
    "items": {
        "type": "object",
        "properties": {
            "key1": { "type": "string", "description": "サンプルの説明"},
            "key2": { "type": "number", "description": "サンプルの説明"},
        },
        "required": [ "key1", "key2"],
    },
}

sample_response_schema = {
    "type": "object",
    "properties": { "content": { "type": "string", "description": "生成されたコンテンツ"}},
}

サンプルスクリプト：実際の動作

以下のサンプルスクリプトは、ファイルに保存されたテキストデータを読み込み、Gemini APIを使って要約を生成します。

from analyze_big_data_by_Gemini import AnalyzeBigData
import json
import os

api_key = "###" # APIキーを設定
filename = "###" # ビッグデータファイル名を設定
file_path = os.path.join ( "./", filename) # ファイルパスを設定
prompt = "データを要約してください。" # プロンプトを設定

data = []
with open ( file_path, "r", encoding = "utf-8") as f:
    data = json.loads ( f. read ())

object = {
    "api_key": api_key,
    "data": data,
    "prompt": prompt,
}

l = 0
res = []
while len ( res)!= 1:
    l += 1
    print ( f" \n \n ### Loop: { l} ")
    res = AnalyzeBigData (). run ( object)
    object [ "data"] = res

print ( f"Number of chunks: { len ( res)} ")
print ( res [ 0])

with open ( os. path. join ( "./", "Result_" + filename), "w", encoding = "utf-8") as f:
    f. write ( res [ 0])

テスト：実行結果の確認

### Loop: 1
AnalyzeBirgData... start
Length of tempData (from './temp.txt') is 0.
Data chunking... start
The input data (1000) was divided into 10 chunks.
Gemini API calls will be attempted for 10 new chunks (total 10).
Data chunking... end
Process chunk... start
### Processing chunk 1 / 10...
Upload chunk... start
Upload chunk... end
Total tokens: 500000
Generating content... start
Generating content... end
Generated content is not in JSON format.
Saved temporary data to './temp.txt'. Current length: 1.
...

処理が完了すると、最終的な結果がres[0]に格納されます。