TranscriptFormer:15億年の進化を超えた細胞アトラス生成モデル徹底解説
czi-aiによるTranscriptFormerは、単一細胞トランスクリプトームの最先端表現を学習する、革新的な生成基盤モデルです。12種類の生物種、最大1億1200万個の細胞データを用いてトレーニングされており、驚異的な汎用性と応用性を示しています。この記事では、TranscriptFormerの概要、インストール方法、推論の実行方法、そしてその潜在的な応用例について詳しく解説します。
TranscriptFormerとは?:異なる3つのモデル
TranscriptFormerは、3つの異なるバージョンで提供されています。
-
TF-Metazoa: 12種の生物種(ヒト、マウス、ゼブラフィッシュなど)を網羅した、1億1200万個の細胞で学習。
-
TF-Exemplar: ヒトと主要モデル生物(マウス、ゼブラフィッシュ、ショウジョウバエ、C. elegans)の1億1000万個の細胞で学習。
-
TF-Sapiens: ヒト細胞のみ5700万個で学習。
これらのモデルは、細胞種分類、疾患状態の識別、転写因子の予測など、様々なタスクにおいて優れた性能を発揮します。
TranscriptFormerの構造と強み
TranscriptFormerは、遺伝子と転写産物の発現レベルを同時にモデル化する、新しい生成アーキテクチャを採用しています。Transformerベースのアーキテクチャを基盤とし、発現を考慮したマルチヘッド自己注意や因果マスキングなどの革新的な技術を統合しています。これにより、トランスクリプトレベルの変動を捉え、ゼロショット性能を向上させています。
インストールと環境構築
TranscriptFormerを動作させるには、Python 3.11以上が必要です。以下の手順でインストールできます。
- リポジトリをクローン:
- 仮想環境の作成とアクティベート:
- 開発モードでのインストール: または、 PyPIからのインストール:
主要な依存関係: PyTorch, PyTorch Lightning, anndata, scanpy, numpy, pandas, h5py, hydra-core
モデルウェイトのダウンロード
モデルウェイトはAWS S3経由で提供されています。配布されたdownload_artifacts.py
スクリプトを使用してダウンロードできます。
- 特定のモデルのダウンロード:
- すべてのモデルと埋め込みのダウンロード:
- 埋め込みファイルのみのダウンロード:
推論の実行:データ形式と手順
inference.py
スクリプトは、TranscriptFormerでの推論を容易にするインターフェースを提供します。
基本的な使い方:
必須パラメータ:
model.checkpoint_path
: モデルウェイトと語彙ファイルを含むチェックポイントディレクトリへのパス。model.inference_config.data_files
: 入力データファイルへのパス(H5AD形式)。model.inference_config.pretrained_embedding
: 事前学習済み埋め込みへのパス。model.inference_config.output_path
: 推論結果の保存先ディレクトリ。model.inference_config.batch_size
: 推論のバッチサイズ。model.inference_config.precision
: 数値精度。
H5AD形式の入力データ:
- 遺伝子IDは
var
データフレームのensembl_id
カラムに含まれている必要があります。 - 発現データは、非正規化の生カウントデータとして
adata.X
マトリックスに格納してください。
出力形式: 推論結果は embeddings.h5ad
というファイル名で保存されます。 細胞埋め込みは obsm['embeddings']
に、元の細胞メタデータは obs
データフレームに、対数尤度スコアは uns['llh']
にそれぞれ格納されます。
TranscriptFormerの活用例:単一細胞解析の可能性
TranscriptFormerは、単一細胞解析(single-cell experiments)の分野に下記のような革新をもたらします。
- 種を超えた細胞多様性の統合解析: 異なる生物種間で細胞の種類や状態を比較分析。
- 疾患メカニズムの解明: 疾患細胞における遺伝子発現異常の特定を支援。
- 創薬ターゲットの探索: 新しい治療標的となりうる遺伝子や経路の発見。
TranscriptFormerは、生物学研究における強力なツールとなり、生命科学の進展に貢献することが期待されます。
セキュリティに関する責任ある情報開示
セキュリティ上の問題を発見した場合は、[email protected]
までご連絡ください。
主要キーワード: TranscriptFormer, 単一細胞解析, 細胞アトラス, 生成モデル, 種を超えた解析