ARTIC SARS-CoV-2 ワークフローでゲノム解析を迅速化する方法
この記事では、epi2me-labs が提供する ARTIC SARS-CoV-2 ワークフロー(wf-artic)について解説します。このワークフローは、MinION、GridION、PromethION などのOxford Nanopore Technologiesのデバイスで生成されたデータを用いて、SARS-CoV-2 ゲノムのコンセンサス配列を迅速かつ効率的に作成することを目的としています。
ARTIC SARS-CoV-2 ワークフロー(wf-artic)とは?
wf-artic は、プールされたタイリングアンプリコン戦略を用いたDNAシーケンスデータから、SARS-CoV-2 ゲノムのコンセンサス配列を準備するために最適化された、ARTIC FieldBioinformatics ワークフローをわずかに変更したものです。 これにより、研究者は迅速にゲノム情報を取得し、ウイルスの進化や変異を追跡することが可能になります。
ワークフローの主な特徴
- 多様なデータ入力に対応: MinKNOW または Guppy で準備された、デマルチプレックスされたシーケンスリードを含むフォルダーを処理します。
- 柔軟なprimer scheme指定: ゲノム増幅およびライブラリ調製に使用された primer scheme(例:
ARTIC/V3
、ONT_Midnight/V1
)を指定できます。 - カスタマイズ可能なパラメータ: バーコードへのサンプル名の割り当て、許容されるアンプリコン配列の長さ分布の調整など、さまざまなパラメータを調整できます。
- Medaka variantモデルの自動選択:
--basecaller_cfg
パラメータに基づいて Medaka variant モデルが自動的に選択されるか、--medaka_variant_model
パラメータを使用してモデルを直接指定できます。
必要な計算リソース
ワークフローを実行するために推奨されるリソースは以下の通りです。
- CPU: 4 コア
- メモリ: 8 GB
最小要件は以下の通りです。
- CPU: 2 コア
- メモリ: 4 GB
サンプルあたり約 5 分で実行可能です。
インストールと実行
ワークフローは、コマンドラインまたは EPI2ME application からアクセスできます。
前提条件
- nextflow のインストール: ワークフローの計算とソフトウェアリソースを管理するために使用します。
- Docker または Singularity のインストール: 必要なソフトウェアの分離を提供します。
インストール手順
nextflow run epi2me-labs/wf-artic -–help
このコマンドは、ワークフローを nextflow の assets フォルダにプルし、利用可能なすべてのパラメータのリストとコマンドの例を表示します。
デモデータのダウンロード
ワークフローのテスト用にデモデータセットが提供されています。
wget https://ont-exd-int-s3-euwst1-epi2me-labs.s3.amazonaws.com/wf-artic/wf-artic-demo.tar.gz
tar -xzvf wf-artic-demo.tar.gz
ワークフローの実行
デモデータを使ってワークフローを実行するには、次のコマンドを使用します。
nextflow run epi2me-labs/wf-artic \
--fastq test_data/reads.fastq.gz \
-profile standard
関連プロトコル
このワークフローは、Oxford Nanopore Technologies デバイスで生成されたシーケンスを入力として使用するように設計されています。 サンプル調製とシーケンスのための Midnight プロトコルは、Nanopore community で見つけることができます。
入力例
ワークフローは FASTQ ファイルを入力として受け入れます。 FASTQ ファイルは、単一の FASTQ ファイルへのパス、FASTQ ファイルを含むトップレベルディレクトリへのパス、または FASTQ ファイルを含むサブディレクトリのディレクトリへのパスのいずれかです。
- 単一の FASTQ ファイル:
--sample
オプションでサンプル名を指定します。 - FASTQ ファイルを含むディレクトリ:
--sample
オプションでサンプル名を指定します。 - サブディレクトリを含むディレクトリ: サブディレクトリの名前がバーコードと見なされます。
--sample_sheet
オプションでサンプルシートを指定できます。
主要な入力パラメータ
以下は、ワークフローの主要な入力パラメータの一部です。
--fastq
: 解析に使用する FASTQ ファイルへのパス。--scheme_name
: 使用する primer scheme の名前(例: SARS-CoV-2)。--scheme_version
: 使用する primer scheme のバージョン(例: ARTIC/V3)。--sample_sheet
: バーコードをサンプルエイリアスにマッピングするために使用される CSV ファイルへのパス。--out_dir
: すべてのワークフロー結果の出力ディレクトリ。
ワークフローの出力
ワークフローの出力ファイルは、サンプルごとに集約された情報またはサンプルごとに提供されます。
wf-artic-report.html
: すべてのサンプルに関するレポートall_consensus.fasta
: 分析のすべてのサンプルの最終コンセンサス配列。lineage_report.csv
: 分析の各サンプルの Pangolin の結果。nextclade.json
: 分析の各サンプルの Nextclade の結果。all_depth.txt
: 分析のすべてのサンプルの 20 塩基ウィンドウにおける参照ゲノムのカバレッジ。{{alias}}.pass.named.vcf.gz
: リファレンスと比較した場合のサンプル中の信頼度の高いバリアントを含む VCF ファイル。
ARTIC SARS-CoV-2 ワークフロー(wf-artic)を活用することで、SARS-CoV-2 のゲノム解析を効率的に実行し、ウイルスの進化や変異の理解を深めることが可能です。