VideoQGの精度を飛躍的に向上させる！Cross-Modal Causal Relation Alignment（CRA）フレームワーク

CVPR 2025のハイライト論文にも選ばれた、動画質問応答（VideoQG）のための新しいフレームワーク「Cross-modal Causal Relation Alignment (CRA)」をご紹介します。

VideoQGの課題：偽の相関関係とは？

従来のVideoQG手法は、質問と動画の表面的な相関関係に捉われ、真に必要な視覚的シーンを特定するのが難しいという課題を抱えています。これは、モデルが汎化性能に欠け、複雑なタスクに対応しきれない原因となります。

CRAフレームワークが解決する問題

CRAフレームワークは、以下の点で従来のVideoQGの問題を解決します。

**偽の相関関係の排除:**質問応答と動画の時間的対応付けにおける因果関係の一貫性を向上させます。
**因果的整合性の強化:**質問と関連性の高い映像セグメントを正確に特定します。
**ロバスト性の向上:**様々なVideoQGデータセットにおいて、優れた汎化性能を発揮します。

CRAフレームワークの実装方法

CRAフレームワークは、以下のステップで簡単に導入できます。

リポジトリのクローン: GitHubリポジトリをローカル環境にクローンします。
```
git clone https://github.com/WissingChen/CRA-GQA.git
```
Conda環境の作成: requirements.ymlファイルに基づいてConda環境を作成します。
```
conda env create -f requirements.yml
```
データセットの準備: NextGQAおよびSTARデータセットを使用します。必要なビデオ特徴量、QAアノテーション、タイムスタンプを準備します。
特徴量のサンプリング: .ipynbファイルを使用して、因果介入のためのマルチモーダル特徴量をサンプリングします。
- sample_linguistic_feature.ipynb: 意味構造グラフ特徴量を生成
- sample_visual_feature.ipynb: ビデオ特徴量を生成
学習: main.pyファイルを実行してCRAフレームワークを学習させます。(TempCLIPをバックボーンとして利用)
推論: main.py --infer Trueコマンドを実行して推論を行います。設定ファイルで重みパスを指定することを忘れないでください。

データセットの構造

CRAフレームワークは、NextGQAやSTARといったVideoQGデータセットに対応しています。以下は、典型的なデータディレクトリ構造の例です。

data/
├── nextgqa
│   ├── causal_feature
│   ...
├── nextqa
│   ├── frames
│   ...
├── star
│   ├── causal_feature
│   ...

TempCLIP以外のバックボーン利用について

現在はTempCLIPをバックボーンとする完全なCRAコードのみが公開されていますが、コアコードと結果はFrozenBiLMフォルダに含まれています。詳細については、論文をご参照ください。

貢献と更なる発展

CRAフレームワークで使用されている因果モジュールは、オープンソースの因果フレームワークであるCausalVLRに統合されています。ぜひCausalVLRを探求し、改善のためのご提案をお寄せください。

論文情報

@inproceedings{chen2025cross,
  title={Cross-modal Causal Relation Alignment for Video Question Grounding},
  author={Chen, Weixing and Liu, Yang and Chen, Binglin and Su, Jiandong and Zheng, Yongsen and Lin, Liang},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

この記事では、Video Question Grounding (VideoQG) におけるcross-modal causal relation alignmentの重要性と、動画質問応答の精度向上について解説しました。CRAフレームワークは、VideoQGデータセットにおける汎化性能の向上にも貢献します。