VQAの最新技術によるZero-Shot SOTA
テーブル・オブ・コンテンツ:
- イントロダクション
- Plug-and-Play VQAとは?
- Zero shot VQAの課題
- 現行のモデルの問題点
- 提案手法: モジュラーフレームワーク
- モジュールごとの詳細
6.1. 画像と質問のマッチングモジュール
6.2. 質問に基づいたキャプション生成モジュール
6.3. 質問応答モジュール
6.4. デコーダーへのFusion-in-Decoderの適用
- 結果の比較
7.1. パラメータ数の比較
7.2. キャプション生成戦略のアブレーション
- 質問に基づいたキャプションの優位性
8.1. 質問ごとの重要な情報のハイライト
8.2. クオリティの比較例
- 結論と展望
- 論文とコードの連絡先
イントロダクション
こんにちは皆さん、今日は私たちの研究「Plug-and-Play VQA: Zero shot VQA by conjoining large pre-trained models with zero training」についてご紹介します。
Plug-and-Play VQAとは?
VQA(Visual Question Answering)は、画像と質問が与えられたときにモデルが答えを生成するタスクです。このタスクは非常に挑戦的であり、モデルは複数の機能を示す必要があります。たとえば、次の質問に対して、モデルは「jumping」というアクションとその理由を認識し、「man」と「frisbee」をオブジェクトとして識別して答えを生成する必要があります。また、次の質問では、「上に」という表現を理解し、「T」という文字とその「red」属性を識別して答えを生成する必要があります。これはゼロショット設定では特に困難であり、モデルはVQAのデータで訓練されていない状態でVQAを解決する必要があります。
Zero shot VQAの課題
大規模な事前学習済み言語モデル(PLM)は、ゼロショットVQAにおいて優れた性能を発揮していますが、既存の多くの方法では、画像を理解することができないために追加の適応が必要です。そのため、ビジョンエンコーダーがビジュアルモダリティをPLMに組み込むために画像とテキストのペアを訓練することがしばしば行われます。しかし、この適応プロセスは非常に困難であり、新しいネットワークコンポーネントや新しい訓練目標の設計が必要です。私たちの研究では、この制約に取り組むためにモジュラーフレームワークを提案しています。
モジュラーフレームワークとは?
モジュラーフレームワークでは、各コンポーネントが特定の機能に責任を持ちます。一般的なAIの観点から、システムがトレーニングやアーキテクチャの変更なしにモジュールを再結合することで新しいタスクを学習することが非常に望ましいです。モジュラーフレームワークを使用することで、他のモジュールに影響を与えることなく、そのコンポーネントを置き換えることができます。その最大の利点は、システムがモジュールが進化し続ける中で改善されたモジュールを活用することができるということです。また、私たちは、人間の認知システムが主にモジュラーであることを示す研究にも着目しています。
モジュールごとの詳細
6.1. 画像と質問のマッチングモジュール
質問は一般的に特定の領域やオブジェクトに焦点を当てており、画像には豊富な情報があります。したがって、質問と関連する画像パッチを特定するために、画像と質問のマッチングモジュールを設計しました。採用した事前学習済みモデルはBLIP-ITMであり、このモデルはテキストが画像に一致するかどうかを判断するために訓練されています。GradCamを採用し、スコアは質問に関連する画像パッチの関連性と重要性を示します。この方程式に示すように、画像と質問が与えられた場合、クロスエントロピー損失から勾配を取得し、トークンごとのクロスアテンションマップを集約する際に勾配を重みとして使用します。
6.2. 質問に基づいたキャプション生成モジュール
関連のある画像領域であっても、その領域を説明する方法は複数存在します。一部のキャプションは質問応答に役立つ可能性がありますが、他のものはそうではありません。したがって、GradCamに基づいたサンプルパッチを使用して、確率的なデコーディングを通して複数のキャプションを生成します。質問に基づいたキャプションとして生成されたキャプションを示します。複数のキャプションを生成することで、キャプションの多様性と視覚情報のカバレッジが促進されます。私たちの設計では、質問応答モジュールに画像を必要としないため、BLIP-Captionという事前学習済みモデルを採用しています。
... (以下略)