選定理由
IIT Kharagpur, UCLA, Stanford, Amazonなどの共同研究。RAG + 事実検証で適用範囲が広そう。
Paper: https://arxiv.org/abs/2408.12060
Code: N/A
Debateするタイプに比べれば仕組みは比較的シンプルで、RAGのクエリ文を主張・論点(claim)をそのまま使用するのではなく、LLMに生成してもらう点が特徴的であった。この点に関する効果が言及されていなかったがGPT-4oによると以下の効果があるらしい:
情報検索の精度が上がり、関連ドキュメントを見つけやすくなる。質問が焦点を明確にするため、ノイズが減り、証拠抽出が正確になる。さらに、クレームの曖昧さを解消し、多角的な質問で多様な証拠を集めやすくなる。
概要
【社会課題】
SNS上での偽情報の広がりが深刻な問題であり、特に選挙やパンデミックなどの重要なイベントにおいては、人々の行動や意見に影響を与える。この問題に対し、大量のオンラインコンテンツに対して手動で事実検証を行うことは現実的ではなく、自動化が求められている。
【技術課題】
自動事実検証システムは、単に真偽を判断するだけでなく、その根拠となる証拠をユーザーが納得できる形で提示されることが重要である。
【提案】
Retrieval-Augmented Generation (RAG) と In-Context Learning (ICL) を組み合わせたシステムを開発し、主張の真偽を評価する際に、関連する証拠を自動で抽出するアプローチを提案。これにより大規模な学習データセットを必要とせず、最小限のサンプルで高いパフォーマンスを実現することができる。
【効果】
Averitecデータセットにおいて従来のベースラインを大幅に上回る成果を示し、特に証拠に基づいた真偽予測の精度が向上した。又、提供される証拠に基づいて真偽を判断することで、ユーザーの信頼を高めることができた。
【類似研究】
検索したドキュメントの信頼性スコアとともにリランキングを行うCrAM[Deng2024]が似ているが、本研究は信頼性スコアは使用しない。
RAG + ICL による事実検証
全体像はFig.1である。
検索
知識ベースに含まれるすべての文書と論点(claim)を密なベクトル埋め込みに変換後、FAISSによる最近傍検索を用いてtop_k=3を取得する。
エビデンスの抽出
まず論点を検証するための質問をLLMによって生成する(Fig.3)。
次に生成された質問を各文書に対してLLMに投げかけ、文書から得られた情報を基に明確で簡潔な回答を生成する(Fig.4)。このプロセスは、取得した文書ごとに繰り返され、最終的にはtop_k分だけ異なる回答が得られる。
論点に対する最終結論の生成
前手順で生成されたエビデンスをRAGの要領で結論を生成する。「Supported」「Refuted」「Conflicting Evidence/Cherrypicking」「Not Enough Evidence」という4種類から
実験
評価基準
「Q Only」と「Q + A」スコアは、生成された質問と回答の一致度をMETEORスコアで評価。Averitecスコアは、証拠と一致する正しい真偽判定が行われた場合にスコアを付与。
結果
MixtralモデルがAveritecスコア0.33を記録し、公式ベースライン(0.11)を大幅に上回った。大規模なモデル(MixtralやLlama 3.1)が小規模モデルより高い精度を示したが、特定のクラス(特に「Not Enough Evidence」と「Conflicting Evidence/Cherrypicking」)では一貫した高性能を発揮するモデルはなかった。特に「Refuted」クラスが最も予測しやすく、「Not Enough Evidence」と「Conflicting Evidence」は予測が困難であった。S(Supported)とR(Refuted)クラスの混同が多かった。