最近、ジョージア工科大学とNVIDIAの2人の中国人研究者によって、RankRAGという新しい微調整フレームワークが提案されました。このフレームワークは、従来複雑だったRAGパイプラインを大幅に簡素化し、微調整手法を用いて単一のLLMで検索、ランキング、生成タスクを実行することで、性能の大幅な向上を実現しました。
RAG(Retrieval-Augmented Generation)は、LLM導入において広く用いられる技術であり、特に大量の事実知識が必要なテキスト生成タスクに適しています。一般的に、RAGのプロセスは、テキストエンコーディングに基づく稠密モデルを用いて外部データベースから上位k個のテキストセグメントを検索し、その後LLMがそれを読み取って生成するというものです。このプロセスは広く利用されていますが、k値の選択など、いくつかの限界があります。k値が大きすぎると、長文コンテキストに対応できるLLMであっても処理が遅くなり、k値が小さすぎると、高い再現率の検索メカニズムが必要となりますが、既存の検索器とランキングモデルにはそれぞれ欠点があります。
上記の課題を踏まえ、RankRAGフレームワークは、LLMの能力を微調整によって拡張し、LLM自身に検索とランキングを実行させるという新しいアプローチを提案しています。実験結果によると、この手法はデータ効率の向上だけでなく、モデル性能の顕著な向上も示しました。特に、複数の一般的なベンチマークと生物医学知識集約型のベンチマークにおいて、RankRAGで微調整されたLlama38B/70Bモデルは、それぞれChatQA-1.58BとChatQA-1.570Bモデルを上回りました。
RankRAGの重要な特徴は、その高いインタラクティブ性と編集可能性です。ユーザーはAI生成コンテンツをリアルタイムで確認できるだけでなく、インターフェース上で直接編集や反復処理を行うことができます。この即時フィードバックメカニズムは作業効率を大幅に向上させ、AIを創作過程における強力なアシスタントとして機能させます。さらに素晴らしいことに、今回のアップデートにより、これらの成果物はClaudeプラットフォーム内部に限定されなくなり、ユーザーは簡単にどこへでも共有できるようになりました。
今回のRankRAG微調整フレームワークの革新には、2段階の指示微調整が含まれています。第1段階では教師あり微調整(SFT)を行い、複数のデータセットを混合することでLLMの指示追従能力を向上させます。第2段階の微調整データセットには、様々なQAデータ、検索強化型QAデータ、コンテキストランキングデータが含まれており、LLMの検索とランキング能力をさらに向上させます。
実験において、RankRAGは9つの一般的な分野のデータセットにおいて、現在のオープンソースSOTAモデルであるChatQA-1.5を常に上回りました。特に、ロングテールQAやマルチホップQAなどの難しいQAタスクにおいては、ChatQA-1.5と比較して10%以上の性能向上を示しました。
総じて、RankRAGは検索と生成タスクにおいて優れた性能を示すだけでなく、生物医学RAGベンチマークであるMirageにおいてもその強力な適応性を示しました。微調整を行わなくても、RankRAGは医学的な質問応答タスクにおいて、多くの専門分野のオープンソースモデルを上回りました。
RankRAGフレームワークの提案と継続的な改良により、AIと人間の協働による創作の未来はより明るくなると確信しています。独立系開発者も研究者も、この革新的なフレームワークを活用して、より多くの創造性と可能性を引き出し、技術とアプリケーションの発展を促進することができます。
論文アドレス: https://arxiv.org/abs/2407.02485