夜を徹して文献レビューに苦戦?論文執筆に頭を悩ませていますか?もう心配はいりません!AI2の研究のスペシャリストたちが、最新の力作OpenScholarであなたを救済します!この研究効率化ツールを使えば、文献レビューは散歩のように簡単で楽しくなります!

OpenScholar最大の秘密兵器は、OpenScholar-Datastore(OSDS)と呼ばれる、4.5億件のオープンアクセス論文と2.37億個の文章段落埋め込みです。これだけの膨大な知識を備えているからこそ、OpenScholarは様々な研究上の課題に容易に対処できるのです。

研究上の問題に直面した時、OpenScholarはまず、検索エンジンと再ランキングエンジンという強力なツールを駆使し、OSDSから問題に関連する文章段落を迅速に選別します。次に、参考文献を含む完全な回答を言語モデル(LM)が生成します。さらに驚くべきことに、OpenScholarはあなたの自然言語によるフィードバックに基づいて回答を継続的に改善し、不足している情報を補完し、あなたが満足するまで続きます。

image.png

OpenScholarは自身のパワーだけでなく、より小型で効率的なモデルのトレーニングにも役立ちます。研究者たちはOpenScholarのプロセスを利用して、大量の高品質なトレーニングデータを作成し、それらを用いて、OpenScholar-8Bと呼ばれる80億パラメータの言語モデルやその他の検索モデルをトレーニングしました。

OpenScholarの実力を徹底的に検証するために、研究者たちはSCHOLARQABENCHという新しいテストベンチも開発しました。このベンチマークには、閉鎖型分類、多肢選択、長文生成など、様々な科学文献レビュータスクが含まれており、コンピュータサイエンス、生物医学、物理学、神経科学など、複数の分野を網羅しています。公平性を確保するため、SCHOLARQABENCHは専門家による審査、自動指標、ユーザーエクスペリエンステストなど、多角的な評価方法を採用しています。

激しい競争を勝ち抜いたOpenScholarは、最終的に頭角を現しました!実験結果によると、OpenScholarはあらゆるタスクで優れた性能を示し、人間の専門家をも凌駕しました!この画期的な成果は、研究分野に革命を起こし、科学者たちが文献レビューの苦しみから解放され、科学の謎の探求に集中できるようになるでしょう!

image.png

OpenScholarの強力な機能は、独自の自己フィードバック検索強化推論メカニズムによるものです。簡単に言うと、まず自分自身に質問し、その回答に基づいて回答を継続的に改善し、最後に完璧な回答を提示するという仕組みです。驚くべきではありませんか?

具体的には、OpenScholarの自己フィードバック推論プロセスは、初期回答生成、フィードバック生成、フィードバック統合の3つのステップで構成されます。まず、言語モデルは検索された文章段落に基づいて初期回答を生成します。次に、厳しい審査官のように、自身の回答を自己批判し、欠点を洗い出し、自然言語によるフィードバック(例:「回答には質問応答タスクの実験結果しか含まれていません。他のタイプのタスクの結果も追加してください。」)を生成します。最後に、言語モデルはこれらのフィードバックに基づいて関連文献を再検索し、すべての情報を統合して、より完全な回答を生成します。

より小型で、同様に強力なモデルをトレーニングするために、研究者たちはOpenScholarの自己フィードバック推論プロセスを利用して、大量の高品質なトレーニングデータを作成しました。まず、データベースから引用回数の多い論文を選び出し、それらの論文の要約に基づいて情報検索クエリを生成し、最後にOpenScholarの推論プロセスを用いて高品質な回答を生成します。これらの回答と中間生成されたフィードバック情報は、貴重なトレーニングデータとなります。研究者たちはこれらのデータと既存の汎用領域指示微調整データおよび科学領域指示微調整データを混合して、OpenScholar-8Bと呼ばれる80億パラメータの言語モデルをトレーニングしました。

OpenScholarや他の同様のモデルの性能をより包括的に評価するために、研究者たちはSCHOLARQABENCHと呼ばれる新しいベンチマークテストを作成しました。このベンチマークテストには、専門家によって作成された2967個の文献レビュー問題が含まれており、コンピュータサイエンス、物理学、生物医学、神経科学の4つの分野を網羅しています。各問題には専門家によって作成された長文の回答があり、平均して各回答の作成には約1時間かかります。SCHOLARQABENCHは、自動指標と人的評価を組み合わせた多角的な評価方法を採用しており、モデルが生成した回答の質をより包括的に測定することができます。

実験結果によると、OpenScholarはSCHOLARQABENCHで他のモデルをはるかに上回り、いくつかの点では人間の専門家をも凌駕しました!例えば、コンピュータサイエンス分野では、OpenScholar-8Bの正解率はGPT-4oより5%高く、PaperQA2より7%高くなっています。また、OpenScholarが生成した回答の引用の正確性も人間の専門家とほぼ同等であり、一方GPT-4oは78~90%が事実と異なるものでした。

OpenScholarの登場は、研究分野にとって大きな福音となるでしょう!研究者たちは、時間と労力を大幅に節約できるだけでなく、文献レビューの質と効率を向上させることができます。近い将来、OpenScholarは研究者にとってなくてはならない強力なツールとなるでしょう!

論文アドレス:https://arxiv.org/pdf/2411.14199

プロジェクトアドレス:https://github.com/AkariAsai/OpenScholar