北京智源人工知能研究院(BAAI)は、世界初の中国語大規模言語モデル論戦プラットフォーム「FlagEval Debate」を最近発表しました。この新しいプラットフォームは、モデル論戦という競争メカニズムを通じて、大規模言語モデルの能力評価に新たな測定方法を提供することを目指しています。これは、智源モデル対戦評価サービス「FlagEval大モデル角斗場」の拡張であり、大規模言語モデル間の能力差を識別することを目的としています。

既存の大規模言語モデル対戦には、モデル対戦結果がしばしば引き分けになり、モデル間の差異を区別しにくい、テスト内容はユーザー投票に依存し、多くのユーザー参加が必要、既存の対戦方法ではモデル間のインタラクションが不足しているといった問題があります。これらの問題を解決するために、智源研究院は大規模言語モデル論戦形式による評価を採用しました。

論戦は言語系の知的能力活動であり、参加者の論理的思考力、言語構成力、情報分析処理能力を反映することができます。モデル論戦は、大規模言語モデルの情報理解力、知識統合力、論理推論力、言語生成能力、対話能力などのレベルを示すと同時に、複雑な状況における情報処理の深さと適応能力をテストします。

微信截图_20240930140737.png

智源研究院は、論戦というインタラクティブな対戦形式はモデル間の差を際立たせ、少量のデータサンプルに基づいてモデルの有効なランキングを計算できることを発見しました。そのため、彼らはクラウドソーシングベースの中国語大規模言語モデル論戦プラットフォーム「FlagEval Debate」を発表しました。

このプラットフォームは、2つのモデルが論題をめぐって論戦を行うことをサポートします。論題はプラットフォームによってランダムに選択され、論題庫は主にホットトピック、評価専門家、トップレベルの論戦専門家によって作成された論題で構成されています。すべてのユーザーはプラットフォーム上で各論戦を評価でき、ユーザーエクスペリエンスを向上させます。

各モデル論戦は5ラウンドの意見発表で構成され、正反対の各側に1回ずつ機会があります。正反対の立場による偏りを避けるため、2つのモデルはそれぞれ正反対の立場を1回ずつ取ります。各大規模言語モデルは他のモデルと複数の論戦を行い、最終的に勝利ポイントに基づいてモデルのランキングが計算されます。

モデル論戦対戦は、オープンなクラウドソーシングと専門家評価の2つの方法を採用しています。専門家審査委員会は、プロの論戦大会の選手と審査員で構成されています。オープンなクラウドソーシングの視聴者は自由に鑑賞と投票ができます。

智源研究院は、モデル論戦の技術的経路と応用価値を継続的に探求し、科学的、権威的、公正、オープンな原則を堅持し、「FlagEval」大規模言語モデル評価システムを継続的に改善し、大規模言語モデル評価エコシステムに新たな洞察と考察を提供すると述べています。

FlagEval Debate公式サイト:

https://flageval.baai.org/#/debate