2024年9月4日、北京智源人工知能研究院(BAAI)は、世界初となるテキストから動画生成を含むモデル対抗評価サービス「FlagEval大模型角斗場」を発表しました。
このサービスはユーザー向けに公開されており、国内外の約40種類のLLMを網羅し、言語問答、マルチモーダル画像テキスト理解、テキストから画像生成、テキストから動画生成といった4つのタスクのカスタマイズ可能なオンラインまたはオフライン評価をサポートしています。FlagEval大模型角斗場の登場により、単純な理解、知識の応用、コーディング能力、推論能力など、様々な事前設定された問題の評価を提供するだけでなく、初めて主観的な傾向階梯評価システムが導入され、モデルのパフォーマンスの違いをより正確に明らかにします。
このサービスは匿名のメカニズムで評価を行い、評価プロセスの公平性を確保しています。ユーザーはウェブ端または国内初のモバイル端アクセス入口から評価に参加し、効率的なモデル対抗評価を体験できます。FlagEval大模型角斗場の評価結果は即時に公開され、ランキングが作成され、各モデルの対抗能力を示します。
智源研究院は、モデル対抗評価の全チェーンデータのオープンソース化を進め、大規模モデル評価エコシステムの発展を促進すると述べています。FlagEval大模型角斗場の登場は、智源のモデル評価分野における技術的配置とツール方法の研究開発をさらに拡大し、人工知能分野の研究と応用に新たなテストと評価ツールを提供します。
体験アドレス:https://flageval.baai.ac.cn/#/home