大規模言語モデル評価の混沌：パラメータ規模は万能ではない

36氪

公開日AIニュース · 1 分で読めます · Sep 25, 2023

ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。

智譜GLM-4-9Bモデル、幻覚率わずか1.3％で世界の大規模言語モデル評価で首位獲得

人工知能分野において、大規模言語モデルの幻覚問題は業界を悩ませる重要な課題となっています。最近、HHEM-2.1-Open評価システムに基づいたテスト結果によると、智譜AIのGLM-4-9Bモデルは注目すべき成果を上げました。テストデータによると、評価に参加した85個の大規模言語モデルの中で、GLM-4-9Bは98.7％の事実一致率と100％の回答率で首位を獲得しました。特に注目すべきは、このモデルの幻覚率がわずか1.3％であることであり、この成果は…

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

上海人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena（大規模言語モデル競技場）が最近アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、このプラットフォームは多くのコミュニティユーザーが参加し、データを提供してきました。これらのデータに基づいて、CompassArenaは継続的に最適化されており、今回のアップグレードには新しいJudge Copilot機能とランキングアルゴリズムの改善が含まれています。

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

12月5日、バイトダンスの豆包大規模言語モデルチームは、最新のコード大規模言語モデル評価ベンチマーク「FullStack Bench」を発表しました。これは11種類以上の現実的なシナリオを網羅し、16種類のプログラミング言語をサポート、3374個の問題を含んでいます。このベンチマークは、従来の評価基準と比べて、より広範なプログラミング分野で、大規模言語モデルのコード開発能力をより正確に評価でき、現実世界のプログラミングタスクにおけるモデルの最適化を促進します。HumanEvalやMBPPなど、現在主流のコード評価ベンチマークは、通常、基礎と高度なレベルに集中しています。

Salesforce AI、Llama3ベースの新しい大規模言語モデル評価ファミリーSFR-Judgeを発表

自然言語処理分野では、大規模言語モデル（LLM）が急速に発展しており、多くの分野で目覚ましい進歩を遂げています。しかし、モデルの複雑性が増すにつれ、その出力を正確に評価することが非常に重要になります。従来は、人間による評価に依存していましたが、この方法は時間と費用がかかり、規模を拡大することが難しく、モデルの急速な発展のペースについていくことができません。この状況を変えるため、Salesforce AI研究チームは、3つの大規模言語モデルで構成されるSFR-Judgeを発表しました。

AIニュース

大規模言語モデル評価の混沌：パラメータ規模は万能ではない

36氪

関連AIニュースの推奨

智譜GLM-4-9Bモデル、幻覚率わずか1.3％で世界の大規模言語モデル評価で首位獲得

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

バイトダンスが新たなコード大規模言語モデル評価ベンチマーク「FullStack Bench」をオープンソース化

Salesforce AI、Llama3ベースの新しい大規模言語モデル評価ファミリーSFR-Judgeを発表