「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

罗超频道

公開日AIニュース · 1 分で読めます · Nov 29, 2023

本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。

百度沈抖氏：大規模モデル応用が爆発期に突入「1クラウド多チップ」が必然の選択に

2024年中国聯通パートナー大会において、百度集団執行副社長の沈抖氏は「AI+を深く受け入れ、新たな生産力の発展を加速する」をテーマに講演を行いました。大規模モデルの応用シーンの加速的な発展に伴い、企業の基盤となる計算力需要が継続的に増加しているため、「1クラウド多チップ」が必然の選択となっていると説明しました。百度インテリジェントクラウドは百舸計算力プラットフォームの開放を計画しており、チップの選択の自由を提供し、文心大規模モデルに基づいて千帆ツールチェーンプラットフォームを開発することで、大規模モデルの技術的ハードルと使用コストを削減します。沈氏はAIの重要性を強調し、大規模モデルの…

アリババQwen2-72B、HELMランキングで首位獲得：Llama3-70Bを上回る性能

先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。

テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開

テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。

AIニュース

「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

罗超频道

関連AIニュースの推奨

百度沈抖氏：大規模モデル応用が爆発期に突入 「1クラウド多チップ」が必然の選択に

アリババQwen2-72B、HELMランキングで首位獲得：Llama3-70Bを上回る性能

テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開

百度沈抖氏：大規模モデル応用が爆発期に突入「1クラウド多チップ」が必然の選択に