「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

罗超频道

公開日AIニュース · 1 分で読めます · Nov 29, 2023

本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。

百度沈抖氏：大規模モデル応用が爆発期に突入「1クラウド多チップ」が必然の選択に

2024年中国聯通パートナー大会において、百度集団執行副社長の沈抖氏は「AI+を深く受け入れ、新たな生産力の発展を加速する」をテーマに講演を行いました。大規模モデルの応用シーンの加速的な発展に伴い、企業の基盤となる計算力需要が継続的に増加しているため、「1クラウド多チップ」が必然の選択となっていると説明しました。百度インテリジェントクラウドは百舸計算力プラットフォームの開放を計画しており、チップの選択の自由を提供し、文心大規模モデルに基づいて千帆ツールチェーンプラットフォームを開発することで、大規模モデルの技術的ハードルと使用コストを削減します。沈氏はAIの重要性を強調し、大規模モデルの…

アリババQwen2-72B、HELMランキングで首位獲得：Llama3-70Bを上回る性能

先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。

バイトダンス「扣子」AI戦線に参戦、2024年大規模モデル応用が続々

バイトダンスが「Coze扣子」AI Bot開発プラットフォームを発表し、従来のチャットボット形式を一新。オリオンスターがOrion-14B大規模モデルを発表、傅盛氏は企業応用における数百億パラメーターレベルの効果を強調。荣耀やファーウェイなどの携帯電話メーカーも大規模モデルの競争に参入し、激しい競争が展開される。大規模モデルの応用シーンは、スマートカスタマーサービス、スマート行政、医療、教育など多岐にわたる。2024年、大規模モデル競争が激化し、メーカー各社が開発を加速させる中、誰が最初に突破口を開くかは未知数だ。

テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開

テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

罗超频道

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

百度沈抖氏：大規模モデル応用が爆発期に突入 「1クラウド多チップ」が必然の選択に

アリババQwen2-72B、HELMランキングで首位獲得：Llama3-70Bを上回る性能

バイトダンス「扣子」AI戦線に参戦、2024年大規模モデル応用が続々

テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開

百度沈抖氏：大規模モデル応用が爆発期に突入「1クラウド多チップ」が必然の選択に