智源研究院、テキストからビデオ生成モデルを含む対抗評価サービス「FlagEval大規模モデル闘技場」を発表

AIbase基地

公開日AIニュース · 1 分で読めます · Sep 5, 2024

327

2024年9月4日、北京智源人工知能研究院（BAAI）は、世界初となるテキストから動画生成を含むモデル対抗評価サービス「FlagEval大模型角斗場」を発表しました。

このサービスはユーザー向けに公開されており、国内外の約40種類のLLMを網羅し、言語問答、マルチモーダル画像テキスト理解、テキストから画像生成、テキストから動画生成といった4つのタスクのカスタマイズ可能なオンラインまたはオフライン評価をサポートしています。FlagEval大模型角斗場の登場により、単純な理解、知識の応用、コーディング能力、推論能力など、様々な事前設定された問題の評価を提供するだけでなく、初めて主観的な傾向階梯評価システムが導入され、モデルのパフォーマンスの違いをより正確に明らかにします。

微信截图_20240905084138.png

このサービスは匿名のメカニズムで評価を行い、評価プロセスの公平性を確保しています。ユーザーはウェブ端または国内初のモバイル端アクセス入口から評価に参加し、効率的なモデル対抗評価を体験できます。FlagEval大模型角斗場の評価結果は即時に公開され、ランキングが作成され、各モデルの対抗能力を示します。

智源研究院は、モデル対抗評価の全チェーンデータのオープンソース化を進め、大規模モデル評価エコシステムの発展を促進すると述べています。FlagEval大模型角斗場の登場は、智源のモデル評価分野における技術的配置とツール方法の研究開発をさらに拡大し、人工知能分野の研究と応用に新たなテストと評価ツールを提供します。

体験アドレス:https://flageval.baai.ac.cn/#/home

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

智元、家庭用ロボットベースの大規模言語モデルGO-1を発表成功率が大幅に向上

3月10日、智元ロボットは、初の汎用具象ベースの大規模言語モデルであるGenie Operator-1（GO-1と略称）を発表しました。この発表は大きな注目を集め、特に家庭用サービスロボットの可能性という点において、将来の家事管理に新たな希望をもたらすものとして期待されています。智元ロボットの公式発表によると、GO-1大規模言語モデルは大量の人間のビデオ学習を通じて、コップの水を運ぶ、食事を作る、客を迎えるなど、多くの家事タスクをこなす優れた能力を示しています。技術性能に関しては、

国家スパコンインターネットプラットフォームが阿里巴巴の千問大規模言語モデルに接続、QwQ-32B APIを提供開始

報道によると、国家スパコンインターネットプラットフォームは阿里巴巴の通義千問大規模言語モデルへの接続を発表し、千問QwQ-32B APIサービスの正式提供を開始しました。本サービスを利用するユーザーは、最大100万トークンを無料で利用でき、多くの開発者や研究者にとって絶好の機会となります。千問QwQ-32Bは阿里巴巴通義チームが最近オープンソース化した推論モデルであり、優れた性能を誇ります。複数の権威ある評価データによると、千問QwQ-32Bの能力は「フルバージョン」の671Bと匹敵します。