アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表

站长之家

公開日AIニュース · 1 分で読めます · Nov 2, 2023

DevOps-Eval: 大規模言語モデルの評価基準

アリババグループと北京大学は、DevOps分野に特化した大規模言語モデルの評価基準「DevOps-Eval」を発表しました。

この評価基準は、計画、コーディング、ビルド、テスト、リリース、デプロイ、運用、監視の8つのカテゴリからなる4850問の選択問題で構成されています。さらに、AIOpsタスクを詳細に分類し、ログ解析、時系列異常検知、時系列分類、根本原因分析などのタスクを追加しました。

評価結果によると、各モデルのスコアに大きな差はありませんでした。

アリババグループは、今後、評価基準の最適化、評価データセットの充実、特にAIOps分野への注力、そしてより多くのモデルの評価を追加していくと述べています。

世界的なAI科学者許主洪氏、アリババグループに入社副社長に就任

この度、アリババグループは世界トップクラスの人工知能科学者である許主洪氏（Steven Hoi）を迎えました。許主洪氏はアリババグループ副社長に就任し、AI to C事業領域におけるマルチモーダル基盤モデルとAgents関連の基礎研究、およびアプリケーションソリューションの開発と推進を担当します。

智譜GLM-4-9Bモデル、幻覚率わずか1.3％で世界の大規模言語モデル評価で首位獲得

人工知能分野において、大規模言語モデルの幻覚問題は業界を悩ませる重要な課題となっています。最近、HHEM-2.1-Open評価システムに基づいたテスト結果によると、智譜AIのGLM-4-9Bモデルは注目すべき成果を上げました。テストデータによると、評価に参加した85個の大規模言語モデルの中で、GLM-4-9Bは98.7％の事実一致率と100％の回答率で首位を獲得しました。特に注目すべきは、このモデルの幻覚率がわずか1.3％であることであり、この成果は…

大規模言語モデル評価プラットフォームCompassArenaがアップグレード、新しいJudge Copilot機能が登場

上海人工知能研究所司南OpenCompassチームと魔搭ModelScopeが共同で発表した大規模言語モデル評価プラットフォームCompassArena（大規模言語モデル競技場）が最近アップグレードされました。ユーザーにより科学的で包括的なモデル評価体験を提供することを目指しています。公開以来、このプラットフォームは多くのコミュニティユーザーが参加し、データを提供してきました。これらのデータに基づいて、CompassArenaは継続的に最適化されており、今回のアップグレードには新しいJudge Copilot機能とランキングアルゴリズムの改善が含まれています。

馬雲が語るAIの未来：技術は重要だが、独自の価値こそが未来を決定する

2024年12月8日、馬雲はアリババグループ20周年記念式典で力強いスピーチを行い、インターネット時代の機会を振り返り、AI時代の大きな変革に展望を述べました。馬雲は、20年前、インターネットが台頭し始めた頃、彼と同世代の人々は歴史的な機会を掴む幸運に恵まれたと述べています。しかし、彼の見解では、今後20年間、AI時代の到来は想像を超える前例のない変革をもたらすでしょう。馬雲は、AIはさらに偉大な時代となり、すべてを変えるだろうと強調しましたが、同時にAIがすべてを決定するわけではないとも指摘しました。

AIニュース