国産大規模言語モデルの突破！DeepSeek V3がClaude 3.5 Sonnetに挑む！実測記録

AIbase基地

公開日AIニュース · 1 分で読めます · Dec 31, 2024

827

最近、中国産の大規模言語モデルDeepSeek V3がAI競技場での優れたパフォーマンスで業界の注目を集めています。唯一トップ10入りを果たしたオープンソースモデルとして、o1-miniを凌駕し、プログラミングや数学など複数の分野でClaude3.5Sonnetを上回る結果も示しました。その実力を検証するため、様々な実測比較が行われました。

基礎的な理解力テストでは、両モデルの異なる特性が明らかになりました。中国語のなぞなぞ「小明のママには子供が3人います」という問題に対し、DeepSeek V3は見事に正解し、自己検証も行いました。しかし、英語の駄洒落「April Fool's Day」のテストではやや苦戦し、言葉の遊びを理解できませんでした。一方、Claude3.5Sonnetはこれを難なくクリアしました。

論理的推論テストでも興味深い結果が出ました。「弱智吧」という古典的な論理の罠に対し、両モデルとも誤判断しました。「逆転の呪い」のような問題では、両モデルとも優れた推論能力を示し、トム・クルーズと彼の母親の関係を正しく認識しました。

大学院入試数学の問題では、DeepSeek V3がより高い数学能力を示しました。曲面積分とガウスの定理の応用を詳細に解説し、正解にたどり着きました。一方、Claude3.5Sonnetは論理は明確でしたが、最終的な計算結果に誤りがありました。

プログラミング能力の比較では、DeepSeek V3がウェブサイト作成テストで圧倒的な勝利を収めました。これは競技場での高い順位を裏付ける結果です。

なお、フルバージョンo1の登場により、AI競技場の状況は再び変化しています。o1は圧倒的な強さでトップに立ち、クリエイティブライティングを除くほぼ全ての項目で1位を獲得しました。

これらのテストは、中国で開発された大規模言語モデルが急速に国際的なトップレベルに追いついていることを示しています。DeepSeek V3のパフォーマンスは、特定の分野においてトップレベルのモデルと競合できる能力を備えていることを証明し、中国のAI技術開発に新たな自信をもたらしました。

智譜が漢字生成可能なオープンソース文描画モデルCogView4を発表

北京智譜華章科技有限公司は、漢字の生成に対応した初のオープンソース文描画モデルCogView4を発表しました。このモデルはDPG-Benchベンチマークテストにおいて総合スコアで1位を獲得し、オープンソース文描画モデルのSOTA（State of the Art）となりました。Apache2.0ライセンスに準拠しており、このライセンスに準拠した最初の画像生成モデルでもあります。

アリババ通義千問、推論モデルQwQ-Maxプレビュー版を発表 qwen.aiドメインで体験可能

2月25日、アリババはQwen2.5-Maxベースの推論モデルQwQ-Max-Previewを発表し、最新の推論モデルQwQ-MaxとQwen2.5-Maxを全面的にオープンソース化する計画を発表しました。今回発表されたQwQ-Max-Previewはプレビュー版であり、アリババは正式版を近日中にリリースし、Apache2.0ライセンスの下で全面的にオープンソース化するとしています。従来とは異なり、今回のオープンソース化はモデル自体だけでなく、Qなど、より小さなバージョンも含みます。

腾讯混元ビデオモデル（Hunyuan Video）テスト参加者募集中、オープンソースの可能性

最近、腾讯混元ビデオモデル（Hunyuan Video）がXプラットフォームで正式にテストパートナーを募集し、この最先端のAIビデオ生成技術が重要なテスト段階に入ったことを示しています。公式によると、テスト終了後、このモデルは高い確率でオープンソース化され、世界のAIコミュニティにその技術成果が貢献される予定です。混元ビデオモデルは、テンセントのAIビデオ生成分野における重要なイノベーションであり、13B以上のパラメータを持ち、現在のオープンソースモデルの中で最大規模のビデオ生成モデルの一つです。その中核技術には、

OpenAIの最新ベンチマーク：AIのプログラミング能力は人間の4分の1、限界も明らかに

OpenAIは先日、AIのプログラミング能力を評価する重要なレポートを発表しました。100万ドル相当の実開発プロジェクトを通じて、AIがソフトウェア開発分野でどのような現状にあるのかを明らかにしています。SWE-Lancerと呼ばれるこのベンチマークテストは、Upworkから集めた1400件の実プロジェクトを網羅し、AIの直接開発とプロジェクト管理の2つの分野におけるパフォーマンスを包括的に評価しました。テストの結果、最高性能を達成したAIモデルであるClaude3.5Sonnetは、コーディングタスクでの成功率が26.2％、プロジェクト管理決…