最近、中国産の大規模言語モデルDeepSeek V3がAI競技場での優れたパフォーマンスで業界の注目を集めています。唯一トップ10入りを果たしたオープンソースモデルとして、o1-miniを凌駕し、プログラミングや数学など複数の分野でClaude3.5Sonnetを上回る結果も示しました。その実力を検証するため、様々な実測比較が行われました。
基礎的な理解力テストでは、両モデルの異なる特性が明らかになりました。中国語のなぞなぞ「小明のママには子供が3人います」という問題に対し、DeepSeek V3は見事に正解し、自己検証も行いました。しかし、英語の駄洒落「April Fool's Day」のテストではやや苦戦し、言葉の遊びを理解できませんでした。一方、Claude3.5Sonnetはこれを難なくクリアしました。
論理的推論テストでも興味深い結果が出ました。「弱智吧」という古典的な論理の罠に対し、両モデルとも誤判断しました。「逆転の呪い」のような問題では、両モデルとも優れた推論能力を示し、トム・クルーズと彼の母親の関係を正しく認識しました。
大学院入試数学の問題では、DeepSeek V3がより高い数学能力を示しました。曲面積分とガウスの定理の応用を詳細に解説し、正解にたどり着きました。一方、Claude3.5Sonnetは論理は明確でしたが、最終的な計算結果に誤りがありました。
プログラミング能力の比較では、DeepSeek V3がウェブサイト作成テストで圧倒的な勝利を収めました。これは競技場での高い順位を裏付ける結果です。
なお、フルバージョンo1の登場により、AI競技場の状況は再び変化しています。o1は圧倒的な強さでトップに立ち、クリエイティブライティングを除くほぼ全ての項目で1位を獲得しました。
これらのテストは、中国で開発された大規模言語モデルが急速に国際的なトップレベルに追いついていることを示しています。DeepSeek V3のパフォーマンスは、特定の分野においてトップレベルのモデルと競合できる能力を備えていることを証明し、中国のAI技術開発に新たな自信をもたらしました。