Gemini-2.5-pro、MathArena評価で卓越した数学能力を披露、他モデルを大きく凌駕

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 3, 2025

2025年4月3日のニュース：MathArenaが発表した最新の大規模言語モデルの数学能力評価結果によると、GoogleのGemini-2.5-proが圧倒的な強さで首位を獲得し、汚染されていない高難度の数学コンテストで注目すべき成果を上げました。

画期的な成果

Gemini-2.5-proは、MathArenaプラットフォームの厳格な評価で24.40％の精度を達成しました。このスコアは首位であるだけでなく、2位のDeepSeek-R1の4.76％と比較して5倍もの差をつけ、圧倒的なリードを築いています。この画期的な成果は、Gemini-2.5-proが高度な数学的推論能力において質的な飛躍を遂げたことを示しています。

複数のコンテストでの優れた成績

特に注目すべきは、「AIME 2025 I」コンテストで驚異の93％という成績を収めたことです。これは、公に認められた高難度の数学コンテストです。「USAMO 2025」でも50％の成績を収め、超高難度の数学問題を解く能力を証明しました。

技術的な意義

MathArena評価の特殊性は、その厳格さと公平性にあります。モデルの公開後に発表された数学コンテストの問題のみを使用してテストを行うことで、モデルが事前学習データから有利に立つことを防いでいます。このような厳しい条件下でも、Gemini-2.5-proは高い成功率を維持しており、Googleの大規模言語モデルにおける数学的推論能力の大きな進歩を反映しています。

業界への影響

Gemini-2.5-proの卓越した成果は、大規模言語モデルが高度な数学的思考において大きな可能性を秘めていることを証明しただけでなく、AIによる教育、研究、複雑な問題解決に新たな可能性を切り開きました。この成果は、AI業界における推論能力と専門分野への応用に関する競争とイノベーションをさらに促進するでしょう。

Claude-3.7-Sonnet (Think)の3.65％やo1-pro (high)の2.83％といった他のモデルの精度と比較すると、Gemini-2.5-proの優位性はさらに際立ち、大規模言語モデルの数学能力の発展が新たな段階に入った可能性を示唆しています。

データソース：https://matharena.ai/

Gemini-2.5-pro 大言語モデル MathArena 数学能力評価

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

通付盾AIエージェント信頼システム構築宣言：AIからIAへ、エージェントを制する者は天下を制す

Mar 26, 2025

Midjourneyによる新たな研究がクリエイティブなテキスト生成を促進し、LLMによるライティングにより創造性を付与

Mar 25, 2025

国産初のAgent開発フレームワーク！倉頡コミュニティがCangjie Magicを発表、HarmonyOSなど全プラットフォームをネイティブサポート！

Mar 17, 2025

華中科技大学とバイトダンスがLiquidを発表：マルチモーダルモデルの生成と理解を再定義

Mar 4, 2025

OpenAI GPT-4.5 システムカードレポート解説

2025年2月27日にOpenAIが発表したGPT-4.5システムカードレポートの詳細な解説です。本レポートでは、GPT-4.5モデルの開発、能力、安全評価、および準備フレームワーク評価について包括的に説明し、その進歩と潜在的なリスクを示すとともに、OpenAIによる対応策を明らかにしています。

Feb 28, 2025

AIアナウンサーからシームレスなインタラクションまで：YYがDeepSeekと深く統合し「YYDS」を発表

Feb 26, 2025

AIデイリーニュース：DeepSeekが巨大言語モデルアクセラレータFlashMLAをオープンソース化、海螺AIがI2V-01-Directorモデルを発表、Pixverse V4.0が同期サウンドエフェクトと再描画機能に対応

【AIデイリーニュース】へようこそ！AIの世界を探求するための毎日更新のガイドです。毎日、AI分野のホットなトピック、開発者への注目、技術トレンドの理解、革新的なAI製品のアプリケーションに関する情報を提供します。最新のAI製品はこちらをご覧ください：https://top.aibase.com/1、DeepSeekオープンソースウィーク初日：巨大言語モデルアクセラレータFlashMLAを発表、デコード性能は3000GB/sに

Feb 24, 2025

閃極AI拍拍鏡、正式発売：価格は999元から、複数の巨大言語モデルに対応

昨日、閃極科技は、国内初の量産型AI撮影眼鏡「閃極AI拍拍鏡」を発表しました。このAI撮影眼鏡の価格は1499元ですが、最初の5万台のコラボレーション版は999元という特別価格で提供され、300日間チェックインで200日間の全額返金キャンペーンも行われています。閃極AI拍拍鏡は業界で初めて、ソニー製1600万画素、123度超広角レンズのカメラモジュールを搭載し、紫光展鋭製のフラッグシップ級低消費電力ARMプラットフォームも備えています。この眼鏡には6500mAhの大容量バッテリーリングも付属しており、HI-Fに対応しています。

Dec 20, 2024

2.6k

合成データが毒!? Metaチームが実証：わずか1％で巨大言語モデルが完全に崩壊

最近、AI業界で奇妙な事件が発生しました。まるで食べ放題のYouTuberが自作料理を食べ始め、ますます中毒になり、料理の質が悪化していくようなものです。これは非常に恐ろしいことであり、専門用語ではモデル崩壊（model collapse）と呼ばれます。モデル崩壊とは何か？簡単に言えば、AIモデルが学習中に大量に自己生成データを使用すると、悪循環に陥り、生成されるデータの質が低下し、最終的に機能しなくなることです。これは閉鎖された生態系のようなもので、AIモデルがそのシステムなのです。

Oct 14, 2024

2.6k

ケンブリッジ大学研究、AIの真の実力に迫る：全ての巨大言語モデルは「寄せ集め」！

最近、ケンブリッジ大学などの研究チームが重要な論文を発表し、大規模言語モデル（LLM）の真の姿を明らかにしました。最新のLLMの実際のパフォーマンスを深く分析した結果、衝撃的な事実が判明しました。— 期待されていたAIモデルは、多くの基本的なタスクにおいて、想像していたほど優れたパフォーマンスを発揮していないのです。この研究では、o1-previewを含む複数の最先端モデルを包括的に評価しました。その結果、AIモデルと人間の理解力には顕著な違いがあることが示されました。驚くべきことに、モデルは人間が認識する...

Sep 29, 2024

1.6k

AIニュース

AIデイリー

AIタイムライン

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要