阿里云通義オープンソースQwen2.5-VL、視覚AIがClaude 3.5を凌駕

AIbase基地

公開日AIニュース · 1 分で読めます · Jan 29, 2025

426

アリババクラウドの通義千問が、新しいビジュアルモデルQwen2.5-VLをオープンソース化し、3B、7B、72Bの3つのサイズバリエーションを発表しました。

その中でも、フラッグシップモデルであるQwen2.5-VL-72Bは、13の権威ある評価においてビジュアル理解でトップの座を獲得し、GPT-4oやClaude3.5を凌駕しました。アリババクラウド公式の説明によると、新しいQwen2.5-VLは画像内容をより正確に解析できるだけでなく、画期的に1時間以上の動画理解に対応しています。このモデルは動画内から特定のイベントを検索し、動画の異なる時間帯を要約することで、ユーザーが動画から重要な情報を迅速かつ効率的に抽出するのを支援します。

アリババクラウド通義オープンソースQwen2.5-VL：最強のビジュアルAI GPT-4oを凌駕

さらに、Qwen2.5-VLは微調整なしで、携帯電話やコンピューターを操作できるAIビジュアルインテリジェントエージェント（Visual Agents）に変身し、指定の友人に祝福を送信したり、コンピューターで画像を修正したり、携帯電話でチケットを予約したりといった、複数ステップの複雑な操作を実行できます。Qwen2.5-VLは、花、鳥、魚、昆虫などの一般的な物体の認識に優れているだけでなく、画像内のテキスト、チャート、アイコン、グラフィック、レイアウトも分析できます。アリババクラウドはまた、Qwen2.5-VLのOCR認識能力を向上させ、多様なシーン、多言語、多方向でのテキスト認識とテキスト位置特定能力を強化しました。

アリババクラウド通義オープンソースQwen2.5-VL：最強のビジュアルAI GPT-4oを凌駕

同時に、情報抽出能力が大幅に向上し、増加する資格審査、金融ビジネスなどのデジタル化、インテリジェント化ニーズに対応しています。

要点：
🌟 アリババクラウド通義千問がQwen2.5-VLをオープンソース化、3B、7B、72Bの3つのバージョンを発表。
📈 Qwen2.5-VL-72Bがビジュアル理解評価でGPT-4oとClaude3.5を上回る。
👀 Qwen2.5-VLは1時間以上の動画理解に対応し、OCR認識能力が強化。

Qwen2.5-VL 阿里云画像理解 AI視覚知能体

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

AI日報：アリババの新モデルQwen3間近；GitHubでMCPサーバーがオープンソース化；RunwayがGen-4 Turboを発表

【AI日報】へようこそ！ここでは、AIの世界を探求するための毎日のガイドとして、AI分野のホットなニュースを毎日お届けします。開発者に焦点を当て、技術トレンドの把握、革新的なAI製品の応用を支援します。最新のAI製品はこちらをご覧ください：https://top.aibase.com/1、Qwen3間近：アリババクラウドの新モデル関連サポートがvLLMコードリポジトリに正式マージアリババクラウドのQwen3モデルが間もなくリリースされ、AI分野における同社の重要な進歩を示しています。新発表

Apr 8, 2025

140

アリババ、新たなマルチモーダルモデルQwen2.5-VL-32Bを発表：視覚言語と数学的推論を両立

人工知能分野において、アリババは再び大きなニュースをもたらしました。先日、アリババは最新のマルチモーダルモデルであるQwen2.5-VL-32B-Instructをオープンソース化しました。この新しいモデルはQwen2.5シリーズの一つであり、他のバージョンには3B、7B、72Bなどがあります。32Bバージョンは、性能を維持しながら、より手軽なローカル実行環境に重点を置いています。Qwen2.5-VL-32Bは強化学習によって最適化されており、複数の面で優れた性能を発揮します。まず、その回答はより人間に沿ったものとなっています。

Mar 25, 2025

180

阿里云、アジア10大学・機関とAI人材育成で連携

阿里云は、シンガポール国立大学、タイデジタル経済促進庁など10大学・政府機関と連携し、AIとクラウドコンピューティングの研修プログラムを共同で開始します。タイ、シンガポール、香港を含むアジア7カ国・地域を対象に、デジタル人材育成を目指します。シンガポール国立大学経営学部オペレーションズ・リサーチ・アナリティクス研究所および宏観国際管理学院と協力し、Skills Centerを共同運営します。このセンターでは、学生や社会人のための、ビッグデータとAI分野の先端研修を提供します。

Mar 21, 2025

報道：阿里云、次世代AI技術開発推進のため「Tプロジェクト」始動

『科創板日報』によると、阿里云は次世代AI技術の開発を加速させるため、「Tプロジェクト」と呼ばれる新たな計画を開始しました。このプロジェクトは、AIエンジン、大規模言語モデル（LLM）、マルチモーダル技術など、複数の最先端分野に焦点を当て、これらの技術のブレークスルーを通じて、増大する市場ニーズに応えることを目指しています。「Tプロジェクト」の開始は、阿里云によるAI分野への更なる本格的な参入を意味します。関係者によると、このプロジェクトはAI技術の開発速度を加速させるだけでなく、より多くの優秀な人材の獲得にも繋がる見込みです。

Mar 17, 2025

120

AIの火眼金睛！Finer-CAMでAIによる画像理解をより正確に、分類をより明確に

人工知能は画像認識分野で非常に盛んです。猫や犬の分類などはもう時代遅れで、今では「連想ゲームPlus版」のような、例えばある特定の年式の特定のモデルのスポーツカーであること、あるいはある鳥の眉毛が隣の家の王さんの眉毛よりもわずかに太いかどうかなどを瞬時に識別することが流行しています。しかし、問題はあります。ニューラルネットワークは賢いのですが、「なぜこれがこれだと判断したのか？」を説明しようとすると、まるでテストで解法を説明できない生徒のように、支離滅裂でまともな説明ができません。従来のClass Activation Map（クラス活性化マップ）は…

Mar 10, 2025

アリババのオープンソース版SoraがHugging Faceランキングで首位を獲得！Wan2.1がDeepSeek-R1を圧倒

Mar 4, 2025

アリババクラウド魔搭、階躍星辰の最新オープンソースの2つのマルチモーダルモデルを初公開

世界の開発者の視線が再び中国に注がれています！注目を集めるグローバル・デベロッパー・カンファレンス（GDC）において、アリババクラウド魔搭コミュニティは、階躍星辰の最新オープンソースの2つのマルチモーダルモデルを初公開すると発表しました。これには、世界最大規模のパラメータを持つオープンソースのビデオ生成モデルStep-Video-T2Vと、業界初の製品レベルのオープンソース音声対話モデルStep-Audioが含まれます。このニュースは瞬く間に世界のAIオープンソースコミュニティを席巻し、中国の人工知能分野における強力なイノベーション能力を改めて示しました。中国最大のAI...

Feb 21, 2025

1.8k

テンセント元宝、「混元+DeepSeek」デュアルモード統合により「画像理解」スキルを提供

テンセント元宝の今回のアップグレードは、「混元+DeepSeek」デュアルモード統合技術の適用が中心です。従来、DeepSeekは主に情報抽出、いわば「スキャナー」としての役割を担っていました。しかし、テンセント混元マルチモーダル技術の活用により、今日のDeepSeekは画像の細部、雰囲気、さらには隠された意味を真に理解できるようになりました。この変化により、テンセント元宝は画像を「理解」し、独自の分析と解釈を提供できるようになりました。

Feb 21, 2025

2.9k

阿里云、新たな数理推論モデルQwen2.5-Math-PRMを発表。7BバージョンはGPT-4oを凌駕

本日、阿里云通義チームは、新たな数理推論プロセス報酬モデルQwen2.5-Math-PRMを発表しました。72Bと7Bの2つのサイズが提供され、同種のオープンソースプロセス報酬モデルを大幅に上回る性能を示し、特に推論エラーの識別において顕著な成果を上げています。特に7Bバージョンは、業界で広く利用されているGPT-4oを上回る驚異的な成果を達成し、阿里云の数理推論モデル開発における重要な一歩となりました。

Jan 16, 2025

2.9k

AIデイリーニュース：Kimiがマルチモーダル画像理解モデルAPIをリリース；周鴻禕氏、AI短編ドラマに出演；MiniMax-01シリーズモデルがオープンソース化；星火同時通訳音声大規模言語モデルがリリース

【AIデイリーニュース】へようこそ！AIの世界を探求する毎日へのガイドです。毎日、AI分野のホットなトピックを紹介し、開発者に焦点を当て、技術トレンドの理解や革新的なAI製品アプリケーションの理解を支援します。最新のAI製品はこちらをご覧ください：https://top.aibase.com/1、月之暗面Kimiのマルチモーダル画像理解モデルAPIリリース2025年1月15日、北京月之暗面科技有限公司は、新しいマルチモーダル画像理解モデルmoonshotを正式にリリースしました

Jan 15, 2025

1.0k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要