InternVL 2.5

オープンソースのマルチモーダル大規模言語モデルシリーズ

一般製品生産性マルチモーダル大規模言語モデル

InternVL 2.5は、InternVL 2.0をベースとした高度なマルチモーダル大規模言語モデルシリーズです。コアとなるモデルアーキテクチャを維持しつつ、トレーニングとテスト戦略、データ品質において大幅な改良が加えられています。本モデルは、モデルの拡張と性能の関係を深く掘り下げ、ビジュアルエンコーダ、言語モデル、データセットのサイズ、テスト時の設定といった要素が性能に及ぼす影響を体系的に探求しています。多学科推論、文書理解、複数画像/動画理解、現実世界理解、マルチモーダル幻覚検知、視覚的配置、多言語対応、純粋な言語処理といった幅広いベンチマークテストにおいて包括的な評価を実施した結果、InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetなどの主要な商用モデルに匹敵する競争力を示しました。特に、本モデルはMMMUベンチマークテストにおいて70％を超えた初のオープンソースMLLMであり、連鎖思考（CoT）推論により3.7％の向上を実現し、テスト時の拡張性の高い可能性を示しています。

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

InternVL 2.5

InternVL 2.5 最新のトラフィック状況

InternVL 2.5 訪問数の傾向

InternVL 2.5 訪問地理的分布

InternVL 2.5 トラフィックソース

InternVL 2.5 代替品

VITA-1.5 — VITA-1.5：リアルタイムの視覚と音声インタラクションを備えたGPT-4o級のマルチモーダル大規模言語モデル

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

Llama 3 — 卓越な性能を誇る、次世代のオープンソース大型言語モデル

Mistral Small 3.1 — テキストとビジョンタスク処理能力を強化したオープンソースモデル。

AoT — Atom of Thoughts (AoT)は大規模言語モデルの推論性能を向上させるためのフレームワークです。

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

SWE-RL — 強化学習により、オープンソースソフトウェアの進化における大規模言語モデルの推論能力を向上させます。

DeepSeek 日本語版 — DeepSeekは、論理推論、数学、プログラミングタスクに秀でた高度なAI言語モデルです。無料で利用できます。

TableGPT2-7B — TableGPT2-7Bは、表データ処理に特化した大規模言語モデルであり、データ分析やビジネスインテリジェンスのタスクに最適です。

Coding-Tutor — 大規模言語モデルをプログラミング指導ツールとして活用する可能性を探求し、Trace-and-Verifyワークフローを提案します。

Goedel-Prover — Goedel-Proverは、数学問題の形式化証明に特化したオープンソースの自動定理証明モデルです。

OmniParser-v2.0 — OmniParserは、UIスクリーンショットを構造化されたフォーマットに変換し、LLMベースのUIエージェントのパフォーマンスを向上させる汎用スクリーン解析ツールです。

Mistral-Small-24B-Instruct-2501 — Mistral Small 24Bは、多言語に対応した高性能な命令微調整大型言語モデルであり、幅広い用途に使用できます。

MNN大規模言語モデル Androidアプリ — 多様なモダリティに対応した、フル機能の巨大言語モデルAndroidアプリです。

Baichuan-M1-14B — 百川智能が開発した、医療現場向けに最適化されたオープンソースの大規模言語モデルです。優れた汎用性と医療分野での高い性能を備えています。

SmolVLM-500M-Instruct — SmolVLM-500Mは、軽量なマルチモーダルモデルであり、画像とテキストの入力を処理してテキスト出力を生成できます。

Doubao-1.5-pro — Doubao-1.5-proは、推論性能とモデル能力の究極的なバランスに重点を置いた、高性能なスパースMoE（Mixture of Experts）大規模言語モデルです。

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70Bは、強化学習によって最適化された大規模言語モデルであり、推論と対話能力に特化しています。

InternVL2_5-78B-MPO — これは、優れた総合性能を示す高度なマルチモーダル大規模言語モデルシリーズです。

自己適応型LLM — 未経験のタスクにもリアルタイムで適応する、自己適応型大規模言語モデルフレームワークです。

InternLM3-8B-Instruct — InternLM3-8B-Instructは、汎用目的と高度な推論を目的とした、80億パラメーターのオープンソース指令モデルです。

MinMo — MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

Moondream AI — 様々なデバイスで動作するオープンソースのビジョン言語モデルです。

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

HuatuoGPT-o1-8B — 高度な医療分野向けの大規模言語モデル

HuatuoGPT-o1 — 医療分野における複雑な推論を専門とする大規模言語モデル

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル