MM1.5

多モーダル大規模言語モデルの最適化と分析

一般製品生産性多モーダル大規模言語モデル

MM1.5は、テキストリッチな画像理解、視覚的参照解決とグラウンディング、およびマルチイメージ推論能力を強化することを目的とした、多モーダル大規模言語モデル（MLLM）シリーズです。MM1アーキテクチャをベースとし、データ中心のモデルトレーニング手法を採用し、モデルトレーニングライフサイクル全体における様々なデータ混合の影響を体系的に探求しました。MM1.5モデルは、10億から300億パラメーターのモデルを含み、密なモデルと混合専門家（MoE）モデルの両方を備えています。広範な実証研究とアブレーションスタディを通じて、詳細なトレーニングプロセスと意思決定に関する知見を提供し、将来のMLLM開発研究のための貴重な指針となります。

Best AI Websites & Tools

MM1.5

MM1.5 最新のトラフィック状況

MM1.5 訪問数の傾向

MM1.5 訪問地理的分布

MM1.5 トラフィックソース

MM1.5 代替品

MM1.5 — 多モーダル大規模言語モデルの最適化と分析

InternVL2_5-78B — 最先端多モーダル大規模言語モデルシリーズ

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

mPLUG-Owl3 — 長画像シーケンスを理解するマルチモーダル大規模言語モデル。

MiniCPM-V 2.6 — 高性能多モーダル言語モデル。画像と動画の理解に最適です。

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

零一万物大規模言語モデル開放プラットフォーム — API経由で高品質Yiシリーズ大規模言語モデルにアクセスできる開放プラットフォームです。

DocLLM — 多モーダル文書理解モデル

Argo — 自分自身の大規模モデルを簡単に構築し、専用の知恵をローカルで実現します。

Firecrawl LLMs.txt ジェネレーター — LLMのトレーニングと推論のために、ウェブサイトを統合したテキストファイルを生成するツール

NotaGen — NotaGen は、大規模言語モデルのトレーニングパラダイムを採用し、高品質のクラシック音楽楽譜の生成に特化した、記号音楽生成モデルです。

AoT — Atom of Thoughts (AoT)は大規模言語モデルの推論性能を向上させるためのフレームワークです。

語析Yuxi-Know — 大規模言語モデルRAGナレッジベースに基づく知識グラフQ&Aシステムで、複数の主要な言語モデルへの対応とローカル展開をサポートしています。

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

ViDoRAG — ViDoRAGは、視覚ドキュメント検索を強化した生成のための動的イテレーティブ推論エージェントフレームワークです。

Migician — Migicianは、複数の画像の配置に特化した多モーダル大規模言語モデルであり、自由形式の複数の画像の精密配置を実現できます。

Level-Navi Agent-Search — Level-Navi Agentは、トレーニングなしで使用できるフレームワークであり、大規模言語モデルを使用して、深層クエリ理解と正確な検索を実行します。

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

SWE-RL — 強化学習により、オープンソースソフトウェアの進化における大規模言語モデルの推論能力を向上させます。

TableGPT2-7B — TableGPT2-7Bは、表データ処理に特化した大規模言語モデルであり、データ分析やビジネスインテリジェンスのタスクに最適です。

VLM-R1 — VLM-R1は、安定性と汎用性に優れた強化学習に基づくビジュアル言語モデルであり、画像理解タスクに特化しています。

Coding-Tutor — 大規模言語モデルをプログラミング指導ツールとして活用する可能性を探求し、Trace-and-Verifyワークフローを提案します。

kg-gen — あらゆるテキストから知識グラフを抽出するAIツールです。

百宝箱Tbox — アリペイの生活シーンに基づき、最先端の大規模言語モデル技術を活用して、企業が専門的なインテリジェントエージェントを迅速に構築できるように支援します。

MoBA — MoBAは、長文コンテキストに対応した混合ブロックアテンション機構であり、大規模言語モデルの効率化を目的としています。

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

Goedel-Prover — Goedel-Proverは、数学問題の形式化証明に特化したオープンソースの自動定理証明モデルです。

OmniParser-v2.0 — OmniParserは、UIスクリーンショットを構造化されたフォーマットに変換し、LLMベースのUIエージェントのパフォーマンスを向上させる汎用スクリーン解析ツールです。

Steev — SteevはAIモデルのトレーニングを最適化するためのツールで、トレーニング効率とモデル性能の向上を支援します。

DMXAPI — DMXAPIは、300種類以上の大規模言語モデル（LLM）APIを統合するグローバルなプラットフォームです。