壁面知能オープンソース MiniCPM-V 2.6 端側AIマルチモーダル能力、GPT-4Vに匹敵

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 7, 2024

520

80億パラメータしかない「MiniCPM-V2.6」は、端側多様なAIモデルとして、200億パラメータ以下の単一画像、複数画像、動画の理解において、SOTA（State of the Art、最先端技術）を達成しました。端側AIの多様な能力を大幅に向上させ、GPT-4Vと同等のレベルに匹敵します。

微信截图_20240807080523.png

主な特徴は以下の通りです。

モデルの特徴：MiniCPM-V2.6は、単一画像、複数画像、動画の理解といった主要な機能において、端側で大幅な性能向上を実現しました。リアルタイム動画理解や複数画像の統合理解といった機能を端側に初めて導入し、より複雑で現実的な場面に対応できるようになりました。
効率と性能：このモデルは少ないパラメータで高い性能を発揮し、非常に高いピクセル密度（トークン密度）を誇ります。GPT-4の単一トークンあたりのピクセル密度よりも2倍高く、端側デバイスでも非常に高い実行効率を実現しています。
端側フレンドリー：量子化後、わずか6GBのメモリで動作し、端側での推論速度は毎秒18トークンに達します。これは前世代モデルと比べて33％高速化されており、複数の言語と推論フレームワークに対応しています。
機能拡張：MiniCPM-V2.6はOCR機能により、単一画像の高解像度画像解析能力を複数画像や動画の場面に適用し、視覚トークンの数を削減することで、リソースを節約しています。
推論能力：複数画像の理解や複雑な推論タスクにおいて優れた能力を発揮します。例えば、自転車の座席調整手順の説明や、ミーム画像の皮肉な点の識別などです。
複数画像ICL：このモデルは、少サンプル学習のコンテキストをサポートし、特定のタスクに迅速に適応することで、出力の安定性を向上させます。
高解像度ビジュアルアーキテクチャ：統一されたビジュアルアーキテクチャにより、OCR能力が維持され、単一画像から複数画像、動画へのスムーズな拡張を実現しています。
超低幻覚率：MiniCPM-V2.6は、幻覚評価において優れた結果を示し、その信頼性を証明しています。

MiniCPM-V2.6モデルの登場は、端側AIの発展にとって大きな意味を持ちます。多様な処理能力の向上だけでなく、リソースが限られた端側デバイスでも高性能なAIを実現できる可能性を示しました。

MiniCPM-V2.6のオープンソースアドレス：

GitHub：

https://github.com/OpenBMB/MiniCPM-V

HuggingFace：

https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 配備チュートリアルアドレス：

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPMシリーズオープンソースアドレス：

https://github.com/OpenBMB/MiniCPM

MiniCPM-V2.6 マルチモーダルAI GPT-4V

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

原子力レベルの進化！可霊AIが2.0時代へ突入多様なモード編集と画像編集機能を追加

Apr 15, 2025

報道によると、OpenAIは来週、GPT-4.1シリーズ（Mini版とNano版を含む）を発売

人工知能分野のリーダーであるOpenAIが、来週、新たな技術トレンドを巻き起こそうとしています！テクノロジーメディアThe Vergeの報道によると、OpenAIはGPT-4.1シリーズ、o3シリーズ、その他複数のAIモデルを含む大規模なアップデートを予定しています。この集中リリースは、OpenAIの革新を加速させる野心を示すだけでなく、業界にさらに強力なAIツールをもたらします。GPT-4.1シリーズ：マルチモーダル能力の全面的なアップグレード　GPT-4.0の後継として、GPT-4.1シリーズは

Apr 11, 2025

120

商湯科技日日新V6震撼発表：マルチモーダルAIがさらに進化、APIは明日公開！

先日、商湯科技の創業者である徐立氏が、最新世代の人工知能大規模モデル「日日新V6」を発表しました。このニュースは瞬く間にテクノロジー業界で大きな話題となりました。AIbaseの情報によると、日日新V6はマルチモーダル能力において大きな飛躍を遂げ、商湯科技のAI分野におけるリーダーシップをさらに強固なものにしました。さらに素晴らしいことに、このモデルのAPIは明日正式に公開され、開発者により強力な技術サポートを提供し、AIアプリケーションの迅速な導入を支援します。マルチモーダル能力が全面的にアップグレードされた日日新V6は、商湯科技のSens...

Apr 10, 2025

レノボCTO：マルチモーダルAI協調に賭け、モデル工場を構築してインテリジェントエージェントの普及を加速

Mar 31, 2025

マスクのxAI、動画生成スタートアップHotshot AIを買収　AI動画分野の競争激化

シリコンバレーのテクノロジー大手による版図拡大に新たな章が加わりました！イーロン・マスク率いるxAI社は本日、動画生成AI技術に特化したスタートアップ企業Hotshot社の買収を発表しました。この戦略的買収は、xAI社のマルチモーダルAI技術分野に新たな活力を注入することでしょう。Hotshot社のCEOであるAakash Sastry氏はXプラットフォーム上でこのニュースを正式に発表しましたが、具体的な取引金額については明らかにしていません。Redditの共同設立者Alexis Ohanian氏やSV Angelなどから資金調達を受けていた企業です。

Mar 18, 2025

Cohereが新しいマルチモーダルAIモデルAya Visionを発表 - 32Bと8Bの2つのバージョンを提供

Mar 6, 2025

140

マイクロソフト、マルチモーダルAIエージェント「Magma」をオープンソース化：ショッピングとロボティクス操作に新たな体験をもたらす

Feb 26, 2025

マイクロソフト、新たなマルチモーダルAIエージェント「Magma」をオープンソース化：自動注文と行動予測が可能に

先日、マイクロソフトは公式ウェブサイトで「Magma」というマルチモーダルAIエージェントの基礎モデルを正式にオープンソース化しました。この新型人工知能は、デジタル世界と物理世界の両方で機能し、画像、ビデオ、テキストなど複数のデータ型を同時に処理できます。従来のAIアシスタントと比べてMagmaのユニークな点は、心理予測機能を持つことで、ビデオ内の人物や物体の意図や将来の行動をより正確に理解できることです。Magmaの応用範囲は非常に広く、ユーザーはこのAIを利用して…

Feb 26, 2025

VLM-R1がビジョン言語モデルの新時代を牽引　マルチモーダルAIが新たなブレークスルーを迎える

先日、VLM-R1プロジェクトの成功裏での立ち上げは、この分野に新たな光明をもたらしました。このプロジェクトは、DeepSeekチームによるR1手法のビジョン言語モデルへの成功裏の移行であり、AIによる視覚コンテンツの理解が新たな段階に入ることを意味します。VLM-R1の着想は、昨年DeepSeekがオープンソース化したR1手法に由来しており、この手法はGRPO（Generative Reward Processing Optimization）強化学習を用いています。

Feb 20, 2025

3.7k

マイクロソフト、マルチモーダルAIモデル「Magma」を発表：視覚、言語、動作決定能力を統合

先日、マイクロソフト研究チームと複数の大学研究者らが、「Magma」というマルチモーダルAIモデルを発表しました。このモデルは、画像、テキスト、ビデオなど複数のデータタイプを処理・統合し、デジタルと物理環境の両方で複雑なタスクを実行するために設計されています。テクノロジーの進歩に伴い、マルチモーダルAIエージェントは、ロボティクス、バーチャルアシスタント、ユーザーインターフェースの自動化など、幅広い分野で活用されています。従来のAIシステムは、視覚言語理解やロボット操作に特化していることが多く、両者を統合することが困難でした。

Feb 20, 2025

2.5k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要