80億パラメータしかない「MiniCPM-V2.6」は、端側多様なAIモデルとして、200億パラメータ以下の単一画像、複数画像、動画の理解において、SOTA(State of the Art、最先端技術)を達成しました。端側AIの多様な能力を大幅に向上させ、GPT-4Vと同等のレベルに匹敵します。
主な特徴は以下の通りです。
モデルの特徴:MiniCPM-V2.6は、単一画像、複数画像、動画の理解といった主要な機能において、端側で大幅な性能向上を実現しました。リアルタイム動画理解や複数画像の統合理解といった機能を端側に初めて導入し、より複雑で現実的な場面に対応できるようになりました。
効率と性能:このモデルは少ないパラメータで高い性能を発揮し、非常に高いピクセル密度(トークン密度)を誇ります。GPT-4の単一トークンあたりのピクセル密度よりも2倍高く、端側デバイスでも非常に高い実行効率を実現しています。
端側フレンドリー:量子化後、わずか6GBのメモリで動作し、端側での推論速度は毎秒18トークンに達します。これは前世代モデルと比べて33%高速化されており、複数の言語と推論フレームワークに対応しています。
機能拡張:MiniCPM-V2.6はOCR機能により、単一画像の高解像度画像解析能力を複数画像や動画の場面に適用し、視覚トークンの数を削減することで、リソースを節約しています。
推論能力:複数画像の理解や複雑な推論タスクにおいて優れた能力を発揮します。例えば、自転車の座席調整手順の説明や、ミーム画像の皮肉な点の識別などです。
複数画像ICL:このモデルは、少サンプル学習のコンテキストをサポートし、特定のタスクに迅速に適応することで、出力の安定性を向上させます。
高解像度ビジュアルアーキテクチャ:統一されたビジュアルアーキテクチャにより、OCR能力が維持され、単一画像から複数画像、動画へのスムーズな拡張を実現しています。
超低幻覚率:MiniCPM-V2.6は、幻覚評価において優れた結果を示し、その信頼性を証明しています。
MiniCPM-V2.6モデルの登場は、端側AIの発展にとって大きな意味を持ちます。多様な処理能力の向上だけでなく、リソースが限られた端側デバイスでも高性能なAIを実現できる可能性を示しました。
MiniCPM-V2.6のオープンソースアドレス:
GitHub:
https://github.com/OpenBMB/MiniCPM-V
HuggingFace:
https://huggingface.co/openbmb/MiniCPM-V-2_6
llama.cpp、ollama、vllm 配備チュートリアルアドレス:
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
MiniCPMシリーズオープンソースアドレス:
https://github.com/OpenBMB/MiniCPM