Das „MiniCPM-V2.6“-Modell ist ein multimodales KI-Modell für Endgeräte. Mit nur 8 Milliarden Parametern erreicht es Spitzenleistungen (State of the Art, SOTA) in den Bereichen Einzelbild-, Mehrbild- und Videoanalyse unterhalb der 20-Milliarden-Parameter-Marke. Dies verbessert die multimodale Fähigkeit von KI auf Endgeräten deutlich und ist vergleichbar mit GPT-4V.

微信截图_20240807080523.png

Im Folgenden eine Zusammenfassung der Eigenschaften:

  1. Modellmerkmale: MiniCPM-V2.6 übertrifft deutlich die Kernfunktionen von Einzelbild-, Mehrbild- und Videoanalyse auf Endgeräten. Es integriert erstmalig Echtzeit-Videoanalyse und kombinierte Mehrbildanalyse auf Endgeräten und kommt damit komplexen realen Szenarien näher.

  2. Effizienz und Leistung: Das Modell erzielt mit geringen Ressourcen eine hohe Leistung und weist eine extrem hohe Pixeldichte (Token-Dichte) auf – doppelt so hoch wie bei GPT-4o. Auf Endgeräten erreicht es eine sehr hohe Ausführungseffizienz.

  3. Endgeräte-Kompatibilität: Nach der Quantisierung benötigt das Modell nur 6 GB Arbeitsspeicher. Die Inferenzgeschwindigkeit beträgt 18 Token pro Sekunde, 33 % schneller als beim Vorgängermodell. Es unterstützt mehrere Sprachen und Inferenz-Frameworks.

  4. Funktionserweiterung: MiniCPM-V2.6 nutzt OCR-Funktionen, um die hochauflösende Bildanalyse von Einzelbildern auf Mehrbilder und Videos zu übertragen. Dies reduziert die Anzahl der visuellen Token und spart Ressourcen.

  5. Inferenzfähigkeit: Es zeigt hervorragende Fähigkeiten im Verständnis von Mehrbildern und komplexen Inferenzaufgaben, z. B. die Beschreibung der Schritte zum Einstellen eines Fahrradsitzes oder die Erkennung des Humors in einem Meme.

  6. Mehrbild-ICL: Das Modell unterstützt das Lernen mit wenigen Beispielen im Kontext und passt sich schnell an Aufgaben in bestimmten Bereichen an, wodurch die Stabilität der Ausgabe verbessert wird.

  7. Hochleistungs-Bildarchitektur: Durch eine einheitliche Bildarchitektur wird die OCR-Fähigkeit des Modells fortgesetzt und ermöglicht eine nahtlose Erweiterung von Einzelbildern auf Mehrbilder und Videos.

  8. Sehr niedrige Halluzinationsrate: MiniCPM-V2.6 zeigt bei der Halluzinationsprüfung hervorragende Ergebnisse und demonstriert seine Zuverlässigkeit.

Die Einführung des MiniCPM-V2.6-Modells ist von großer Bedeutung für die Entwicklung von KI auf Endgeräten. Es verbessert nicht nur die multimodale Verarbeitungsfähigkeit, sondern zeigt auch die Möglichkeit, leistungsstarke KI auf ressourcenbeschränkten Endgeräten zu implementieren.

MiniCPM-V2.6 Open-Source-Adresse:

GitHub:

https://github.com/OpenBMB/MiniCPM-V

HuggingFace:

https://huggingface.co/openbmb/MiniCPM-V-2_6

Deployment-Tutorials für llama.cpp, ollama und vllm:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

Open-Source-Adressen der MiniCPM-Serie:

https://github.com/OpenBMB/MiniCPM