Le modèle d'intelligence artificielle multimodale embarqué "MiniCPM-V2.6", avec seulement 8 milliards de paramètres, a atteint des résultats SOTA (State of the Art, soit le meilleur niveau actuel) pour la compréhension d'images simples, multiples et de vidéos, surpassant les modèles de moins de 20 milliards de paramètres. Il améliore considérablement les capacités multimodales de l'IA embarquée et se compare directement à GPT-4V.
Voici un résumé des caractéristiques :
Caractéristiques du modèle : MiniCPM-V2.6 surpasse largement les autres modèles embarqués en matière de compréhension d'images simples, multiples et de vidéos. Il intègre pour la première fois la compréhension vidéo en temps réel et la compréhension conjointe d'images multiples sur des appareils embarqués, se rapprochant ainsi des scénarios réels complexes.
Efficacité et performance : Ce modèle, malgré sa petite taille, offre une densité de jetons (pixels) extrêmement élevée, deux fois supérieure à celle de GPT-4 pour un jeton unique. Il assure une grande efficacité sur les appareils embarqués.
Compatibilité embarquée : Après quantification, le modèle ne nécessite que 6 Go de mémoire. La vitesse d'inférence embarquée atteint 18 jetons par seconde, soit 33 % plus rapide que la génération précédente. Il prend en charge plusieurs langues et frameworks d'inférence.
Extension des fonctionnalités : Grâce à ses capacités OCR, MiniCPM-V2.6 étend les capacités d'analyse d'images haute définition des scènes à image unique aux scènes à images multiples et aux vidéos, réduisant ainsi le nombre de jetons visuels et économisant des ressources.
Capacités d'inférence : Il excelle dans la compréhension d'images multiples et les tâches d'inférence complexes, comme l'explication des étapes de réglage d'une selle de vélo ou l'identification des points comiques d'un mème.
ICL multi-images : Le modèle prend en charge l'apprentissage faiblement supervisé avec peu de contexte, s'adaptant rapidement aux tâches spécifiques à un domaine et améliorant la stabilité des résultats.
Architecture visuelle haute définition : Grâce à une architecture visuelle unifiée, les capacités OCR du modèle sont maintenues, permettant une extension fluide de l'image unique à l'image multiple et à la vidéo.
Taux d'hallucinations très faible : MiniCPM-V2.6 affiche d'excellents résultats en matière d'évaluation des hallucinations, démontrant ainsi sa fiabilité.
Le lancement de MiniCPM-V2.6 est d'une importance capitale pour le développement de l'IA embarquée. Il améliore non seulement les capacités de traitement multimodales, mais démontre également la possibilité de réaliser une IA performante sur des appareils embarqués aux ressources limitées.
Adresse du dépôt open source de MiniCPM-V2.6 :
GitHub :
https://github.com/OpenBMB/MiniCPM-V
HuggingFace :
https://huggingface.co/openbmb/MiniCPM-V-2_6
Tutoriels de déploiement llama.cpp, ollama, vllm :
https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc
Dépôts open source de la série MiniCPM :
https://github.com/OpenBMB/MiniCPM