OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

Ces dernières années, l'intelligence artificielle a fait des progrès remarquables, mais des défis persistent quant à l'équilibre entre l'efficacité de calcul et la polyvalence. De nombreux modèles multimodaux avancés, tels que GPT-4, nécessitent généralement des ressources de calcul considérables, ce qui limite leur utilisation aux serveurs haut de gamme et rend difficile l'exploitation efficace des technologies intelligentes sur les appareils périphériques comme les smartphones et les tablettes. De plus, le traitement en temps réel de tâches telles que l'analyse vidéo ou la transcription vocale reste un obstacle technique, soulignant le besoin de modèles d'IA efficaces et flexibles capables de fonctionner de manière transparente avec des ressources matérielles limitées.

Pour résoudre ces problèmes, OpenBMB a récemment lancé MiniCPM-o2.6, un modèle doté d'une architecture de 8 milliards de paramètres, conçu pour prendre en charge le traitement visuel, vocal et linguistique, et capable de fonctionner efficacement sur les appareils périphériques tels que les smartphones, les tablettes et les iPad. MiniCPM-o2.6 adopte une conception modulaire intégrant plusieurs composants puissants :

- SigLip-400M pour la compréhension visuelle.

- Whisper-300M pour le traitement vocal multilingue.

- ChatTTS-200M pour les capacités conversationnelles.

- Qwen2.5-7B pour la compréhension avancée de texte.

Ce modèle a obtenu un score moyen de 70,2 au benchmark OpenCompass, surpassant GPT-4V dans les tâches visuelles. Sa prise en charge multilingue et son fonctionnement efficace sur les appareils grand public le rendent pratique dans de nombreux scénarios d'application.

MiniCPM-o2.6 a atteint ses performances exceptionnelles grâce aux détails techniques suivants :

- Optimisation des paramètres : malgré sa taille importante, il a été optimisé grâce à des frameworks tels que llama.cpp et vLLM pour maintenir la précision et réduire les besoins en ressources.

- Traitement multimodal : il prend en charge le traitement d'images jusqu'à une résolution de 1344×1344 et dispose d'une fonction OCR performante.

- Prise en charge du streaming : il prend en charge le traitement continu de la vidéo et de l'audio, ce qui lui permet d'être utilisé dans des scénarios tels que la surveillance en temps réel et la diffusion en direct.

- Caractéristiques vocales : il offre la compréhension vocale bilingue, le clonage vocal et le contrôle émotionnel, favorisant une interaction en temps réel naturelle.

- Facilité d'intégration : compatible avec des plateformes telles que Gradio, il simplifie le processus de déploiement et convient aux applications commerciales avec moins d'un million d'utilisateurs actifs quotidiens.

Ces caractéristiques offrent aux développeurs et aux entreprises la possibilité de déployer des solutions d'IA complexes sans dépendre d'infrastructures massives.

MiniCPM-o2.6 excelle dans divers domaines. Il surpasse GPT-4V dans les tâches visuelles, réalise des conversations en temps réel en chinois et en anglais, le contrôle émotionnel et le clonage vocal dans le traitement vocal, et possède d'excellentes capacités d'interaction en langage naturel. De plus, le traitement continu de la vidéo et de l'audio le rend adapté aux outils de traduction en temps réel et d'apprentissage interactif, garantissant une grande précision dans les tâches d'OCR telles que la numérisation de documents.

Le lancement de MiniCPM-o2.6 représente une avancée importante dans le domaine de l'intelligence artificielle, résolvant avec succès le défi de longue date de la compatibilité entre les modèles gourmands en ressources et les appareils périphériques. En combinant des capacités multimodales avancées et un fonctionnement efficace sur les appareils périphériques, OpenBMB a créé un modèle puissant et accessible. Avec l'importance croissante de l'intelligence artificielle dans la vie quotidienne, MiniCPM-o2.6 montre comment l'innovation peut réduire l'écart entre les performances et la praticabilité, permettant aux développeurs et aux utilisateurs de divers secteurs d'exploiter efficacement les technologies de pointe.

Modèle : https://huggingface.co/openbmb/MiniCPM-o-2_6

Points clés :
🌟 MiniCPM-o2.6 est un modèle multimodal de 8 milliards de paramètres capable de fonctionner efficacement sur les appareils périphériques, prenant en charge le traitement visuel, vocal et linguistique.
🚀 Ce modèle a obtenu d'excellents résultats lors du benchmark OpenCompass, surpassant GPT-4V dans les tâches visuelles et disposant de capacités de traitement multilingue.
🛠️ MiniCPM-o2.6 possède des fonctionnalités de traitement en temps réel, de clonage vocal et de contrôle émotionnel, et convient aux applications innovantes dans divers secteurs tels que l'éducation et la santé.

Actualités IA

OpenBMB publie le modèle multi-modal MiniCPM-o2.6 : traitement visuel et vocal possible même sur téléphone portable

AIbase基地

Recommandations d'actualités IA connexes

FoxBrain : un modèle linguistique chinois de grande envergure lancé par Foxconn en seulement quatre semaines !

Le département de la Justice américain exige que Google vende Chrome et assouplit les restrictions sur les investissements en IA

Google supprime discrètement les mentions de « diversité » et d'« équité » sur la page web de son équipe d'intelligence artificielle

Dynatomics, la nouvelle entreprise d'IA de Larry Page, vise à révolutionner la fabrication grâce à l'intelligence artificielle