L'équipe OpenBMB a récemment lancé MiniCPM-o2.6, le dernier-né et le plus puissant modèle linguistique multimodal de grande taille (MLLM) de cette série. Le point fort de MiniCPM-o2.6 réside dans ses 800 millions de paramètres, lui permettant d'atteindre des performances proches de celles de GPT-4o-202405 dans les domaines de la vision, de la voix et de la diffusion multimodale en direct, devenant ainsi un choix polyvalent et efficace au sein de la communauté open source.
MiniCPM-o2.6 possède de puissantes capacités de traitement d'entrée, capable d'accepter plusieurs types d'entrées telles que des images, des vidéos, du texte et de l'audio, et de fournir des sorties textuelles et vocales de haute qualité.
Le mode vocal de ce modèle intègre une nouvelle fonctionnalité de dialogue bilingue en temps réel. Les utilisateurs peuvent configurer différentes voix selon leurs besoins, contrôler les émotions, la vitesse et le style, et même réaliser des applications intéressantes telles que des jeux de rôle et le clonage vocal. Ces innovations rendent l'expérience interactive de MiniCPM-o2.6 plus riche, offrant aux utilisateurs une communication plus naturelle et fluide.
Au-delà des avancées en matière de dialogue vocal, MiniCPM-o2.6 a également réalisé des progrès significatifs dans le traitement visuel. Ses puissantes fonctionnalités OCR (reconnaissance optique de caractères) et sa prise en charge multilingue le rendent plus efficace pour la compréhension vidéo en temps réel. Cette capacité exceptionnelle permet pour la première fois la diffusion multimodale en direct sur les appareils mobiles, permettant aux utilisateurs de diffuser en direct sur des appareils tels que l'iPad, offrant ainsi un partage de contenu plus interactif et divertissant.
Depuis février 2024, six versions de la série MiniCPM ont été publiées. L'équipe vise à améliorer continuellement les performances et l'efficacité du déploiement du modèle. Ce modèle représente non seulement une innovation technologique, mais aussi une avancée majeure dans l'expérience d'interaction multimodale. Que ce soit pour des applications professionnelles ou des interactions ludiques dans la vie quotidienne, MiniCPM-o2.6 deviendra un assistant intelligent indispensable pour les utilisateurs.
Adresse du projet : https://github.com/OpenBMB/MiniCPM-o