L'équipe VITA-MLLM a récemment annoncé le lancement de VITA-1.5, une mise à jour de VITA-1.0 axée sur l'amélioration de la réactivité et de la précision de l'interaction multimodale. VITA-1.5 prend en charge l'anglais et le chinois, et affiche des améliorations significatives sur plusieurs indicateurs de performance, offrant ainsi une expérience utilisateur plus fluide.

79e9529425a7e3b44d98a5bfa01d644e.png

Dans VITA-1.5, le délai d'interaction a été considérablement réduit, passant de 4 secondes à seulement 1,5 seconde. Les utilisateurs ne ressentent pratiquement plus aucun délai lors des interactions vocales. De plus, cette version présente des améliorations notables en termes de performances multimodales. Après évaluation, VITA-1.5 a vu ses performances moyennes augmenter de 59,8 à 70,8 sur plusieurs tests de référence tels que MME, MMBench et MathVista, démontrant ainsi ses capacités exceptionnelles.

VITA-1.5 a également bénéficié d'une optimisation approfondie de ses capacités de traitement de la parole. Le taux d'erreur de son système de reconnaissance automatique de la parole (ASR) a été significativement réduit, passant de 18,4 % à 7,5 %, ce qui rend la compréhension et la réponse aux instructions vocales plus précises. Parallèlement, VITA-1.5 intègre un module texte-parole (TTS) de bout en bout, capable d'accepter directement les embeddings des grands modèles linguistiques (LLM) comme entrée, améliorant ainsi le naturel et la cohérence de la synthèse vocale.

Pour garantir un équilibre des capacités multimodales, VITA-1.5 utilise une stratégie d'entraînement progressive, minimisant l'impact du nouveau module de traitement de la parole sur les performances visuelles et linguistiques. Les performances de compréhension d'image ont légèrement diminué, passant de 71,3 à 70,8. Grâce à ces innovations techniques, l'équipe repousse les limites de l'interaction visuelle et vocale en temps réel, jetant les bases des futures applications d'interaction intelligente.

image.png

En ce qui concerne l'utilisation de VITA-1.5, les développeurs peuvent démarrer rapidement grâce à de simples commandes en ligne de commande, avec des démonstrations d'interaction de base et en temps réel. Les utilisateurs doivent préparer certains modules nécessaires, tels qu'un module de détection d'activité vocale (VAD), pour améliorer l'expérience d'interaction en temps réel. De plus, VITA-1.5 sera open source, permettant à un large éventail de développeurs de participer et de contribuer.

Le lancement de VITA-1.5 marque une avancée majeure dans le domaine des grands modèles linguistiques multimodaux interactifs, démontrant la poursuite incessante de l'innovation technologique et de l'expérience utilisateur par l'équipe.

Accès au projet : https://github.com/VITA-MLLM/VITA?tab=readme-ov-file

Points clés :

🌟 VITA-1.5 réduit considérablement le délai d'interaction, passant de 4 secondes à 1,5 seconde, améliorant ainsi significativement l'expérience utilisateur.

📈 Amélioration des performances multimodales, avec une augmentation des performances moyennes de 59,8 à 70,8 sur plusieurs tests de référence.

🔊 Amélioration des capacités de traitement de la parole, avec une réduction du taux d'erreur de l'ASR de 18,4 % à 7,5 %, pour une reconnaissance vocale plus précise.