Recientemente, el equipo de VITA-MLLM anunció el lanzamiento de VITA-1.5, una versión mejorada de VITA-1.0 que se centra en mejorar la velocidad y precisión de la interacción multimodal en tiempo real. VITA-1.5 no solo admite inglés y chino, sino que también ha logrado mejoras significativas en varios indicadores de rendimiento, ofreciendo a los usuarios una experiencia de interacción más fluida.
En VITA-1.5, la latencia de interacción se ha reducido drásticamente, pasando de 4 segundos a solo 1.5 segundos. Los usuarios apenas perciben la demora al interactuar por voz. Además, esta versión presenta una mejora notable en el rendimiento multimodal. Tras la evaluación, VITA-1.5 ha mejorado su rendimiento medio en varias pruebas de referencia, como MME, MMBench y MathVista, pasando del 59.8 al 70.8, demostrando una capacidad excepcional.
VITA-1.5 también ha optimizado profundamente su capacidad de procesamiento de voz. La tasa de error de su sistema de reconocimiento automático del habla (ASR) se ha reducido significativamente, pasando del 18.4 al 7.5, lo que permite una comprensión y respuesta más precisa de las instrucciones de voz. Simultáneamente, VITA-1.5 incorpora un módulo de texto a voz (TTS) de extremo a extremo que acepta directamente las incrustaciones de modelos de lenguaje grandes (LLM) como entrada, mejorando así la naturalidad y coherencia de la síntesis de voz.
Para asegurar un equilibrio en las capacidades multimodales, VITA-1.5 emplea una estrategia de entrenamiento incremental, minimizando el impacto del nuevo módulo de procesamiento de voz en el rendimiento visual-lingüístico. El rendimiento de la comprensión de imágenes ha disminuido ligeramente, del 71.3 al 70.8. Gracias a estas innovaciones tecnológicas, el equipo ha impulsado los límites de la interacción visual y de voz en tiempo real, sentando las bases para futuras aplicaciones de interacción inteligente.
En cuanto al uso de VITA-1.5, los desarrolladores pueden iniciarse rápidamente mediante sencillas instrucciones de línea de comandos, y se ofrecen demostraciones básicas e interactivas en tiempo real. Los usuarios necesitarán algunos módulos esenciales, como un módulo de detección de actividad de voz (VAD), para mejorar la experiencia de interacción en tiempo real. Además, VITA-1.5 también hará público su código para facilitar la participación y contribución de los desarrolladores.
El lanzamiento de VITA-1.5 representa otro avance importante en el campo de los modelos de lenguaje grandes multimodales interactivos, demostrando la incesante búsqueda de innovación tecnológica y una excelente experiencia de usuario por parte del equipo.
Enlace al proyecto:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file
Puntos clave:
🌟 VITA-1.5 reduce drásticamente la latencia de interacción, de 4 segundos a 1.5 segundos, mejorando significativamente la experiencia del usuario.
📈 Mejora del rendimiento multimodal, con una mejora del rendimiento medio en varias pruebas de referencia, pasando del 59.8 al 70.8.
🔊 Mayor capacidad de procesamiento de voz, con una reducción de la tasa de error del ASR del 18.4 al 7.5, lo que resulta en un reconocimiento de voz más preciso.