Recientemente, investigadores del laboratorio Tencent Youtu y otras instituciones lanzaron VITA, el primer modelo de lenguaje multimodal de código abierto. VITA puede procesar simultáneamente video, imágenes, texto y audio, y ofrece una experiencia de interacción de primera clase.
El desarrollo de VITA busca subsanar las deficiencias de los grandes modelos de lenguaje en el manejo de dialectos chinos. Basado en el potente modelo Mixtral8×7B, VITA amplía el vocabulario chino y se ha ajustado con instrucciones bilingües, lo que le permite dominar tanto el inglés como el chino con fluidez.
Características principales:
Comprensión multimodal: VITA puede procesar video, imágenes, texto y audio, algo sin precedentes en modelos de código abierto.
Interacción natural: No necesita que digas "Oye, VITA" cada vez; responde en el momento en que hablas, incluso manteniendo la cortesía y evitando interrupciones innecesarias en conversaciones con otras personas.
Pionero de código abierto: VITA representa un paso importante en la comprensión e interacción multimodal para la comunidad de código abierto, sentando las bases para futuras investigaciones.
La magia de VITA reside en su implementación de doble modelo. Un modelo genera respuestas a las consultas del usuario, mientras que otro rastrea continuamente las entradas del entorno, garantizando la precisión y la puntualidad de cada interacción.
VITA no solo puede chatear, sino que también puede ser un compañero de conversación durante el ejercicio o brindar recomendaciones de viaje. Incluso puede responder preguntas basadas en imágenes o videos proporcionados, demostrando una gran utilidad práctica.
Aunque VITA ya ha demostrado un enorme potencial, continúa evolucionando en aspectos como la síntesis de voz emocional y la compatibilidad multimodal. Los investigadores planean que la próxima generación de VITA pueda generar audio de alta calidad a partir de entradas de video y texto, e incluso exploran la posibilidad de generar simultáneamente audio y video de alta calidad.
El lanzamiento de código abierto del modelo VITA no solo es un triunfo tecnológico, sino también una profunda innovación en las formas de interacción inteligente. A medida que avanza la investigación, tenemos razones para creer que VITA nos brindará experiencias de interacción más inteligentes y humanas.
Enlace al artículo: https://arxiv.org/pdf/2408.05211