Vista-LLaMA
Logra una narración de video confiable mediante una relación equidistante entre tokens visuales y de lenguaje.
Producto ComúnVideoCreación de videoProducción de animación con IA
Vista-LLaMA es un modelo de lenguaje de video avanzado diseñado para mejorar la comprensión de video. Al mantener una distancia consistente entre los tokens visuales y los tokens de lenguaje, reduce la generación de texto no relacionado con el contenido del video, independientemente de la longitud del texto generado. Este método omite la codificación de posición relativa al calcular los pesos de atención entre los tokens visuales y de texto, haciendo que la influencia de los tokens visuales sea más significativa en el proceso de generación de texto. Vista-LLaMA también introduce un proyector visual secuencial que puede proyectar el fotograma de video actual en tokens del espacio del lenguaje, capturando las relaciones temporales dentro del video y reduciendo al mismo tiempo la necesidad de tokens visuales. En varias pruebas de referencia de preguntas y respuestas de video abiertas, el modelo ha mostrado un rendimiento significativamente superior a otros métodos.