En el campo de la comprensión de video, los modelos de IA tradicionales suelen gestionar solo videos de corta duración, mostrando limitaciones con contenidos de varias horas o más. Esto se debe principalmente a las restricciones de "ruido y redundancia" y de "memoria y cómputo" que estos modelos enfrentan al procesar videos largos. Ahora, una nueva tecnología llamada Goldfish ha cambiado esta situación.

image.png

Acceso al producto: https://top.aibase.com/tool/goldfish

Goldfish es un método diseñado específicamente para procesar videos de cualquier longitud. Emplea un mecanismo de recuperación eficiente que extrae primero los K fragmentos de video más relevantes para una instrucción dada, y luego genera la respuesta final basándose en estos fragmentos. De esta manera, Goldfish puede procesar eficientemente videos largos como películas o series de televisión.

image.png

Para lograr este objetivo, el equipo de Goldfish también desarrolló MiniGPT4-Video, una herramienta que genera descripciones detalladas de los fragmentos de video. Al combinar fotogramas de video y subtítulos, MiniGPT4-Video puede comprender con precisión la información visual y textual del video, mejorando así la capacidad de procesamiento de videos largos.

image.png

Además, el equipo propuso TVQA-long, una prueba de referencia para evaluar la capacidad de los modelos para comprender videos largos. Goldfish alcanzó una precisión del 41,78% en esta prueba, superando a las tecnologías anteriores.

No solo eso, Goldfish también muestra un rendimiento excelente en la comprensión de videos cortos. En varias pruebas de referencia de videos cortos como MSVD, MSRVTT, TGIF y TVQA, Goldfish superó a los métodos más avanzados existentes, demostrando su gran capacidad en el procesamiento de videos cortos.

Goldfish, mediante un innovador mecanismo de recuperación y un método eficiente de generación de descripciones, ha superado con éxito los desafíos del procesamiento de videos largos, logrando al mismo tiempo un avance significativo en la comprensión de videos cortos.

**Puntos clave:**

Goldfish, mediante un mecanismo de recuperación eficiente y la tecnología de generación de descripciones de MiniGPT4-Video, procesa con éxito videos de cualquier longitud, resolviendo las dificultades que presentan los modelos tradicionales al procesar videos largos.

En la prueba de referencia TVQA-long, Goldfish alcanzó una precisión del 41,78%, superando los niveles tecnológicos anteriores y demostrando su potente capacidad de procesamiento.

Goldfish muestra un rendimiento excelente en varias pruebas de referencia de videos cortos, superando a los métodos más avanzados existentes y demostrando su capacidad integral en la comprensión de videos cortos.