Recientemente, la Universidad de Zhejiang y el instituto de investigación de Alibaba, DAMO Academy, publicaron un estudio notable que busca crear libros de texto multimodales de alta calidad a partir de videos educativos. Este innovador resultado de investigación no solo proporciona nuevas ideas para el entrenamiento de modelos lingüísticos de gran tamaño (VLMs), sino que también podría revolucionar la forma en que se utilizan los recursos educativos.

Con el rápido desarrollo de la inteligencia artificial, los datos de preentrenamiento de los VLMs dependen principalmente de pares de imágenes y texto, y de materiales que entremezclan imágenes y texto. Sin embargo, estos datos, que provienen principalmente de páginas web, presentan una correlación débil entre texto e imagen, y una densidad de conocimiento relativamente baja, lo que impide una inferencia visual compleja.

image.png

Para abordar este desafío, el equipo de investigación decidió extraer datos de conocimiento de alta calidad de la gran cantidad de videos educativos disponibles en internet. Recopilaron más de 150.000 videos educativos, y después de un filtrado y procesamiento meticulosos, seleccionaron 75.000 videos de alta calidad, que abarcan diversas materias como matemáticas, física y química, con una duración total de más de 22.000 horas.

Los investigadores diseñaron un complejo proceso de "video a libro de texto". Primero, utilizaron tecnología de reconocimiento automático del habla (ASR) para transcribir el contenido de los videos en texto. Luego, mediante el análisis de imágenes y la coincidencia de texto, seleccionaron los fragmentos altamente relevantes para los puntos de conocimiento. Finalmente, estos fotogramas clave procesados, texto OCR y texto transcrito se organizaron de forma intercalada para formar un libro de texto multimodal rico en contenido y con una estructura rigurosa.

image.png

Los resultados preliminares de esta investigación muestran que, en comparación con los conjuntos de datos anteriores centrados en páginas web, el nuevo conjunto de datos de libros de texto presenta una densidad de conocimiento y una correlación de imágenes significativamente mejoradas, proporcionando una base más sólida para el aprendizaje de los VLMs. Además, la investigación ha llamado la atención de la comunidad académica, y el conjunto de datos correspondiente en la plataforma Hugging Face ha ascendido rápidamente en las listas de popularidad, con más de 7000 descargas en apenas dos semanas.

Mediante este innovador intento, los investigadores esperan no solo impulsar el desarrollo de los VLMs, sino también abrir nuevas posibilidades en la integración y aplicación de recursos educativos.

Dirección del artículo: https://arxiv.org/pdf/2501.00958