Récemment, l'Université de Zhejiang et l'institut de recherche Alibaba DAMO ont publié conjointement une étude remarquable visant à créer des manuels scolaires multimodaux de haute qualité à partir de vidéos pédagogiques. Ce résultat innovant offre non seulement de nouvelles pistes pour l'entraînement des grands modèles linguistiques visuels (VLMs), mais pourrait également révolutionner l'utilisation des ressources éducatives.
Avec le développement rapide de l'intelligence artificielle, les données de pré-entraînement des VLMs reposent principalement sur des paires d'images et de textes, ainsi que sur des données combinant images et textes. Cependant, ces données, souvent issues du web, présentent une faible corrélation entre le texte et l'image, et une densité de connaissances relativement faible, ce qui ne permet pas une inférence visuelle complexe.
Pour relever ce défi, l'équipe de recherche a décidé d'extraire des données de connaissances de haute qualité à partir de l'immense quantité de vidéos pédagogiques disponibles sur Internet. Ils ont collecté plus de 159 000 vidéos pédagogiques, et après un filtrage et un traitement minutieux, ils ont conservé 75 000 vidéos de haute qualité, couvrant plusieurs disciplines telles que les mathématiques, la physique et la chimie, pour une durée totale de plus de 22 000 heures.
Les chercheurs ont conçu un pipeline complexe de « vidéo à manuel scolaire ». Tout d'abord, la reconnaissance automatique de la parole (ASR) est utilisée pour transcrire le contenu explicatif des vidéos en texte. Ensuite, grâce à l'analyse d'images et à la correspondance de texte, les segments fortement liés aux points de connaissance sont sélectionnés. Enfin, ces images clés traitées, le texte OCR et le texte transcrit sont organisés de manière entrelacée pour former un manuel scolaire multimodal riche en contenu et rigoureux dans sa structure.
Les premiers résultats de cette étude montrent que, comparé aux ensembles de données centrés sur le web, le nouvel ensemble de données de manuels scolaires présente une densité de connaissances et une corrélation image-texte nettement améliorées, offrant une base plus solide pour l'apprentissage des VLMs. De plus, cette recherche a suscité un vif intérêt au sein de la communauté scientifique, l'ensemble de données associé grimpant rapidement au classement des plus populaires sur la plateforme Hugging Face, avec plus de 7000 téléchargements en seulement deux semaines.
Grâce à cette initiative novatrice, les chercheurs espèrent non seulement faire progresser le développement des VLMs, mais aussi ouvrir de nouvelles perspectives pour l'intégration et l'utilisation des ressources éducatives.
Adresse de l'article : https://arxiv.org/pdf/2501.00958