El equipo de Google DeepMind ha lanzado oficialmente el conjunto de datos WebLI-100B, un enorme conjunto de datos que contiene 100 mil millones de pares imagen-texto, diseñado para mejorar la diversidad cultural y la multilingüismo de los modelos de lenguaje visual de inteligencia artificial. Con este conjunto de datos, los investigadores esperan mejorar el rendimiento de los modelos de lenguaje visual en diferentes contextos culturales y lingüísticos, al tiempo que reducen las diferencias de rendimiento entre los diferentes subgrupos, mejorando así la inclusividad de la IA.
Los modelos de lenguaje visual (VLMs) dependen de grandes conjuntos de datos para aprender a conectar imágenes y texto, realizando tareas como la generación de subtítulos de imágenes y la respuesta a preguntas visuales. Anteriormente, estos modelos se basaban principalmente en grandes conjuntos de datos como Conceptual Captions y LAION, que, aunque contienen millones o miles de millones de pares imagen-texto, su progreso se ha ralentizado a una escala de 10 mil millones de pares, lo que limita la mejora de la precisión y la inclusión del modelo.
El lanzamiento del conjunto de datos WebLI-100B pretende abordar este desafío. A diferencia de los conjuntos de datos anteriores, WebLI-100B no se basa en métodos de filtrado estrictos, que suelen eliminar detalles culturales importantes. En cambio, se centra en ampliar el alcance de los datos, especialmente en áreas como los idiomas con pocos recursos y las expresiones culturales diversas. El equipo de investigación realizó un entrenamiento previo del modelo en diferentes subconjuntos de WebLI-100B para analizar el impacto del tamaño de los datos en el rendimiento del modelo.
Las pruebas mostraron que los modelos entrenados con el conjunto de datos completo superaron significativamente a los modelos entrenados con conjuntos de datos más pequeños en tareas culturales y multilingües, incluso con los mismos recursos computacionales. Además, se descubrió que ampliar el conjunto de datos de 10 mil millones a 100 mil millones de pares tuvo un impacto menor en los puntos de referencia centrados en Occidente, pero mejoró significativamente las tareas de diversidad cultural y la recuperación de idiomas con pocos recursos.
Artículo:https://arxiv.org/abs/2502.07617
Puntos clave:
🌐 **Nuevo conjunto de datos**: WebLI-100B es un enorme conjunto de datos que contiene 100 mil millones de pares imagen-texto, diseñado para mejorar la diversidad cultural y la multilingüismo de los modelos de IA.
📈 **Mejora del rendimiento del modelo**: Los modelos entrenados con el conjunto de datos WebLI-100B superan a los modelos entrenados con conjuntos de datos anteriores en tareas multiculturales y multilingües.
🔍 **Reducción de sesgos**: El conjunto de datos WebLI-100B evita el filtrado estricto, conservando más detalles culturales y mejorando la inclusión y la precisión del modelo.