El instituto de investigación de Alibaba, DAMO Academy, ha lanzado un modelo de lenguaje grande multilingüe de código abierto Babel, cuyo ambicioso objetivo es cerrar la brecha lingüística, permitiendo que la IA comprenda y utilice la comunicación en más del 90% de los idiomas del mundo.
Muchos modelos de lenguaje grandes actuales tienden a favorecer idiomas con abundantes recursos, como el inglés, el francés y el alemán. Sin embargo, al igual que los hablantes de idiomas minoritarios que a menudo se pasan por alto en las conferencias mundiales, los idiomas con grandes comunidades de usuarios como el hindi, el bengalí y el urdu, también suelen ser ignorados en el campo de la IA.
Babel de Alibaba busca cambiar esta situación. Admite los 25 idiomas más hablados del mundo, cubriendo a más del 90% de la población mundial. Más aún, Babel también se centra en idiomas como el swahili, el javanés y el birmano, que rara vez se incluyen en los LLM de código abierto. Esta iniciativa sin duda proporcionará servicios de lenguaje de IA más convenientes y de mejor calidad a miles de millones de personas que utilizan estos idiomas.
A diferencia de los métodos tradicionales de preentrenamiento continuo, Babel emplea una técnica única de expansión de capas para mejorar las capacidades del modelo. Este método se puede entender como una forma más inteligente de añadir "conocimiento" a la base del modelo, mejorando así el rendimiento y manteniendo la eficiencia computacional. El equipo de investigación ha lanzado dos modelos con características únicas: Babel-9B, optimizado para la inferencia y el ajuste fino eficientes en una sola GPU; y Babel-83B, un "gigante" con 83 mil millones de parámetros diseñado para establecer un nuevo estándar para los LLM multilingües de código abierto.
Para verificar la capacidad de Babel, el equipo de investigación realizó evaluaciones rigurosas en múltiples tareas multilingües. Los resultados fueron alentadores: tanto Babel-9B (9 mil millones de parámetros) como Babel-83B (83 mil millones de parámetros) superaron a otros modelos de código abierto de tamaño similar en varias pruebas de referencia. Por ejemplo, Babel mostró un excelente rendimiento en tareas de conocimiento mundial (MMMLU, M3Exam), razonamiento (MGSM, XCOPA), comprensión (XNLI) y traducción (Flores-200).
Cabe destacar que la precisión de Babel al procesar idiomas con pocos recursos mejoró entre un 5% y un 10% en comparación con los LLM multilingües anteriores. Esto demuestra que Babel, además de mejorar la cobertura lingüística, también se centra en el rendimiento del modelo en diversos idiomas.
Más sorprendente aún, después del ajuste fino supervisado (SFT) en más de un millón de conjuntos de datos de conversación, las versiones de chat de Babel, Babel-9B-Chat y Babel-83B-Chat, mostraron una potente capacidad de conversación, con un rendimiento comparable incluso a algunos modelos de IA comerciales de vanguardia; Babel-83B-Chat, por ejemplo, puede competir con GPT-4 en algunas tareas. Esto sin duda inyecta nueva vitalidad a la comunidad de código abierto, demostrando que los modelos de código abierto también pueden lograr una posición de liderazgo en capacidades multilingües.
Proyecto: https://babel-llm.github.io/babel-llm/
GitHub: https://github.com/babel-llm/babel-llm