Teuken-7B, un modelo de lenguaje con 7 mil millones de parámetros, ya está disponible en Hugging Face y admite las 24 lenguas oficiales de la Unión Europea. Desarrollado por el proyecto de investigación OpenGPT-X de la UE, este modelo se ofrece como código abierto para su uso por parte de los usuarios. A diferencia de la mayoría de los modelos de lenguaje AI centrados en inglés, Teuken-7B se construyó desde cero, con aproximadamente la mitad de los datos de entrenamiento procedentes de lenguas europeas no inglesas.
Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney
El equipo de desarrollo afirma que Teuken-7B ofrece un rendimiento excelente en todas las lenguas con las que se entrenó, mostrando una fiabilidad especialmente impresionante en el manejo de lenguas no inglesas. Para evaluar el rendimiento de los modelos de lenguaje en lenguas europeas, el equipo del proyecto también creó una nueva clasificación europea de LLM, superando los métodos de prueba estándar anteriores, que se basaban principalmente en inglés.
Este lanzamiento representa un avance significativo de Europa en el impulso de modelos de inteligencia artificial multilingües, y proporciona a los desarrolladores una herramienta potente y versátil para aplicaciones e investigaciones multilingües.