En el ámbito de la IA, una nueva fuerza está emergiendo. El Instituto de Innovación Tecnológica de Abu Dhabi (TII) ha anunciado la publicación de código abierto de su nuevo modelo de lenguaje grande, Falcon2, un modelo con 11 mil millones de parámetros que ha llamado la atención mundial por su excelente rendimiento y capacidades multilingües.
Falcon2 tiene dos versiones: una versión básica, fácil de implementar, capaz de generar texto, código y resúmenes; y un modelo VLM con capacidades de transformación visual, capaz de convertir información de imágenes en texto, algo extremadamente raro en los modelos de lenguaje grande de código abierto. En varias clasificaciones de pruebas de derechos humanos, el rendimiento de Falcon2-11B supera al de Llama38B de Meta y ocupa el primer lugar junto con Gemma7B de Google, lo que demuestra su rendimiento excepcional.
Nota de la fuente de la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney
La capacidad multilingüe de Falcon2-11B le permite manejar fácilmente tareas en varios idiomas, incluyendo inglés, francés, español, alemán y portugués, lo que aumenta su potencial de aplicación en diferentes escenarios. Como modelo visual grande, Falcon2-11B VLM tiene un amplio potencial de aplicación en sectores como la atención médica, las finanzas, el comercio electrónico, la educación y el derecho, capaz de identificar e interpretar imágenes y contenido visual del entorno.
Falcon2-11B se preentrenó en el conjunto de datos de código abierto que construyó, RefinedWeb, utilizando más de 5,5 billones de tokens de datos. Este conjunto de datos es de alta calidad, filtrado y depurado. TII lo mejoró mediante la selección de materiales y empleó una estrategia de entrenamiento de cuatro fases para mejorar la capacidad del modelo de comprensión contextual.
Cabe destacar que Falcon2 es un modelo de lenguaje grande de alto rendimiento y bajo consumo, que puede funcionar de manera eficiente con solo una GPU, lo que lo hace altamente escalable, fácil de implementar e incluso integrable en dispositivos ligeros como computadoras portátiles. Esto ofrece una gran comodidad para las pequeñas y medianas empresas y los desarrolladores individuales, y permite su uso comercial.
El Dr. Hakim Hacid, director ejecutivo del departamento intercentros de inteligencia artificial y director de investigación interino de TII, afirmó que, a medida que evoluciona la tecnología de IA generativa, los desarrolladores reconocen las ventajas de los modelos más pequeños, incluida la reducción de la demanda de recursos informáticos, el cumplimiento de los estándares de sostenibilidad y una mayor flexibilidad.
En mayo de 2023, TII publicó por primera vez el código abierto del modelo de lenguaje grande Falcon-40B, que ocupó el primer lugar en la clasificación de modelos de lenguaje grande de código abierto de Hugging Face, superando a una serie de modelos de código abierto conocidos. Falcon-40B se entrenó en un conjunto de datos de 1 billón de tokens y se puede utilizar para preguntas y respuestas de texto, resúmenes, generación automática de código, traducción de idiomas, etc., y admite el ajuste fino para escenarios empresariales específicos.
Fundado en 2020, TII es un instituto de investigación bajo el Ministerio de Educación Superior y Tecnología Avanzada de Abu Dhabi, cuyo objetivo es impulsar la investigación científica, desarrollar tecnologías de vanguardia y comercializarlas para promover el desarrollo económico de Abu Dhabi y los Emiratos Árabes Unidos. TII cuenta actualmente con más de 800 expertos en investigación de 74 países, ha publicado más de 700 artículos y más de 25 patentes, y es una de las instituciones de investigación científica líderes en el mundo.
La publicación de código abierto de Falcon2 no solo representa el compromiso de TII con el intercambio tecnológico, sino que también es una exploración audaz del futuro desarrollo de la IA. Falcon2 de código abierto reducirá la demanda de recursos informáticos, cumplirá con los estándares de sostenibilidad y mejorará la flexibilidad, integrándose perfectamente en la creciente tendencia de las infraestructuras de IA de borde.
Dirección del modelo: https://huggingface.co/tiiuae/falcon-11B