¡Llega el modelo de código abierto más potente! Llama 3.1 supera a GPT-4o con 405 mil millones de parámetros

En el mundo de la inteligencia artificial, la batalla entre código abierto y código cerrado nunca ha cesado. Ahora, el lanzamiento del modelo Llama 3.1 de Meta AI parece marcar un punto de inflexión en esta lucha. No se trata solo del lanzamiento de un modelo, sino de una señal del crecimiento de la IA de código abierto, que presagia una nueva era.

Llama 3.1 es un modelo de lenguaje grande de nueva generación desarrollado por el equipo de Meta AI. En más de 150 pruebas de referencia, su versión de 405B parámetros no solo igualó a los modelos más avanzados existentes, GPT-4o y Claude 3.5 Sonnet, sino que incluso los superó en algunos aspectos. Este logro marca la primera vez que un modelo de IA de código abierto iguala el rendimiento de los modelos de código cerrado.

Para entrenar el modelo Llama 3.1 de 405B parámetros, Meta optimizó significativamente toda la pila de entrenamiento y, por primera vez, amplió la escala de potencia de cálculo del modelo a más de 16000 GPU H100. Utilizando la arquitectura Transformer de decodificador únicamente estándar, con modificaciones menores, y mediante un proceso iterativo de post-entrenamiento, cada ronda incluye SFT (ajuste fino supervisado) y DPO (optimización de preferencia directa) para mejorar el rendimiento.

Meta mejoró la capacidad de respuesta del modelo a las instrucciones del usuario, reforzando su capacidad para seguir instrucciones detalladas, al tiempo que garantiza la seguridad. En la etapa de post-entrenamiento, se realizó un alineamiento multironda, utilizando datos sintéticos para generar la mayoría de los ejemplos SFT y aplicando diversas técnicas de procesamiento de datos para filtrar la información hasta lograr la máxima calidad.

Puntos destacados de la tecnología:

Extensión de la longitud del contexto: Llama 3.1 extiende la longitud del contexto a 128K, lo que significa que el modelo puede manejar tareas más complejas y comprender información textual más extensa.
Soporte multilingüe: El modelo agrega soporte para ocho idiomas, incluyendo inglés, francés, alemán, hindi, italiano, portugués, español y tailandés, lo que aumenta considerablemente su versatilidad.
Rendimiento excepcional: Llama 3.1 demuestra un rendimiento excepcional en áreas como el sentido común, la manejabilidad, las matemáticas, el uso de herramientas y la traducción multilingüe.
Llama 3.1 se entrenó con más de 15 billones de tokens, una escala de entrenamiento sin precedentes en la industria.
Arquitectura del modelo: Llama 3.1 utiliza la arquitectura Transformer de decodificador únicamente estándar, con ajustes menores para mejorar el rendimiento del modelo.

El CEO de Meta, Mark Zuckerberg, declaró en una entrevista que la IA de código abierto será un punto de inflexión para la industria. Destacó las ventajas de la IA de código abierto en términos de apertura, modificabilidad y eficiencia de costes, y que impulsará la popularización y el desarrollo de la tecnología de IA.

La IA de código abierto permite a los desarrolladores modificar libremente el código, proteger la seguridad de los datos y ofrece modelos eficientes y asequibles. Además, la IA de código abierto se desarrolla rápidamente y tiene el potencial de convertirse en un estándar a largo plazo.

Meta está colaborando con varias empresas para desarrollar un ecosistema más amplio que apoye a los desarrolladores en el ajuste fino y la destilación de sus propios modelos. Estos modelos estarán disponibles en todas las principales plataformas en la nube, incluyendo AWS, Azure, Google y Oracle.

El lanzamiento de Llama 3.1 indica que la inteligencia artificial de código abierto podría convertirse en el estándar de la industria, abriendo nuevas vías para la popularización y aplicación de la IA.

Información detallada oficial: https://ai.meta.com/blog/meta-llama-3-1/

Noticias de IA

¡Llega el modelo de código abierto más potente! Llama 3.1 supera a GPT-4o con 405 mil millones de parámetros

AIbase基地

Noticias de IA relacionadas recomendadas

¡Olvídate de la computación en la nube! Alibaba lanza el nuevo modelo de inferencia de código abierto Tongyi Qianwen QwQ-32B ¡Incluso las tarjetas gráficas de consumo ofrecen rendimiento de nivel S!

QwQ-32B: Nuevo modelo de inferencia de código abierto de Alibaba, con rendimiento comparable a DeepSeek-R1 y menor demanda de memoria

ByteDance lanza AIBrix: un nuevo sistema de inferencia de código abierto diseñado para modelos de lenguaje grandes

网易有道子曰-o1: Modelo de inferencia de código abierto, diseñado para tarjetas gráficas de consumo