El científico de Meta, Thomas Scialom, en el podcast Latent Space, nos reveló los secretos del desarrollo de Llama 3.1 y adelantó un vistazo misterioso a Llama 4.

El nacimiento de Llama 3.1 es un equilibrio perfecto entre el tamaño de los parámetros, el tiempo de entrenamiento y las limitaciones de hardware. Sus 405B parámetros no son una elección arbitraria, sino un desafío de Meta a GPT-4o. Aunque las limitaciones de hardware impiden que Llama 3.1 funcione en cada computadora doméstica, la potencia de la comunidad de código abierto lo hace posible.

Durante el desarrollo de Llama 3.1, Scialom y su equipo revisaron la Ley de Escalado. Descubrieron que el tamaño del modelo es clave, pero la cantidad total de datos de entrenamiento es aún más importante. Llama 3.1 optó por aumentar el número de tokens de entrenamiento, aunque esto significara un mayor consumo de potencia de cálculo.

image.png

Llama 3.1 no presenta cambios radicales en su arquitectura, pero Meta ha dedicado mucho esfuerzo a la escala y calidad de los datos. Un océano de 15T tokens ha permitido a Llama 3.1 un salto cualitativo en la profundidad y amplitud del conocimiento.

En la selección de datos, Scialom cree firmemente que hay demasiada basura textual en internet, y que el verdadero tesoro son los datos sintéticos. En el post-entrenamiento de Llama 3.1, no se utilizaron respuestas escritas por humanos, sino datos sintéticos generados completamente por Llama 2.

La evaluación de modelos siempre ha sido un desafío en el campo de la IA. Llama 3.1 ha probado varios métodos para su evaluación y mejora, incluyendo modelos de recompensa y pruebas de referencia diversificadas. Pero el verdadero desafío radica en encontrar las indicaciones adecuadas para superar a los modelos potentes.

Meta comenzó el entrenamiento de Llama 4 en junio, y esta vez se centrarán en la tecnología de agentes. El desarrollo de herramientas de agentes como Toolformer presagia nuevas exploraciones de Meta en el campo de la IA.

El código abierto de Llama 3.1 no es solo un intento audaz de Meta, sino también una profunda reflexión sobre el futuro de la IA. Con el lanzamiento de Llama 4, tenemos razones para creer que Meta seguirá liderando el camino en el campo de la IA. Esperemos con ansias cómo Llama 4 y la tecnología de agentes redefinirán el futuro de la IA.