Thomas Scialom, investigador de Meta AI, compartió recientemente en una entrevista algunas ideas sobre su último proyecto, Llama3. Sin ambages, señaló que la gran cantidad de texto en internet es de calidad desigual, y considera que entrenar un modelo con esos datos es un desperdicio de recursos. Por lo tanto, Llama3 no se entrenó con ninguna respuesta escrita por humanos, sino completamente con datos sintéticos generados por Llama2.
Al discutir los detalles del entrenamiento de Llama3, Scialom explicó en detalle la aplicación de datos sintéticos en diferentes áreas. Por ejemplo, en la generación de código, utilizaron tres métodos diferentes para generar datos sintéticos: retroalimentación de la ejecución del código, traducción de lenguajes de programación y traducción inversa de documentación. En el razonamiento matemático, se basaron en el método de investigación "verifiquemos paso a paso" para generar datos. Además, Llama3 continuó el preentrenamiento con un 90% de tokens multilingües para recopilar anotaciones humanas de alta calidad, lo cual es especialmente importante en el procesamiento del lenguaje multilingüe.
El procesamiento de textos largos también es un punto clave de Llama3. Se basaron en datos sintéticos para manejar preguntas y respuestas de textos largos, resúmenes de documentos largos e inferencia en bases de código. En cuanto al uso de herramientas, Llama3 se entrenó en la búsqueda de Brave, Wolfram Alpha y el intérprete de Python para lograr llamadas a funciones únicas, anidadas, paralelas y multironda.
Scialom también mencionó la importancia del aprendizaje por refuerzo con retroalimentación humana (RLHF) en el entrenamiento de Llama3. Utilizaron ampliamente datos de preferencias humanas para entrenar el modelo y destacaron la capacidad humana para tomar decisiones (como elegir entre dos poemas el que prefieren), en lugar de crear desde cero.
Meta comenzó el entrenamiento de Llama4 en junio. Scialom reveló que un foco principal de Llama4 se centrará en los agentes. Además, mencionó una versión multimodal de Llama, que tendrá más parámetros y se planea lanzar en un futuro próximo.
La entrevista de Scialom revela los últimos avances de Meta AI en el campo de la inteligencia artificial y su dirección futura, especialmente en cómo utilizar datos sintéticos y retroalimentación humana para mejorar el rendimiento del modelo.