¡Llama 3.1 se ha filtrado! No te equivocas, este modelo de código abierto con 405 mil millones de parámetros ha causado un gran revuelo en Reddit. Podría ser el modelo de código abierto más cercano a GPT-4 hasta la fecha, incluso superándolo en algunos aspectos.

Llama 3.1 es un gran modelo de lenguaje desarrollado por Meta (anteriormente Facebook). Aunque aún no se ha lanzado oficialmente, la versión filtrada ha causado sensación en la comunidad. Este modelo no solo incluye el modelo base, sino también los resultados de las pruebas de referencia de 8B, 70B y el máximo de 405B de parámetros.

image.png

Comparación de rendimiento: Llama 3.1 vs. GPT-4

Según los resultados de comparación filtrados, incluso la versión de 70B de Llama 3.1 supera a GPT-4 en varias pruebas de referencia. Esta es la primera vez que un modelo de código abierto alcanza el nivel SOTA (State of the Art, es decir, tecnología de vanguardia) en múltiples benchmarks, lo que nos hace exclamar: ¡el poder del código abierto es realmente asombroso!

2.jpg

Puntos destacados del modelo: soporte multilingüe, datos de entrenamiento más ricos

El modelo Llama 3.1 se entrenó utilizando más de 15T de tokens de fuentes públicas, con una fecha límite de entrenamiento de diciembre de 2023. No solo admite inglés, sino también francés, alemán, hindi, italiano, portugués, español y tailandés, entre otros idiomas. Esto lo hace destacar en los casos de uso de conversaciones multilingües.

3.jpg

El equipo de investigación de Llama 3.1 concede gran importancia a la seguridad del modelo. Emplearon métodos de recopilación de datos multifacéticos, combinando datos generados por humanos con datos sintéticos, para mitigar los riesgos de seguridad potenciales. Además, el modelo incorporó indicaciones de límite e indicaciones adversarias para mejorar el control de la calidad de los datos.

Fuente de la tarjeta del modelo: https://pastebin.com/9jGkYbXY#google_vignette