Meta recientemente lanzó la nueva generación de modelos de código abierto Llama 3.1, que incluye una versión con 405 mil millones de parámetros. Su rendimiento se acerca, e incluso supera en algunas pruebas de referencia, a modelos de código cerrado como GPT-4. Llama 3.1-8B-Instruct, una versión de 8 mil millones de parámetros de esta serie, admite inglés, alemán, francés, italiano, portugués, español, hindi y tailandés, con una longitud de contexto de hasta 131072 tokens y una fecha límite de conocimiento actualizada a diciembre de 2023.

Para mejorar las capacidades de Llama 3.1-8B-Instruct, Meta utilizó más de 25 millones de datos sintéticos durante el entrenamiento, generados por el modelo más grande de 405 mil millones de parámetros. Esto permite que Llama 3.1-8B-Instruct muestre capacidades de cognición y razonamiento similares a GPT 3.5 Turbo en pruebas de código, matemáticas, etc.

微信截图_20240725083410.png

OpenBuddy, utilizando el modelo Llama 3.1-8B-Instruct y entrenándolo con una pequeña cantidad de datos en chino, lanzó OpenBuddy-Llama3.1-8B-v22.1-131K, un nuevo modelo de código abierto multi-idioma con capacidades de preguntas y respuestas en chino y traducción entre idiomas. Aunque Llama 3.1 en sí mismo no tiene capacidades en chino, después del entrenamiento, este modelo puede generar respuestas a preguntas que suelen requerir modelos mucho más grandes, mostrando un mayor potencial cognitivo.

Sin embargo, debido a las limitaciones del conjunto de datos de entrenamiento y el tiempo, OpenBuddy-Llama3.1-8B-v22.1 todavía tiene limitaciones en el conocimiento chino, especialmente en el conocimiento de la cultura tradicional. A pesar de esto, el modelo muestra un rendimiento relativamente estable en tareas como la comprensión de textos largos, gracias a su capacidad inherente para manejar textos extensos.

En el futuro, OpenBuddy planea entrenar modelos de 8B y 70B a mayor escala para mejorar las reservas de conocimiento en chino, la capacidad de manejar textos largos y la capacidad cognitiva, y explorar la posibilidad de ajustar finamente el modelo de 405 mil millones de parámetros.

Dirección del proyecto: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k