El equipo de modelos de lenguaje grande de código abierto OpenBuddy lanza la versión en chino del modelo Llama3.1-8B

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jul 25, 2024

1.1k

Meta recientemente lanzó la nueva generación de modelos de código abierto Llama 3.1, que incluye una versión con 405 mil millones de parámetros. Su rendimiento se acerca, e incluso supera en algunas pruebas de referencia, a modelos de código cerrado como GPT-4. Llama 3.1-8B-Instruct, una versión de 8 mil millones de parámetros de esta serie, admite inglés, alemán, francés, italiano, portugués, español, hindi y tailandés, con una longitud de contexto de hasta 131072 tokens y una fecha límite de conocimiento actualizada a diciembre de 2023.

Para mejorar las capacidades de Llama 3.1-8B-Instruct, Meta utilizó más de 25 millones de datos sintéticos durante el entrenamiento, generados por el modelo más grande de 405 mil millones de parámetros. Esto permite que Llama 3.1-8B-Instruct muestre capacidades de cognición y razonamiento similares a GPT 3.5 Turbo en pruebas de código, matemáticas, etc.

微信截图_20240725083410.png

OpenBuddy, utilizando el modelo Llama 3.1-8B-Instruct y entrenándolo con una pequeña cantidad de datos en chino, lanzó OpenBuddy-Llama3.1-8B-v22.1-131K, un nuevo modelo de código abierto multi-idioma con capacidades de preguntas y respuestas en chino y traducción entre idiomas. Aunque Llama 3.1 en sí mismo no tiene capacidades en chino, después del entrenamiento, este modelo puede generar respuestas a preguntas que suelen requerir modelos mucho más grandes, mostrando un mayor potencial cognitivo.

Sin embargo, debido a las limitaciones del conjunto de datos de entrenamiento y el tiempo, OpenBuddy-Llama3.1-8B-v22.1 todavía tiene limitaciones en el conocimiento chino, especialmente en el conocimiento de la cultura tradicional. A pesar de esto, el modelo muestra un rendimiento relativamente estable en tareas como la comprensión de textos largos, gracias a su capacidad inherente para manejar textos extensos.

En el futuro, OpenBuddy planea entrenar modelos de 8B y 70B a mayor escala para mejorar las reservas de conocimiento en chino, la capacidad de manejar textos largos y la capacidad cognitiva, y explorar la posibilidad de ajustar finamente el modelo de 405 mil millones de parámetros.

Dirección del proyecto: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

AI2 lanza el modelo de código abierto Tülu3, con rendimiento comparable a GPT-4o mini

En el campo de la inteligencia artificial, las técnicas de post-entrenamiento se están convirtiendo en una herramienta clave para mejorar el rendimiento de los modelos. Recientemente, el Instituto de Inteligencia Artificial Allen (AI2) ha publicado la serie de modelos Tülu3, un conjunto de modelos de lenguaje avanzados completamente de código abierto, con un rendimiento comparable a modelos propietarios como GPT-4o-mini. Tülu3 incluye no solo los datos del modelo, el código y las recetas de entrenamiento, sino también un marco de evaluación, con el objetivo de impulsar el desarrollo de técnicas de post-entrenamiento para modelos de código abierto. Tradicionalmente, los modelos que solo han sido pre-entrenados a menudo no satisfacen las necesidades de las aplicaciones reales de manera efectiva, pudiendo...

Informe financiero del tercer trimestre de Meta: crecimiento sólido del negocio principal, pero pérdidas de 4400 millones de dólares en el metaverso

Meta (anteriormente Facebook) publicó recientemente su informe financiero del tercer trimestre de 2023. Si bien el negocio principal mostró un excelente desempeño, las enormes pérdidas del departamento del metaverso provocaron preocupación entre los inversores, lo que provocó una caída de más del 3% en el precio de las acciones en las operaciones posteriores al cierre. Este informe financiero muestra la compleja situación de crecimiento de Meta. Los datos muestran que, hasta el 30 de septiembre, los ingresos del tercer trimestre de Meta alcanzaron los 40 600 millones de dólares, un 19% más que el año anterior, superando las expectativas del mercado de 40 300 millones de dólares. Sin embargo, el departamento de Reality Labs, dedicado al metaverso, registró...

¿Conducción autónoma en el metaverso? ¡Juega con la IA de Gigai Tech para una reconstrucción de escenas 4D más fluida!

Recientemente, Gigai Tech propuso un nuevo marco llamado DriveDreamer4D, diseñado para utilizar el conocimiento previo del modelo del mundo para mejorar la reconstrucción de escenas de conducción 4D. Los métodos tradicionales de reconstrucción de escenas 4D se basan principalmente en dos escuelas de pensamiento: NeRF y 3DGS. NeRF es como un súper pintor que utiliza redes neuronales para representar un conjunto de fotografías en un modelo 3D. 3DGS, por otro lado, utiliza un conjunto de funciones gaussianas tridimensionales para simular varios objetos en la escena. Sin embargo, ambos métodos tienen un inconveniente...

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...