Llama 4 inicia su entrenamiento: Científicos de Meta revelan los secretos detrás del entrenamiento de Llama 3.1

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jul 29, 2024

327

El científico de Meta, Thomas Scialom, en el podcast Latent Space, nos reveló los secretos del desarrollo de Llama 3.1 y adelantó un vistazo misterioso a Llama 4.

El nacimiento de Llama 3.1 es un equilibrio perfecto entre el tamaño de los parámetros, el tiempo de entrenamiento y las limitaciones de hardware. Sus 405B parámetros no son una elección arbitraria, sino un desafío de Meta a GPT-4o. Aunque las limitaciones de hardware impiden que Llama 3.1 funcione en cada computadora doméstica, la potencia de la comunidad de código abierto lo hace posible.

Durante el desarrollo de Llama 3.1, Scialom y su equipo revisaron la Ley de Escalado. Descubrieron que el tamaño del modelo es clave, pero la cantidad total de datos de entrenamiento es aún más importante. Llama 3.1 optó por aumentar el número de tokens de entrenamiento, aunque esto significara un mayor consumo de potencia de cálculo.

Llama 3.1 no presenta cambios radicales en su arquitectura, pero Meta ha dedicado mucho esfuerzo a la escala y calidad de los datos. Un océano de 15T tokens ha permitido a Llama 3.1 un salto cualitativo en la profundidad y amplitud del conocimiento.

En la selección de datos, Scialom cree firmemente que hay demasiada basura textual en internet, y que el verdadero tesoro son los datos sintéticos. En el post-entrenamiento de Llama 3.1, no se utilizaron respuestas escritas por humanos, sino datos sintéticos generados completamente por Llama 2.

La evaluación de modelos siempre ha sido un desafío en el campo de la IA. Llama 3.1 ha probado varios métodos para su evaluación y mejora, incluyendo modelos de recompensa y pruebas de referencia diversificadas. Pero el verdadero desafío radica en encontrar las indicaciones adecuadas para superar a los modelos potentes.

Meta comenzó el entrenamiento de Llama 4 en junio, y esta vez se centrarán en la tecnología de agentes. El desarrollo de herramientas de agentes como Toolformer presagia nuevas exploraciones de Meta en el campo de la IA.

El código abierto de Llama 3.1 no es solo un intento audaz de Meta, sino también una profunda reflexión sobre el futuro de la IA. Con el lanzamiento de Llama 4, tenemos razones para creer que Meta seguirá liderando el camino en el campo de la IA. Esperemos con ansias cómo Llama 4 y la tecnología de agentes redefinirán el futuro de la IA.

Informe financiero del tercer trimestre de Meta: crecimiento sólido del negocio principal, pero pérdidas de 4400 millones de dólares en el metaverso

Meta (anteriormente Facebook) publicó recientemente su informe financiero del tercer trimestre de 2023. Si bien el negocio principal mostró un excelente desempeño, las enormes pérdidas del departamento del metaverso provocaron preocupación entre los inversores, lo que provocó una caída de más del 3% en el precio de las acciones en las operaciones posteriores al cierre. Este informe financiero muestra la compleja situación de crecimiento de Meta. Los datos muestran que, hasta el 30 de septiembre, los ingresos del tercer trimestre de Meta alcanzaron los 40 600 millones de dólares, un 19% más que el año anterior, superando las expectativas del mercado de 40 300 millones de dólares. Sin embargo, el departamento de Reality Labs, dedicado al metaverso, registró...

¿Conducción autónoma en el metaverso? ¡Juega con la IA de Gigai Tech para una reconstrucción de escenas 4D más fluida!

Recientemente, Gigai Tech propuso un nuevo marco llamado DriveDreamer4D, diseñado para utilizar el conocimiento previo del modelo del mundo para mejorar la reconstrucción de escenas de conducción 4D. Los métodos tradicionales de reconstrucción de escenas 4D se basan principalmente en dos escuelas de pensamiento: NeRF y 3DGS. NeRF es como un súper pintor que utiliza redes neuronales para representar un conjunto de fotografías en un modelo 3D. 3DGS, por otro lado, utiliza un conjunto de funciones gaussianas tridimensionales para simular varios objetos en la escena. Sin embargo, ambos métodos tienen un inconveniente...

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...

Plataforma SaaS de metaverso ligero lanzada por Baidu Xirang, que incluye la plataforma de creación de metaversos de Baidu

La plataforma SaaS de metaverso ligero Baidu Xirang se lanzó oficialmente el 9 de agosto. Se trata de un servicio diseñado específicamente para acelerar la transformación digital de las empresas. Esta plataforma integra la experiencia acumulada de Baidu Xirang en los campos del metaverso, la inteligencia artificial, la computación en la nube y las aplicaciones móviles, ofreciendo la capacidad de suscripción a escenarios ligeros. Mediante la combinación libre de espacios y componentes, permite construir escenarios propios de marketing, exposiciones, medios de comunicación integrados, cultura y educación, ayudando a las empresas a reducir costes y mejorar la eficiencia.