El nuevo modelo de IA de código abierto Molmo supera a los gigantes del sector, superando a GPT-4o y Claude 3.5

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Sep 26, 2024

604

Recientemente, el Instituto de Inteligencia Artificial de Allen (Ai2) lanzó Molmo, una nueva familia de modelos de IA multimodal de código abierto que ha demostrado un rendimiento excepcional, incluso superando a GPT-4 de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 1.5 de Google en varias pruebas de referencia de terceros.

Molmo no solo puede analizar imágenes cargadas por el usuario, sino que también se entrenó con "1000 veces menos datos que sus competidores", gracias a sus técnicas de entrenamiento únicas.

Este lanzamiento demuestra el compromiso de Ai2 con la investigación abierta, proporcionando modelos de alto rendimiento, así como pesos y datos abiertos para su uso por parte de una comunidad y empresas más amplias. La familia Molmo incluye cuatro modelos principales: Molmo-72B, Molmo-7B-D, Molmo-7B-O y MolmoE-1B, siendo Molmo-72B el modelo insignia con 72 mil millones de parámetros y el que presenta un rendimiento especialmente destacado.

Según las evaluaciones, Molmo-72B obtuvo la puntuación más alta en 11 importantes pruebas de referencia y ocupó el segundo lugar después de GPT-4 en cuanto a preferencias de los usuarios. Ai2 también lanzó un modelo OLMoE, utilizando un enfoque de "combinación de modelos pequeños" para mejorar la rentabilidad.

La arquitectura de Molmo está cuidadosamente diseñada para lograr un rendimiento eficiente y excelente. Todos los modelos utilizan el modelo CLIP ViT-L/14336px de OpenAI como codificador visual, procesando imágenes multi-escala en tokens visuales. La parte del modelo de lenguaje es un transformador decodificador con diferentes capacidades y apertura.

En cuanto al entrenamiento, Molmo se entrenó en dos fases: primero, un preentrenamiento multimodal, y luego un ajuste fino supervisado. A diferencia de muchos modelos modernos, Molmo no se basó en el aprendizaje por refuerzo con retroalimentación humana, sino que actualizó los parámetros del modelo mediante un proceso de entrenamiento finamente ajustado.

Molmo ha demostrado un rendimiento excepcional en varias pruebas de referencia, especialmente en tareas complejas como la lectura de documentos y el razonamiento visual, mostrando sus potentes capacidades. Ai2 ya ha publicado estos modelos y conjuntos de datos en Hugging Face, y en los próximos meses lanzará más modelos e informes técnicos ampliados para proporcionar más recursos a los investigadores.

Si desea conocer las funciones de Molmo, puede realizar una demostración pública a través del sitio web oficial de Molmo (https://molmo.allenai.org/).

Puntos clave:
🌟 El modelo de IA multimodal de código abierto Ai2 Molmo supera a los productos líderes del sector.
📊 Molmo-72B muestra un rendimiento excepcional en varias pruebas de referencia, solo superado por GPT-4.
🔍 Alta apertura: los modelos y conjuntos de datos están disponibles para uso libre por parte de los investigadores.

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

OpenAI lidera una vez más la innovación en inteligencia artificial con el lanzamiento de su nuevo modelo gpt-4o-audio-preview. Este modelo no solo muestra una capacidad asombrosa en la generación y el análisis de voz, sino que también abre nuevas posibilidades para la interacción humano-máquina. Exploremos las características y las aplicaciones potenciales de este innovador modelo. Las funciones principales de gpt-4o-audio-preview se dividen en tres áreas: en primer lugar, su capacidad para generar respuestas de voz naturales y fluidas a partir de texto, proporcionando una solución ideal para asistentes de voz y atención al cliente virtual...

Nuevo modelo de OpenAI: gpt-4o-2024-08-06 y gpt-4o-mini con soporte para salida estructurada

OpenAI ha añadido una función de salida estructurada a su API, garantizando que la salida generada cumpla completamente con la estructura JSON predefinida. Esto mejora significativamente la fiabilidad de la API y la precisión de las aplicaciones. Esta función no solo define la estructura del JSON, sino que también asegura la exactitud de la salida. Simultáneamente, se ha reducido el precio; el coste de entrada se ha reducido a la mitad y el coste de salida en un tercio. La introducción de la salida estructurada resuelve las limitaciones del esquema JSON en cuanto a garantizar que la salida se ajuste a una estructura específica, mejorando notablemente el rendimiento del modelo en la salida estructurada. Gracias a innovaciones tecnológicas, como la limitación...

OpenAI lanza el nuevo modelo gpt-4o-64k-output-alpha: GPT-4o API ahora admite hasta 64K de salida

El punto más destacado del nuevo modelo gpt-4o-64k-output-alpha de OpenAI es su capacidad para generar una salida de hasta 64K tokens a la vez, ideal para contenido extenso y detallado, cubriendo necesidades en escritura, programación y análisis de datos complejos. Sin embargo, esta funcionalidad incrementa el precio de la API, con un coste de 18 dólares por millón de tokens de salida, en comparación con los 6 dólares por millón de tokens de entrada. Esta medida busca compensar los altos costes computacionales y fomentar el uso responsable de esta potente herramienta. El modelo es una gran ayuda para la creación y la investigación.

Noticias de IA

El nuevo modelo de IA de código abierto Molmo supera a los gigantes del sector, superando a GPT-4o y Claude 3.5

AIbase基地

Noticias de IA relacionadas recomendadas

OpenAI lanza GPT-4O-Audio-Preview: ¡El audio también puede "leer" las emociones!

Nuevo modelo de OpenAI: gpt-4o-2024-08-06 y gpt-4o-mini con soporte para salida estructurada

OpenAI lanza el nuevo modelo gpt-4o-64k-output-alpha: GPT-4o API ahora admite hasta 64K de salida