Recientemente, el Instituto de Inteligencia Artificial de Allen (Ai2) lanzó Molmo, una nueva familia de modelos de IA multimodal de código abierto que ha demostrado un rendimiento excepcional, incluso superando a GPT-4 de OpenAI, Claude 3.5 Sonnet de Anthropic y Gemini 1.5 de Google en varias pruebas de referencia de terceros.

image.png

Molmo no solo puede analizar imágenes cargadas por el usuario, sino que también se entrenó con "1000 veces menos datos que sus competidores", gracias a sus técnicas de entrenamiento únicas.

image.png

Este lanzamiento demuestra el compromiso de Ai2 con la investigación abierta, proporcionando modelos de alto rendimiento, así como pesos y datos abiertos para su uso por parte de una comunidad y empresas más amplias. La familia Molmo incluye cuatro modelos principales: Molmo-72B, Molmo-7B-D, Molmo-7B-O y MolmoE-1B, siendo Molmo-72B el modelo insignia con 72 mil millones de parámetros y el que presenta un rendimiento especialmente destacado.

Según las evaluaciones, Molmo-72B obtuvo la puntuación más alta en 11 importantes pruebas de referencia y ocupó el segundo lugar después de GPT-4 en cuanto a preferencias de los usuarios. Ai2 también lanzó un modelo OLMoE, utilizando un enfoque de "combinación de modelos pequeños" para mejorar la rentabilidad.

La arquitectura de Molmo está cuidadosamente diseñada para lograr un rendimiento eficiente y excelente. Todos los modelos utilizan el modelo CLIP ViT-L/14336px de OpenAI como codificador visual, procesando imágenes multi-escala en tokens visuales. La parte del modelo de lenguaje es un transformador decodificador con diferentes capacidades y apertura.

En cuanto al entrenamiento, Molmo se entrenó en dos fases: primero, un preentrenamiento multimodal, y luego un ajuste fino supervisado. A diferencia de muchos modelos modernos, Molmo no se basó en el aprendizaje por refuerzo con retroalimentación humana, sino que actualizó los parámetros del modelo mediante un proceso de entrenamiento finamente ajustado.

Molmo ha demostrado un rendimiento excepcional en varias pruebas de referencia, especialmente en tareas complejas como la lectura de documentos y el razonamiento visual, mostrando sus potentes capacidades. Ai2 ya ha publicado estos modelos y conjuntos de datos en Hugging Face, y en los próximos meses lanzará más modelos e informes técnicos ampliados para proporcionar más recursos a los investigadores.

Si desea conocer las funciones de Molmo, puede realizar una demostración pública a través del sitio web oficial de Molmo (https://molmo.allenai.org/).

Puntos clave:

🌟 El modelo de IA multimodal de código abierto Ai2 Molmo supera a los productos líderes del sector.

📊 Molmo-72B muestra un rendimiento excepcional en varias pruebas de referencia, solo superado por GPT-4.

🔍 Alta apertura: los modelos y conjuntos de datos están disponibles para uso libre por parte de los investigadores.