Recientemente, la startup de Seattle, Moondream, lanzó moondream2, un modelo de lenguaje visual compacto. A pesar de su pequeño tamaño, este modelo ha demostrado un rendimiento excepcional en diversas pruebas de referencia, atrayendo mucha atención. Como modelo de código abierto, moondream2 promete habilitar el reconocimiento de imágenes local en teléfonos inteligentes.
Lanzado oficialmente en marzo, moondream2 puede procesar entradas de texto e imágenes, respondiendo preguntas, realizando extracción de texto (OCR), conteo de objetos y clasificación de elementos. Desde su lanzamiento, el equipo de Moondream ha realizado actualizaciones continuas, mejorando constantemente su rendimiento en las pruebas de referencia. La versión de julio mostró un progreso significativo en OCR y comprensión de documentos, especialmente en el análisis de datos económicos históricos. El modelo obtuvo puntuaciones superiores al 60% en DocVQA, TextVQA y GQA, demostrando su potente capacidad de ejecución local.
Una característica notable de moondream2 es su tamaño compacto: solo 1.6 mil millones de parámetros. Esto permite que funcione no solo en servidores en la nube, sino también en computadoras locales e incluso en dispositivos de menor rendimiento, como teléfonos inteligentes o computadoras de placa única.
A pesar de su pequeño tamaño, su rendimiento es comparable al de modelos de la competencia con miles de millones de parámetros, incluso superándolos en algunas pruebas de referencia.
En una comparación de modelos de lenguaje visual para dispositivos móviles, los investigadores señalaron que, aunque moondream2 solo tiene 170 millones de parámetros, su rendimiento es comparable al de modelos con 700 millones de parámetros, mostrando una ligera desventaja solo en el conjunto de datos SQA. Esto indica que, si bien los modelos pequeños muestran un rendimiento excelente, aún enfrentan desafíos en la comprensión de contextos específicos.
El desarrollador del modelo, Vikhyat Korrapati, indicó que moondream2 se basa en conjuntos de datos de entrenamiento de otros modelos como SigLIP, Phi-1.5 de Microsoft y LLaVA. Este modelo de código abierto ya está disponible para su descarga gratuita en GitHub y se muestra una versión de demostración en Hugging Face. En las plataformas de codificación, moondream2 ha generado un gran interés en la comunidad de desarrolladores, recibiendo más de 5000 estrellas.
Este éxito ha atraído la atención de los inversores: Moondream recaudó 4.5 millones de dólares en una ronda semilla liderada por Felicis Ventures, el fondo M12 de Microsoft y GitHub, y Ascend. El CEO de la empresa, Jay Allen, trabajó durante muchos años en Amazon Web Services (AWS) y lidera esta floreciente startup.
El lanzamiento de moondream2 marca el surgimiento de una serie de modelos de código abierto optimizados que ofrecen un rendimiento similar a los modelos más grandes y antiguos, pero con menos recursos. Si bien existen algunos modelos locales pequeños en el mercado, como el asistente inteligente de Apple y Gemini Nano de Google, estas empresas siguen externalizando las tareas más complejas a la nube.
huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Puntos clave:
🌟 Moondream lanzó moondream2, un modelo de lenguaje visual con solo 160 millones de parámetros, que puede ejecutarse en dispositivos pequeños como teléfonos inteligentes.
📈 Este modelo tiene una potente capacidad de procesamiento de texto e imágenes, pudiendo responder preguntas, realizar OCR, contar objetos y clasificarlos, con un excelente rendimiento en las pruebas de referencia.
💰 Moondream recaudó 4.5 millones de dólares, su CEO trabajó en Amazon y el equipo actualiza y mejora continuamente el rendimiento del modelo.