Récemment, Moondream, une startup de Seattle, a lancé moondream2, un modèle linguistique visuel compact. Malgré sa petite taille, ce modèle a excellé dans divers benchmarks et a suscité un vif intérêt. En tant que modèle open source, moondream2 promet de rendre possible la reconnaissance d'images locale sur les smartphones.
Officiellement lancé en mars, moondream2 peut traiter des entrées textuelles et imagées, répondant aux questions, effectuant la reconnaissance optique de caractères (OCR), le comptage d'objets et la classification d'objets. Depuis son lancement, l'équipe Moondream a continuellement mis à jour le modèle, améliorant constamment ses performances de référence. La version de juillet a montré des progrès significatifs en OCR et en compréhension de documents, excellant particulièrement dans l'analyse de données économiques historiques. Le modèle a obtenu des scores supérieurs à 60 % sur DocVQA, TextVQA et GQA, démontrant sa puissance d'exécution locale.
Une caractéristique notable de moondream2 est sa taille compacte : seulement 1,6 milliard de paramètres. Cela lui permet de fonctionner non seulement sur les serveurs cloud, mais aussi sur les ordinateurs locaux, voire sur des appareils moins performants comme les smartphones ou les cartes à puce.
Malgré sa petite taille, ses performances sont comparables à celles de modèles concurrents comportant des milliards de paramètres, et il surpasse même certains de ces modèles plus volumineux lors de certains benchmarks.
Dans une comparaison des modèles linguistiques visuels pour appareils mobiles, les chercheurs ont constaté que, bien que moondream2 ne compte que 170 millions de paramètres, ses performances sont comparables à celles d'un modèle à 700 millions de paramètres, avec une légère infériorité uniquement sur l'ensemble de données SQA. Cela montre que, bien que les petits modèles soient performants, ils rencontrent encore des défis dans la compréhension de contextes spécifiques.
Le développeur du modèle, Vikhyat Korrapati, a indiqué que moondream2 est construit sur la base d'autres modèles tels que SigLIP, Phi-1.5 de Microsoft et les ensembles de données d'entraînement de LLaVA. Ce modèle open source est désormais disponible gratuitement en téléchargement sur GitHub, et une version de démonstration est présentée sur Hugging Face. Sur les plateformes de codage, moondream2 a également suscité un grand intérêt au sein de la communauté des développeurs, recevant plus de 5 000 étoiles.
Ce succès a attiré l'attention des investisseurs : lors d'un tour de financement de série A mené par Felicis Ventures, M12 (le fonds d'investissement de Microsoft), GitHub et Ascend, Moondream a réussi à lever 4,5 millions de dollars. Le PDG de la société, Jay Allen, a travaillé pendant de nombreuses années chez Amazon Web Services (AWS) et dirige cette startup en pleine croissance.
Le lancement de moondream2 marque l'arrivée d'une série de modèles open source optimisés, offrant des performances similaires à celles des modèles plus grands et plus anciens, tout en nécessitant moins de ressources. Bien qu'il existe déjà sur le marché des modèles locaux de petite taille, tels que l'assistant intelligent d'Apple et Gemini Nano de Google, ces deux fabricants externalisent toujours les tâches plus complexes vers le cloud.
huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
Points clés :
🌟 Moondream a lancé moondream2, un modèle linguistique visuel de seulement 1,6 milliard de paramètres, capable de fonctionner sur des appareils de petite taille comme les smartphones.
📈 Ce modèle possède de puissantes capacités de traitement du texte et des images, permettant de répondre aux questions, d'effectuer de l'OCR, de compter et de classer les objets, et obtient d'excellents résultats aux tests de référence.
💰 Moondream a réussi à lever 4,5 millions de dollars, son PDG a travaillé chez Amazon, et l'équipe continue de mettre à jour et d'améliorer les performances du modèle.