Récemment, H2O.ai a annoncé le lancement de deux nouveaux modèles de langage visuel conçus pour améliorer l'efficacité de l'analyse de documents et des tâches de reconnaissance optique de caractères (OCR). Ces deux modèles, H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, affichent des performances remarquables, rivalisant avec les modèles des grandes entreprises technologiques et offrant potentiellement des solutions plus efficaces aux entreprises gérant des flux de travail importants de traitement de documents.

Le modèle H2OVL Mississippi-0.8B, bien qu'il ne compte que 800 millions de paramètres, a surpassé tous les autres modèles, y compris ceux disposant de plusieurs milliards de paramètres, dans la tâche de reconnaissance de texte OCRBench. Quant au modèle H2OVL Mississippi-2B, avec ses 2 milliards de paramètres, il a obtenu d'excellents résultats dans plusieurs tests de référence de langage visuel.

image.png

Sri Ambati, fondateur et PDG de H2O.ai, a déclaré lors d'une interview : « Nos modèles H2OVL Mississippi sont conçus pour être des solutions performantes et économiques, offrant une solution d'OCR, de compréhension visuelle et d'IA documentaire basée sur l'IA à tous les secteurs d'activité. »

image.png

Il a souligné que ces modèles fonctionnent efficacement dans divers environnements et peuvent être affinés en fonction des besoins spécifiques de chaque secteur, permettant ainsi aux entreprises d'améliorer leur efficacité tout en réduisant leurs coûts.

H2O.ai a publié gratuitement ces deux nouveaux modèles sur la plateforme Hugging Face, permettant aux développeurs et aux entreprises de les modifier et de les adapter à leurs propres besoins. Cette initiative élargit non seulement la base d'utilisateurs de H2O.ai, mais offre également davantage de choix aux entreprises souhaitant adopter des solutions d'IA documentaire.

M. Ambati a également mentionné l'avantage économique des modèles petits et spécialisés. « Nos modèles de transformateurs pré-entraînés génératifs sont basés sur une collaboration approfondie avec nos clients et visent à extraire des informations significatives des documents d'entreprise. » Il a souligné que les modèles H2O.ai offrent une capacité de traitement de documents efficace avec une consommation de ressources réduite, notamment pour les documents numérisés de mauvaise qualité, les écritures manuscrites difficiles à lire ou les documents fortement modifiés.

Accès aux modèles :

H2OVL-Mississippi-0.8B : https://huggingface.co/h2oai/h2ovl-mississippi-800m

H2OVL Mississippi-2B : https://huggingface.co/h2oai/h2ovl-mississippi-2b

Points clés :

🌟 H2O.ai lance les nouveaux modèles de langage visuel H2OVL Mississippi-2B et H2OVL-Mississippi-0.8B, offrant des solutions efficaces d'analyse de documents.

💡 Le modèle H2OVL Mississippi-0.8B surpasse ses concurrents plus volumineux dans les tâches de reconnaissance de texte, démontrant le potentiel des modèles plus petits.

📈 H2O.ai s'engage en faveur de solutions d'IA open source et pratiques, aidant les entreprises à extraire des informations précieuses dans leur transformation numérique.