H2O.ai hat kürzlich zwei neue visuelle Sprachmodelle vorgestellt, die die Effizienz der Dokumentenanalyse und der optischen Zeichenerkennung (OCR) verbessern sollen. Die beiden Modelle, H2OVL Mississippi-2B und H2OVL-Mississippi-0.8B, zeigen im Vergleich zu Modellen großer Technologieunternehmen eine beeindruckende Leistung und bieten Unternehmen mit arbeitsintensiven Dokumentenworkflows möglicherweise effizientere Lösungen.

Das H2OVL Mississippi-0.8B-Modell, das nur 800 Millionen Parameter umfasst, übertrifft im OCRBench-Texterkennungstest alle anderen Modelle, einschließlich derjenigen mit Milliarden von Parametern. Das H2OVL Mississippi-2B-Modell mit 2 Milliarden Parametern schneidet in mehreren visuellen Sprach-Benchmark-Tests ebenfalls gut ab.

image.png

Sri Ambati, Gründer und CEO von H2O.ai, sagte in einem Interview: „Unsere H2OVL Mississippi-Modelle wurden als leistungsstarke und kostengünstige Lösungen entwickelt, um branchenübergreifend KI-gestützte OCR, visuelles Verständnis und Dokumenten-KI bereitzustellen.“

image.png

Er betonte, dass diese Modelle in verschiedenen Umgebungen effizient laufen und an die Bedürfnisse bestimmter Bereiche angepasst werden können, um Unternehmen dabei zu helfen, Kosten zu senken und gleichzeitig die Effizienz zu steigern.

H2O.ai veröffentlicht die beiden neuen Modelle kostenlos auf der Hugging Face-Plattform, sodass Entwickler und Unternehmen die Modelle an ihre Bedürfnisse anpassen können. Dieser Schritt erweitert nicht nur die Benutzerbasis von H2O.ai, sondern bietet Unternehmen, die Dokumenten-KI-Lösungen einsetzen möchten, auch mehr Auswahlmöglichkeiten.

Ambati erwähnte auch die unbestreitbaren wirtschaftlichen Vorteile kleiner, spezialisierter Modelle. „Unsere generativen vortrainierten Transformer-Modelle basieren auf enger Zusammenarbeit mit Kunden und sollen aus Unternehmensdokumenten aussagekräftige Informationen extrahieren“, erklärte er. H2O.ai-Modelle bieten effiziente Dokumentenverarbeitung bei geringerem Ressourcenverbrauch, insbesondere bei Dokumenten mit schlechter Qualität, unleserlicher Handschrift oder umfangreichen Änderungen.

Modellzugriff:

H2OVL-Mississippi-0.8B: https://huggingface.co/h2oai/h2ovl-mississippi-800m

H2OVL Mississippi-2B: https://huggingface.co/h2oai/h2ovl-mississippi-2b

Wichtigste Punkte:

🌟 H2O.ai präsentiert die neuen visuellen Sprachmodelle H2OVL Mississippi-2B und H2OVL-Mississippi-0.8B für effiziente Dokumentenanalyse.

💡 H2OVL Mississippi-0.8B übertrifft größere Konkurrenzmodelle bei der Texterkennung und zeigt das Potenzial kleinerer Modelle.

📈 H2O.ai setzt auf Open Source und praktische KI-Lösungen, um Unternehmen bei der digitalen Transformation zu unterstützen und wertvolle Informationen zu gewinnen.