EAGLE
Exploration des Designs von multimodalen, großen Sprachmodellen
Normales ProduktProgrammierungMultimodales LernenGroßes Sprachmodell
EAGLE ist eine Reihe von multimodalen, großen Sprachmodellen (LLM) mit hoher Auflösung, die auf visuelle Zentrierung ausgerichtet sind. Sie verbessern die Wahrnehmungsfähigkeit multimodaler LLMs durch die Kombination eines visuellen Encoders mit verschiedenen Eingangsauflösungen. Das Modell beinhaltet eine 'CLIP+X'-Fusion auf Basis von Kanalverbindungen und eignet sich für visuelle Experten mit unterschiedlichen Architekturen (ViT/ConvNets) und Wissen (Detektion/Segmentierung/OCR/SSL). Die EAGLE-Modellfamilie unterstützt Auflösungen von über 1K und erzielt hervorragende Ergebnisse in Benchmarks für multimodale LLMs, insbesondere bei auflösungsabhängigen Aufgaben wie optischer Zeichenerkennung und Dokumentenverständnis.
EAGLE Neueste Verkehrssituation
Monatliche Gesamtbesuche
474564576
Absprungrate
36.20%
Durchschnittliche Seiten pro Besuch
6.1
Durchschnittliche Besuchsdauer
00:06:34