DocLLM
Multimodales Dokumentenverständnismodell
Normales ProduktProduktivitätMultimodalDokumentenverständnis
DocLLM ist eine Plattform, die ein multimodales Dokumentenverständnismodell bereitstellt. Sie zielt darauf ab, Text und räumliche Anordnung in Unternehmensdokumenten zu verarbeiten und eine überragende Leistung im Vergleich zu bestehenden großen Sprachmodellen zu bieten. Das Modell verwendet leichtgewichtige Erweiterungen, vermeidet teure Bildcodierer und konzentriert sich auf Bounding-Box-Informationen, um die räumliche Struktur einzubeziehen. Durch die Dekomposition des Aufmerksamkeitsmechanismus klassischer Transformer wird die Kreuz-Ausrichtung zwischen Text- und Raummodalitäten erfasst. Darüber hinaus wurde ein Pre-Training-Ziel entwickelt, das das Auffüllen von Textpassagen lernt, um unregelmäßige Layouts und heterogene Inhalte in visuellen Dokumenten zu bewältigen. Die Lösung übertrifft bestehende große Sprachmodelle in 16 Datensätzen mit 14 Aufgaben und weist eine gute Generalisierungsfähigkeit auf 5 zuvor ungesehenen Datensätzen auf.
DocLLM Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44