DocLLM

Modelo de comprensión de documentos multimodal

Producto ComúnProductividadMultimodalComprensión de documentos
DocLLM es una plataforma que proporciona un modelo de comprensión de documentos multimodal, diseñado para procesar el texto y la disposición espacial de documentos empresariales, ofreciendo un rendimiento superior a los modelos lingüísticos grandes existentes. Su modelo utiliza una extensión ligera, evitando costosos codificadores de imágenes, y se centra en la información del cuadro delimitador para incorporar la estructura de la disposición espacial. Mediante la descomposición del mecanismo de atención en los transformadores clásicos, captura la alineación cruzada entre las modalidades de texto y espacio. Además, se ha diseñado un objetivo de preentrenamiento para aprender a rellenar párrafos de texto, con el fin de abordar el diseño irregular y el contenido heterogéneo que a menudo se encuentran en los documentos visuales. Esta solución supera a los modelos lingüísticos grandes existentes en 16 conjuntos de datos de 14 tareas, y muestra una buena capacidad de generalización en 5 conjuntos de datos previamente no vistos.
Abrir sitio web

DocLLM Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

DocLLM Tendencia de visitas

DocLLM Distribución geográfica de las visitas

DocLLM Fuentes de tráfico

DocLLM Alternativas