DocLLM
Modelo de comprensión de documentos multimodal
Producto ComúnProductividadMultimodalComprensión de documentos
DocLLM es una plataforma que proporciona un modelo de comprensión de documentos multimodal, diseñado para procesar el texto y la disposición espacial de documentos empresariales, ofreciendo un rendimiento superior a los modelos lingüísticos grandes existentes. Su modelo utiliza una extensión ligera, evitando costosos codificadores de imágenes, y se centra en la información del cuadro delimitador para incorporar la estructura de la disposición espacial. Mediante la descomposición del mecanismo de atención en los transformadores clásicos, captura la alineación cruzada entre las modalidades de texto y espacio. Además, se ha diseñado un objetivo de preentrenamiento para aprender a rellenar párrafos de texto, con el fin de abordar el diseño irregular y el contenido heterogéneo que a menudo se encuentran en los documentos visuales. Esta solución supera a los modelos lingüísticos grandes existentes en 16 conjuntos de datos de 14 tareas, y muestra una buena capacidad de generalización en 5 conjuntos de datos previamente no vistos.
DocLLM Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44