DocLLM
Modelo de compreensão de documentos multimodais
Produto ComumProdutividadeMultimodalCompreensão de Documentos
O DocLLM é uma plataforma que oferece um modelo de compreensão de documentos multimodais, projetado para processar texto e layouts espaciais em documentos corporativos, oferecendo desempenho superior aos modelos de linguagem grandes existentes. Seu modelo utiliza uma extensão leve, evitando codificadores de imagem dispendiosos, e se concentra em informações de bounding boxes para incorporar a estrutura do layout espacial. Através da decomposição do mecanismo de atenção em Transformers clássicos, ele captura o alinhamento cruzado entre as modalidades de texto e espacial. Além disso, foi projetado um objetivo de pré-treinamento que aprende a preencher parágrafos de texto para lidar com layouts irregulares e conteúdo heterogêneo frequentemente encontrados em documentos visuais. Esta solução supera os modelos de linguagem grandes existentes em 16 conjuntos de dados de 14 tarefas e apresenta boa capacidade de generalização para 5 conjuntos de dados nunca antes vistos.
DocLLM Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44