DocLLM

Modelo de compreensão de documentos multimodais

Produto ComumProdutividadeMultimodalCompreensão de Documentos
O DocLLM é uma plataforma que oferece um modelo de compreensão de documentos multimodais, projetado para processar texto e layouts espaciais em documentos corporativos, oferecendo desempenho superior aos modelos de linguagem grandes existentes. Seu modelo utiliza uma extensão leve, evitando codificadores de imagem dispendiosos, e se concentra em informações de bounding boxes para incorporar a estrutura do layout espacial. Através da decomposição do mecanismo de atenção em Transformers clássicos, ele captura o alinhamento cruzado entre as modalidades de texto e espacial. Além disso, foi projetado um objetivo de pré-treinamento que aprende a preencher parágrafos de texto para lidar com layouts irregulares e conteúdo heterogêneo frequentemente encontrados em documentos visuais. Esta solução supera os modelos de linguagem grandes existentes em 16 conjuntos de dados de 14 tarefas e apresenta boa capacidade de generalização para 5 conjuntos de dados nunca antes vistos.
Abrir Site

DocLLM Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

DocLLM Tendência de Visitas

DocLLM Distribuição Geográfica das Visitas

DocLLM Fontes de Tráfego

DocLLM Alternativas