ViTLP
Modelo pré-treinado de layout de texto gerado por guia visual para inteligência de documentos
Produto ComumProdutividadeOCRInteligência de Documentos
O ViTLP é um modelo pré-treinado de layout de texto gerado por guia visual, projetado para melhorar a eficiência e a precisão do processamento inteligente de documentos. O modelo combina recursos de localização e reconhecimento de texto OCR, permitindo a detecção e o reconhecimento de texto rápido e preciso em imagens de documentos. A versão pré-treinada do modelo ViTLP, ViTLP-medium (380M de parâmetros), oferece uma solução balanceada, considerando as limitações de recursos computacionais e de tamanho do conjunto de dados de pré-treinamento, garantindo o desempenho do modelo e otimizando a velocidade de inferência e o uso da memória. A velocidade de inferência do ViTLP em uma Nvidia 4090 leva normalmente de 5 a 10 segundos para processar uma página de imagem de documento, sendo competitiva em comparação com a maioria dos mecanismos OCR.
ViTLP Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34