ViTLP

Modelo de preentrenamiento de diseño de texto guiado por visión para la inteligencia de documentos

Producto ComúnProductividadOCRInteligencia de documentos
ViTLP es un modelo de preentrenamiento de diseño de texto generado por visión, diseñado para mejorar la eficiencia y precisión del procesamiento inteligente de documentos. Este modelo combina la localización y el reconocimiento de texto OCR, permitiendo la detección y el reconocimiento de texto rápido y preciso en imágenes de documentos. La versión preentrenada de ViTLP, ViTLP-medium (380M parámetros), ofrece una solución equilibrada con las limitaciones de recursos computacionales y el tamaño del conjunto de datos de preentrenamiento, garantizando el rendimiento del modelo y optimizando la velocidad de inferencia y el uso de memoria. La velocidad de inferencia de ViTLP en una Nvidia 4090 suele procesar una página de imagen de documento en 5 a 10 segundos, lo que es competitivo con la mayoría de los motores OCR.
Abrir sitio web

ViTLP Situación del tráfico más reciente

Total de visitas mensuales

474564576

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:34

ViTLP Tendencia de visitas

ViTLP Distribución geográfica de las visitas

ViTLP Fuentes de tráfico

ViTLP Alternativas