ViTLP
Modelo de preentrenamiento de diseño de texto guiado por visión para la inteligencia de documentos
Producto ComúnProductividadOCRInteligencia de documentos
ViTLP es un modelo de preentrenamiento de diseño de texto generado por visión, diseñado para mejorar la eficiencia y precisión del procesamiento inteligente de documentos. Este modelo combina la localización y el reconocimiento de texto OCR, permitiendo la detección y el reconocimiento de texto rápido y preciso en imágenes de documentos. La versión preentrenada de ViTLP, ViTLP-medium (380M parámetros), ofrece una solución equilibrada con las limitaciones de recursos computacionales y el tamaño del conjunto de datos de preentrenamiento, garantizando el rendimiento del modelo y optimizando la velocidad de inferencia y el uso de memoria. La velocidad de inferencia de ViTLP en una Nvidia 4090 suele procesar una página de imagen de documento en 5 a 10 segundos, lo que es competitivo con la mayoría de los motores OCR.
ViTLP Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34