ViTLP es un modelo de preentrenamiento de diseño de texto generado por visión, diseñado para mejorar la eficiencia y precisión del procesamiento inteligente de documentos. Este modelo combina la localización y el reconocimiento de texto OCR, permitiendo la detección y el reconocimiento de texto rápido y preciso en imágenes de documentos. La versión preentrenada de ViTLP, ViTLP-medium (380M parámetros), ofrece una solución equilibrada con las limitaciones de recursos computacionales y el tamaño del conjunto de datos de preentrenamiento, garantizando el rendimiento del modelo y optimizando la velocidad de inferencia y el uso de memoria. La velocidad de inferencia de ViTLP en una Nvidia 4090 suele procesar una página de imagen de documento en 5 a 10 segundos, lo que es competitivo con la mayoría de los motores OCR.