ViTLP
Modèle pré-entraîné de mise en page de texte générée par guidage visuel pour l'intelligence documentaire
Produit OrdinaireProductivitéOCRIntelligence documentaire
ViTLP est un modèle pré-entraîné de génération de mise en page de texte guidée par la vision, conçu pour améliorer l'efficacité et la précision du traitement intelligent des documents. Ce modèle combine des fonctionnalités de localisation et de reconnaissance de texte OCR, permettant une détection et une reconnaissance rapides et précises du texte sur les images de documents. La version pré-entraînée du modèle ViTLP, ViTLP-medium (380M paramètres), offre une solution équilibrée compte tenu des limitations des ressources de calcul et de la taille des ensembles de données pré-entraînés, garantissant à la fois les performances du modèle et l'optimisation de la vitesse d'inférence et de l'utilisation de la mémoire. La vitesse d'inférence de ViTLP sur une Nvidia 4090 est généralement comprise entre 5 et 10 secondes pour le traitement d'une page de document, ce qui est compétitif par rapport à la plupart des moteurs OCR.
ViTLP Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34