ViTLP

Modèle pré-entraîné de mise en page de texte générée par guidage visuel pour l'intelligence documentaire

Produit OrdinaireProductivitéOCRIntelligence documentaire

ViTLP est un modèle pré-entraîné de génération de mise en page de texte guidée par la vision, conçu pour améliorer l'efficacité et la précision du traitement intelligent des documents. Ce modèle combine des fonctionnalités de localisation et de reconnaissance de texte OCR, permettant une détection et une reconnaissance rapides et précises du texte sur les images de documents. La version pré-entraînée du modèle ViTLP, ViTLP-medium (380M paramètres), offre une solution équilibrée compte tenu des limitations des ressources de calcul et de la taille des ensembles de données pré-entraînés, garantissant à la fois les performances du modèle et l'optimisation de la vitesse d'inférence et de l'utilisation de la mémoire. La vitesse d'inférence de ViTLP sur une Nvidia 4090 est généralement comprise entre 5 et 10 secondes pour le traitement d'une page de document, ce qui est compétitif par rapport à la plupart des moteurs OCR.

Best AI Websites & Tools

ViTLP

ViTLP Dernière situation du trafic

ViTLP Tendance des visites

ViTLP Distribution géographique des visites

ViTLP Sources de trafic

ViTLP Alternatives

ViTLP — Modèle pré-entraîné de mise en page de texte générée par guidage visuel pour l'intelligence documentaire

EdgeOne Pages Functions IA OCR — Service de reconnaissance optique de caractères (OCR) par IA

Excerptor — Extrait le texte souligné ou annoté à la main de livres physiques.

DTLR — Modèle de reconnaissance de texte manuscrit et de détection de caractères

GOT-OCR 2.0 — OCR 2.0 的统一端到端模型实现

Image vers Texte — Convertisseur d'image en texte en ligne

2txt — Convertit rapidement le texte d'une image en texte éditable.

Searchable — Rend vos images consultables

Traducteur d'images/mangas — Traduction en un clic du texte contenu dans diverses images

magi — Génère automatiquement des transcriptions de texte pour les mangas : détecte les personnages, les blocs de texte et les cases de manga, trie les cases, regroupe les personnages, associe le texte à son interlocuteur et effectue la reconnaissance optique de caractères (OCR).

Umi-OCR — Logiciel de reconnaissance optique de caractères (OCR) pour convertir les images en texte

OCR Magic — Numérisation et conversion de texte rapides

Solution OCR — API de solution OCR | Reconnaissance de texte OCR de documents

Aya Vision 32B — Aya Vision 32B est un modèle de langage visuel multilingue adapté à de multiples usages, tels que l'OCR, la description d'images et le raisonnement visuel.

Aya Vision 8B — Modèle de langage visuel multilingue à 800 millions de paramètres, prenant en charge l'OCR, la description d'images et le raisonnement visuel.

Magma — Magma est un modèle fondamental capable de comprendre et d'exécuter des entrées multimodales, utilisable pour des tâches et des environnements complexes.

FreeParser — FreeParser est un outil d'analyse de documents gratuit, propulsé par l'IA, prenant en charge de nombreux formats de fichiers.

Kreuzberg — Une bibliothèque Python prenant en charge l'extraction de texte à partir de divers formats de fichiers, notamment les PDF, les images et les documents bureautiques.

Détection de texte généré par IA – Modèle Zhuque — Basé sur un modèle IA avancé, il identifie précisément les textes générés par IA, avec d'excellentes capacités de détection en chinois et en anglais.

googleocr-app — Application de reconnaissance optique de caractères (OCR) haute précision basée sur Google Gemini 2.0.

Ollama OCR pour le web — Une puissante librairie OCR utilisant des modèles linguistiques visuels de pointe pour extraire du texte à partir d'images.

timesfm-2.0-500m-pytorch — Modèle de prédiction de séries temporelles pré-entraîné développé par Google Research.

Imitation avant Détection — Une méthode avancée pour détecter les textes modifiés par des machines, améliorant la précision de la détection en imitant le style des machines.

ExtractThinker — Framework de traitement intelligent de documents, spécialement conçu pour les LLMs

OpenEMMA — Modèle multimodal de conduite autonome de bout en bout, open source

STranslate — Outil de traduction et d'OCR prêt à l'emploi

ModernBERT-base — Modèle d'encodeur bidirectionnel hautement performant pour le traitement de longs textes

Ollama-OCR — Un puissant outil OCR (reconnaissance optique de caractères)

SynCamMaster — Technique de génération vidéo synchrone multi-vues

InternViT-6B-448px-V2_5 — Modèle de vision amélioré basé sur InternViT-6B-448px-V1-5