Récemment, le nouveau modèle visuel de base Florence-2 de Microsoft a réalisé une percée majeure. Grâce à la technologie Transformers.js, ce modèle peut désormais s'exécuter à 100 % en local dans les navigateurs compatibles WebGPU. Cette avancée révolutionne les applications de vision par IA, permettant d'intégrer de puissantes fonctionnalités de reconnaissance visuelle directement dans le navigateur de l'utilisateur, sans recourir à un serveur distant.
Florence-2-base-ft est un modèle visuel de base de 230 millions de paramètres, utilisant une approche basée sur les invites pour traiter un large éventail de tâches visuelles et visuelles linguistiques. Ce modèle prend en charge plusieurs fonctionnalités, notamment :
- Génération de descriptions d'images
- Reconnaissance optique de caractères (OCR)
- Détection d'objets
- Segmentation d'images
Ce puissant modèle ne nécessite que 340 Mo d'espace de stockage. Une fois chargé, il est mis en cache dans le navigateur, permettant un accès direct lors des visites ultérieures sans téléchargement supplémentaire. Le plus étonnant est que tout le processus s'effectue en local dans le navigateur de l'utilisateur, sans aucun appel d'API au serveur. Cela signifie que même sans connexion Internet, après le chargement du modèle, toutes les fonctionnalités restent accessibles.
L'exécution locale de Florence-2 est rendue possible grâce à la technologie 🤗 Transformers.js et ONNX Runtime Web. Cette avancée améliore non seulement la protection de la vie privée des utilisateurs, mais réduit également considérablement les coûts, ouvrant la voie à une adoption généralisée de la technologie de vision par IA.
Pour les développeurs et les passionnés de technologie, le modèle ONNX de Florence-2 est disponible sur la plateforme Hugging Face. Vous pouvez consulter plus de détails à l'adresse https://huggingface.co/models?library=transformers.js&other=florence2. De plus, le code source du projet est public sur GitHub : https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu pour une exploration et un développement plus approfondis.
Cette percée de Florence-2 stimulera sans aucun doute le développement rapide et la diffusion généralisée des applications de vision par IA. Nous pouvons nous attendre à voir, dans un avenir proche, de nombreuses applications de vision intelligente basées sur le navigateur transformer notre quotidien et notre façon de travailler.