Recientemente, el último modelo visual básico de Microsoft, Florence-2, ha logrado un gran avance. Gracias a la tecnología Transformers.js, este modelo ahora puede ejecutarse al 100% de forma local en navegadores compatibles con WebGPU. Este avance revoluciona las aplicaciones de visión artificial, permitiendo que las potentes funciones de reconocimiento visual se implementen directamente en el navegador del usuario, sin necesidad de depender de servidores remotos.

Florence-2-base-ft es un modelo visual básico con 230 millones de parámetros, que utiliza un método basado en prompts para procesar una amplia gama de tareas visuales y de lenguaje visual. Este modelo admite varias funciones, incluyendo, pero no limitado a:

  1. Generación de descripciones de imágenes
  2. Reconocimiento óptico de caracteres (OCR)
  3. Detección de objetos
  4. Segmentación de imágenes

image.png

Este potente modelo ocupa solo 340 MB de espacio de almacenamiento. Una vez cargado, se almacena en caché en el navegador, por lo que el usuario puede acceder a él directamente la próxima vez que visite la página, sin necesidad de volver a descargarlo. Lo más sorprendente es que todo el proceso se realiza de forma local en el navegador del usuario, sin necesidad de enviar ninguna llamada API al servidor. Esto significa que, una vez cargado el modelo, el usuario puede seguir utilizando todas las funciones incluso sin conexión a internet.

La ejecución local de Florence-2 se debe al soporte de las tecnologías 🤗 Transformers.js y ONNX Runtime Web. Este avance no solo mejora la protección de la privacidad del usuario, sino que también reduce considerablemente los costos, allanando el camino para la aplicación generalizada de la tecnología de visión artificial.

Para desarrolladores y entusiastas de la tecnología, el modelo ONNX de Florence-2 ya está disponible en la plataforma Hugging Face. Los interesados pueden visitar https://huggingface.co/models?library=transformers.js&other=florence2 para obtener más información. Además, el código fuente del proyecto también se ha publicado en GitHub, y los desarrolladores pueden acceder a él a través de https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu para explorar y desarrollar aún más.

Este avance de Florence-2 sin duda impulsará el rápido desarrollo y la amplia adopción de las aplicaciones de visión artificial con IA. Podemos esperar que, en un futuro próximo, más aplicaciones de visión inteligente basadas en navegador cambien nuestra vida diaria y nuestra forma de trabajar.