Recentemente, a Microsoft alcançou um grande avanço com seu mais novo modelo de visão básico, o Florence-2. Graças à tecnologia Transformers.js, este modelo agora pode ser executado 100% localmente em navegadores compatíveis com WebGPU. Essa inovação revoluciona os aplicativos de visão de IA, permitindo que poderosos recursos de reconhecimento visual sejam implementados diretamente no navegador do usuário, sem depender de servidores remotos.
O Florence-2-base-ft é um modelo de visão básico com 230 milhões de parâmetros, que utiliza um método baseado em prompts para lidar com uma ampla gama de tarefas de visão e linguagem visual. O modelo suporta diversas funcionalidades, incluindo, mas não se limitando a:
- Geração de descrições de imagens
- Reconhecimento óptico de caracteres (OCR)
- Detecção de objetos
- Segmentação de imagens
Este poderoso modelo ocupa apenas 340 MB de espaço de armazenamento. Após o carregamento, ele é armazenado em cache no navegador, permitindo acesso direto em visitas subsequentes sem necessidade de download repetido. O mais impressionante é que todo o processo ocorre localmente no navegador do usuário, sem envio de chamadas de API para o servidor. Isso significa que, após o carregamento do modelo, todas as funcionalidades permanecem disponíveis mesmo sem conexão com a internet.
A execução local do Florence-2 é possível graças ao suporte das tecnologias 🤗 Transformers.js e ONNX Runtime Web. Essa inovação não apenas aprimora a privacidade do usuário, mas também reduz significativamente os custos, abrindo caminho para a popularização dos aplicativos de visão de IA.
Para desenvolvedores e entusiastas de tecnologia, o modelo ONNX do Florence-2 está disponível no Hugging Face: https://huggingface.co/models?library=transformers.js&other=florence2. Além disso, o código-fonte do projeto está disponível no GitHub: https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu para exploração e desenvolvimento adicionais.
O avanço do Florence-2 impulsionará, sem dúvida, o rápido desenvolvimento e a ampla adoção de aplicativos de visão de IA. Podemos esperar que, em breve, mais aplicativos de visão inteligentes baseados em navegador transformem nossas vidas diárias e a maneira como trabalhamos.