近日,微软推出的最新视觉基础模型Florence-2取得重大突破,借助Transformers.js技术,该模型现已能够在支持WebGPU的浏览器中100%本地运行。这一突破为AI视觉应用带来了革命性的变化,使得强大的视觉识别功能可以直接在用户的浏览器中实现,无需依赖远程服务器。

Florence-2-base-ft是一个拥有2.3亿参数的视觉基础模型,采用基于提示的方法来处理广泛的视觉和视觉语言任务。该模型支持多种功能,包括但不限于:

  1. 图像描述生成
  2. 光学字符识别(OCR)
  3. 物体检测
  4. 图像分割

image.png

这个强大的模型仅占用340MB存储空间,一旦加载完成,就会被缓存在浏览器中,用户再次访问页面时可以直接调用,无需重新下载。最令人惊叹的是,整个过程完全在用户的浏览器中本地进行,不需要向服务器发送任何API调用。这意味着,在模型加载完成后,即使断开互联网连接,用户依然可以使用所有功能。

Florence-2的本地化运行得益于🤗 Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了用户隐私保护水平,还大大降低了使用成本,为AI视觉技术的普及应用铺平了道路。

对于开发者和技术爱好者来说,Florence-2的ONNX模型已经在Hugging Face平台上开放获取。感兴趣的朋友可以访问https://huggingface.co/models?library=transformers.js&other=florence2查看更多详情。此外,项目的源代码也已在GitHub上公开,开发者可以通过https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu  获取并进行进一步的探索和开发。

Florence-2的这一突破无疑将推动AI视觉应用的快速发展和广泛普及。我们可以期待在不久的将来,更多基于浏览器的智能视觉应用将改变我们的日常生活和工作方式。