微软推出最新视觉基础模型Florence-2 在浏览器中本地运行

近日，微软推出的最新视觉基础模型Florence-2取得重大突破，借助Transformers.js技术，该模型现已能够在支持WebGPU的浏览器中100%本地运行。这一突破为AI视觉应用带来了革命性的变化，使得强大的视觉识别功能可以直接在用户的浏览器中实现，无需依赖远程服务器。

Florence-2-base-ft是一个拥有2.3亿参数的视觉基础模型，采用基于提示的方法来处理广泛的视觉和视觉语言任务。该模型支持多种功能，包括但不限于:

图像描述生成
光学字符识别（OCR）
物体检测
图像分割

这个强大的模型仅占用340MB存储空间，一旦加载完成，就会被缓存在浏览器中，用户再次访问页面时可以直接调用，无需重新下载。最令人惊叹的是，整个过程完全在用户的浏览器中本地进行，不需要向服务器发送任何API调用。这意味着，在模型加载完成后，即使断开互联网连接，用户依然可以使用所有功能。

Florence-2的本地化运行得益于🤗 Transformers.js和ONNX Runtime Web技术的支持。这一突破不仅提高了用户隐私保护水平，还大大降低了使用成本，为AI视觉技术的普及应用铺平了道路。

对于开发者和技术爱好者来说，Florence-2的ONNX模型已经在Hugging Face平台上开放获取。感兴趣的朋友可以访问https://huggingface.co/models?library=transformers.js&other=florence2查看更多详情。此外，项目的源代码也已在GitHub上公开，开发者可以通过https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu 获取并进行进一步的探索和开发。

Florence-2的这一突破无疑将推动AI视觉应用的快速发展和广泛普及。我们可以期待在不久的将来，更多基于浏览器的智能视觉应用将改变我们的日常生活和工作方式。

AI新闻资讯

微软推出最新视觉基础模型Florence-2 在浏览器中本地运行

AIbase