在本周举行的SIGGRAPH大会上,Meta首席执行官马克·扎克伯格首次展示了Segment Anything2(SA2),这是该公司去年推出的突破性图像分割模型的升级版本。新模型将AI驱动的分割技术扩展到了视频领域,展示了该技术在过去一年中取得的惊人进展。
SA2延续了其前身的优势,能够快速、可靠地识别和勾勒出视频中的任何物体。与仅适用于静态图像的原始模型不同,SA2专门针对视频处理进行了优化。扎克伯格在与英伟达CEO黄仁勋的对话中强调了这一进步的重要性:"能够在视频中实现这一点,而且无需拍摄任何镜头就能告诉它你想要什么,这非常酷。"
尽管视频处理对计算资源的要求更高,但SA2展现出了显著的效率提升。该模型能够在不依赖大型数据中心的情况下运行,反映了AI行业在效率方面的整体进步。
与Meta之前的做法一致,SA2将以开源方式发布,供研究人员和开发者免费使用。为支持这一模型的开发,Meta还发布了一个包含50,000个带注释视频的大型数据库。
扎克伯格在谈话中解释了Meta坚持开源策略的原因:"这不仅仅是一个你可以构建的软件——你需要一个围绕它的生态系统。如果我们不开源它,它几乎就不会那么好用。"他坦言,这一策略不仅有利于整个生态系统,也有助于提升Meta自身产品的质量。
SA2的发布再次彰显了Meta在"开放"AI领域的领导地位。尽管其"开放性"程度仍存在争议,但像LLaMa、Segment Anything等模型已成为AI性能的重要参考标准。
随着SA2的推出,AI视频分析技术将在科研、环境监测等诸多领域发挥更大作用。这一进展不仅展示了AI技术的快速发展,也为未来的应用开辟了新的可能性。