苹果AI/ML团队与哥伦比亚大学合作开发的多模态大模型“雪貂”(Ferret)成功挑战谷歌人机验证码,能识别交通信号灯并提高大模型在“看说答”任务中的准确度。Ferret的创新在于融合引用和定位的空间理解能力,同时理解语义和目标,不同于传统多模态模型。使用混合区域表示方法,结合离散坐标和连续特征,模型在多任务评估中表现出色,特别在指代和视觉grounding任务上。这一突破是由中国团队取得,凸显了中国在多模态大模型研究中的实力,为图像理解和多模态任务提供新方向。Ferret的成就有望在人机交互和智能搜索等领域取得重要突破。