亚马逊公司近日被报道正在开发一种名为 “Olympus” 的多模态大型语言模型,预计最早将于下周的 AWS re:Invent 大会上正式发布。根据theinformation的消息,这一算法的内部代号为 “Olympus”。去年11月,《路透社》曾报道,亚马逊在训练名为 “Olympus” 的大型语言模型上投入了数百万美元,模型的参数量高达2万亿。至于这次报道中提到的模型是否与之前的 “Olympus” 相同,或是其新版本,亦或是全新的系统,仍然不清楚。图源备注:图片由AI生成,图片授权服务商Midjourney据悉,新的 “Olympus”
Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型,该模型能够自由混合文本和语音,为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果! 比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做
手机、平板、电脑、电视,屏幕越来越多,操作越来越复杂,是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2,一个超强 UI 理解模型,号称要统一江湖!这可不是吹牛,Ferret-UI2的目标是成为一个真正的六边形战士,能在各种平台上理解用户界面,不管是iPhone、Android、iPad、网页还是AppleTV,它都能轻松拿下。Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同,Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当
苹果公司近日发布了新一代人工智能系统Ferret-UI2。这款跨平台AI助手在UI元素识别方面取得重大突破,测试得分达89.73,大幅领先GPT-4V的77.73分,展现出卓越的性能表现。这套系统最大的特点在于其智能理解用户意图的能力。不同于传统基于坐标点击的操作方式,Ferret-UI2能够根据用户的自然语言指令,自动定位并执行相应操作。研究团队通过借助GPT-4V的视觉能力生成训练数据,使系统能够更好地理解界面元素之间的空间关系。在技术架构上,Ferret-UI2采用了自适应设计,可在iPhone、iPad、安卓