苹果和哥伦比亚大学联手开发Ferret多模态语言模型

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月30号 14:41

苹果和哥伦比亚大学的研究人员合作开发了Ferret多模态语言模型，旨在实现高级图像理解和描述。该模型拥有强大的全局理解能力，可以同时处理自由文本和引用区域，性能优于传统模型。研究人员创建了GRIT数据集，用于指导模型训练，并评估Ferret在多项任务中的性能，表现出引用和定位能力，有望在人机交互、智能搜索等领域取得重大突破。

亚马逊开发新型多模态语言模型 “Olympus” 或将亮相 AWS 大会

亚马逊公司近日被报道正在开发一种名为 “Olympus” 的多模态大型语言模型，预计最早将于下周的 AWS re:Invent 大会上正式发布。根据theinformation的消息，这一算法的内部代号为 “Olympus”。去年11月，《路透社》曾报道，亚马逊在训练名为 “Olympus” 的大型语言模型上投入了数百万美元，模型的参数量高达2万亿。至于这次报道中提到的模型是否与之前的 “Olympus” 相同，或是其新版本，亦或是全新的系统，仍然不清楚。图源备注:图片由AI生成，图片授权服务商Midjourney据悉，新的 “Olympus”

Meta最新音频大模型SPIRIT LM，让AI不止能说会道，还能“声情并茂”！

Meta AI近日重磅开源了名为SPIRIT LM的基础多模态语言模型，该模型能够自由混合文本和语音，为音频和文本的多模态任务打开了新的可能性。SPIRIT LM基于一个70亿参数的预训练文本语言模型，通过在文本和语音单元上进行持续训练，扩展到语音模态。它可以像文本大模型一样理解和生成文本，同时还能理解和生成语音，甚至可以把文本和语音混合在一起，创造出各种神奇的效果! 比如，你可以用它来做语音识别，把语音转换成文字;也可以用它来做语音合成，把文字转换成语音;还可以用它来做

苹果放大招！Ferret-UI 2来了， UI 理解力直接拉满！

手机、平板、电脑、电视，屏幕越来越多，操作越来越复杂，是不是让你眼花缭乱?苹果最近丢出一个王炸——Ferret-UI2，一个超强 UI 理解模型，号称要统一江湖!这可不是吹牛，Ferret-UI2的目标是成为一个真正的六边形战士，能在各种平台上理解用户界面，不管是iPhone、Android、iPad、网页还是AppleTV，它都能轻松拿下。Ferret-UI2的一大亮点是它对多平台的支持。与仅限于移动平台的Ferret-UI不同，Ferret-UI2能够理解来自平板电脑、网页和智能电视等各种设备的UI屏幕。这种多平台支持使其能够适应当

苹果新AI系统Ferret-UI 2刷新UI交互体验轻松操控你的设备

苹果公司近日发布了新一代人工智能系统Ferret-UI2。这款跨平台AI助手在UI元素识别方面取得重大突破，测试得分达89.73，大幅领先GPT-4V的77.73分，展现出卓越的性能表现。这套系统最大的特点在于其智能理解用户意图的能力。不同于传统基于坐标点击的操作方式，Ferret-UI2能够根据用户的自然语言指令，自动定位并执行相应操作。研究团队通过借助GPT-4V的视觉能力生成训练数据，使系统能够更好地理解界面元素之间的空间关系。在技术架构上，Ferret-UI2采用了自适应设计，可在iPhone、iPad、安卓

AI新闻资讯