苹果推出全能视觉模型4M-21 可处理21种不同模态

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年6月25号 17:57

127

苹果和瑞士洛桑联邦理工学院（EPFL）的研究人员联合开发了一种任意到任意模态的单一模型，可以在数十种高度多样化的模态上进行训练，并对大规模多模态数据集和文本语料库进行协同训练。该模型被命名为4M-21，它在21种不同的模态下进行训练，比现有的模型至少完成3倍以上的任务，并且不会损失性能。

该研究采用了4M 预训练方案，通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量，并且在多个数据集上进行联合训练，可以提升模型的性能和适应性。研究人员使用不同的 tokenization 方法来离散具有不同特征的模态，如全局图像嵌入、人体姿态和语义实例。在架构选择上，该研究采用基于 Transformer 的4M 编码器 - 解码器架构，并添加额外的模态嵌入以适应新模态。

该模型不仅可以开箱即用地执行一系列常见的视觉任务，如 DIODE 表面法线和深度估计、COCO 语义和实例分割、3DPW3D 人体姿态估计等，还能够生成任意训练模态、支持几种方法来执行细粒度和多模态生成，以及可以通过使用其他模态作为查询来检索 RGB 图像或其他模态。此外，研究人员还在 NYUv2、Hypersim 语义分割和 ARKitScenes 上进行了多模态传输实验。

其重要的功能特点包括:

任意到任意模态:从现有最佳任意到任意模型的7种模态增加到21种不同模态，实现跨模态检索、可控生成和强大的开箱即用性能。

多样性支持:添加对更多结构化数据的支持，例如人体姿态、SAM 实例、元数据等等。

Tokenization:使用特定于模态的方法研究不同模态的离散 tokenization，例如全局图像嵌入、人体姿态和语义实例。

扩展:将模型大小扩展至3B 参数，将数据集扩展至0.5B 样本。

协同训练:同时在视觉和语言上协同训练。

论文地址:https://arxiv.org/pdf/2406.09406

划重点:
- 苹果和瑞士洛桑联邦理工学院（EPFL）研究人员联合开发了一种任意到任意模态的单一模型，可以在21种不同的模态下进行训练。
- 该模型可以开箱即用地执行一系列常见的视觉任务，还能够生成任意训练模态、支持几种方法来执行细粒度和多模态生成。
- 研究人员还在 NYUv2、Hypersim 语义分割和 ARKitScenes 上进行了多模态传输实验。

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。该模型能够直接生成204帧、540P 分辨率的高质量视频，并在指令遵循、运动平滑性、物理合理性以及美感等方面，表现超越了市场上现有的顶尖开源视频模型。另一方面，Step-Audio 则是业内首款能够生成多种情

苹果在iOS 18.4中推出AI驱动的应用评论摘要功能

随着 iOS18.4软件更新的公测启动，苹果公司正式推出了应用商店（App Store）评论的 AI 驱动摘要功能。这项新功能利用苹果自主研发的 AI 技术 “Apple Intelligence”，通过分析用户留下的评论，生成一段简短的总体总结，帮助用户快速了解应用的评价情况。根据苹果官网的介绍，这些评论摘要将由大型语言模型（LLMs）生成，提取用户反馈中的关键信息并整合成一段文字。为了保持信息的时效性，摘要每周会更新一次，但苹果并未透露更新所需的最低评论数量。用户可以通过长按评论来举报该功

苹果App Store即将推AI生成应用评论摘要，轻松获取用户反馈

近日，苹果公司宣布将在即将发布的 iOS18.4中引入 AI 生成的应用评论摘要功能。根据 Macworld 的报道，这一新功能将为部分 App Store 应用程序提供用户评论的简要摘要。这些摘要由大型语言模型生成，旨在 “提炼用户评论中的亮点和关键信息，并将其汇总成简短段落”，苹果在其开发者网站上说明。据苹果的示例，这些摘要将以自然语言方式呈现，首先展示用户对应用的积极评价，然后再提及负面反馈。苹果表示，这些摘要将至少每周更新一次，以反映新增的用户评论。此外，用户可以长按

华科字节推出 Liquid：重新定义多模态模型的生成与理解

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。Liquid 的创新之处在于，它采用 VQGAN 作为图像分词器，摒弃了对外部视觉组件的依赖，通过将图像编码为离散的视觉 token，使得模型可以直接与文本 token 共