苹果的 “多模态炼丹炉” 又升级！MM1.5增强文本密集、多图理解

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月14号 10:56

220

苹果公司最近为其多模态人工智能模型MM1推出了重大更新，将其升级为MM1.5版本。这次升级不仅仅是简单的版本号变更，而是全方位的能力提升，使得模型在各个领域都展现出了更强大的性能。

MM1.5的核心升级在于其创新的数据处理方法。该模型采用了以数据为中心的训练方法，精心筛选和优化了训练数据集。具体而言，MM1.5使用了高清晰度的OCR数据和合成图像描述，以及优化的视觉指令微调数据混合。这些数据的引入使得模型在文字识别、图像理解和执行视觉指令等方面都有了显著提升。

在模型规模方面，MM1.5涵盖了从10亿到300亿参数不等的多个版本，包括密集型和专家混合（MoE）变体。值得注意的是，即使是较小规模的10亿和30亿参数模型，通过精心设计的数据和训练策略，也能达到令人印象深刻的性能水平。

MM1.5的能力提升主要体现在以下几个方面:文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解。这些能力使得MM1.5可以应用于更广泛的场景，如从音乐会照片中识别表演者和乐器、理解图表数据并回答相关问题、在复杂场景中定位特定物体等。

为了评估MM1.5的性能，研究人员将其与其他先进的多模态模型进行了对比。结果显示，MM1.5-1B在10亿参数规模的模型中表现出色，明显优于同级别的其他模型。MM1.5-3B的表现超越了MiniCPM-V2.0，并与InternVL2和Phi-3-Vision不相上下。此外，研究还发现，无论是密集型模型还是MoE模型，随着规模的扩大，性能都会显著提升。

MM1.5的成功不仅体现了苹果公司在人工智能领域的研发实力，也为多模态模型的未来发展指明了方向。通过优化数据处理方法和模型架构，即使是较小规模的模型也能实现强大的性能，这对于在资源受限的设备上部署高性能AI模型具有重要意义。

论文地址：https://arxiv.org/pdf/2409.20566

阿里巴巴股价飙升，背后原因竟与人工智能有关

阿里巴巴的股价在近期表现出色，持续攀升，吸引了投资者的广泛关注。这家知名的电子商务巨头上周发布了令人惊喜的财报，超出市场预期，进一步巩固了其在行业中的地位。公司不仅在营收上实现了增长，同时也表现出良好的盈利能力，显示出其强大的市场竞争力。值得注意的是，阿里巴巴宣布将与苹果公司在中国市场进行合作，支持 iPhone 的人工智能服务。这一消息无疑为其股价上涨注入了强心剂。双方的合作不仅将有助于推动阿里巴巴在 AI 领域的发展，还将提升其在消费者心目中

报道称苹果公司正在研发人形机器人

根据最新报道，苹果公司正在积极探索机器人技术，计划开发人形和非人形机器人。这些机器人目前处于内部验证阶段，苹果希望将其整合进智能家居生态系统中。分析师郭明錤在社交平台上透露，苹果的重点是用户与机器人的互动体验，而不是机器人本身的外观设计。苹果的设计理念与三星的智能家居机器人 Ballie 有些相似。Ballie 外形像个篮球，能够在家庭中执行任务，如迎接主人、投影通知等。苹果也正在研究类似的机器人，力求为用户提供更方便的智能家居体验。此外，去年11月，

因生成内容不准确，苹果暂停新闻类AI通知摘要功能

苹果公司近日因AI生成的新闻通知摘要出现严重失实信息，宣布在iOS18.3、iPadOS18.3和macOS Sequoia15.3的最新开发者预览版中，暂停所有新闻和娱乐应用的通知摘要功能。此次调整源于BBC此前的一项投诉。BBC指出苹果的AI系统在一篇报道中严重歪曲事实，错误声称联合健康保险公司CEO布莱恩·汤普森谋杀案的嫌疑人路易吉·曼吉奥内选择开枪自杀。为提升用户体验和增强透明度，苹果计划在未来更新中引入多项改进措施:所有AI生成的通知摘要将采用斜体显示，帮助用户与常规通知区分，用户可直接

苹果 AI 新闻摘要功能引发广泛争议，频频传播虚假信息

苹果公司近日推出了一项名为 AI 新闻摘要的新功能，但这一功能在总结突发新闻时却频频出现严重失误，导致用户接收到大量虚假信息。自从该功能推出以来，许多新闻机构和用户都对其表示了强烈的不满，认为苹果的技术尚未成熟，不能有效地提供准确的信息。有报道称，华盛顿邮报的科技专栏作家 Geoffrey Fowler 在社交媒体上发文，指出苹果 AI 在一则新闻摘要中将正在进行确认听证会的国防部长候选人 Pete Hegseth 错误地描述为已被福克斯新闻解雇，此外还错误地声称佛罗里达州参议员 M

AI新闻资讯