苹果公司最近发布了一篇技术论文,详细介绍了为 “Apple Intelligence” 系列生成式人工智能功能开发的模型。这些功能将在未来几个月内推向 iOS、macOS 和 iPadOS 平台。在这篇论文中,苹果回应了外界对其训练模型过程中是否存在伦理问题的质疑,重申自己并没有使用任何私有用户数据,而是利用了公开可用的数据和已获许可的数据来进行训练。
图源备注:图片由AI生成,图片授权服务商Midjourney
苹果表示,预训练数据集包括来自出版商的许可数据、经过精心挑选的公开数据集以及由其网络爬虫 Applebot 抓取的公开信息。苹果强调,考虑到保护用户隐私的重要性,这些数据中不包含任何私人用户信息。
在7月份,有媒体报道称,苹果使用了一个名为 “The Pile” 的数据集,其中包含了数十万条 YouTube 视频的字幕,而很多字幕创作者并不知情也未授权使用。对此,苹果后来表示,他们并不打算利用这些模型为产品提供任何 AI 功能。
这篇技术论文首次揭开了苹果在2024年 WWDC 大会上公布的 “苹果基础模型”(AFM)的神秘面纱,强调了这些模型的训练数据是 “负责任地” 获取的。AFM 模型的训练数据来自于公开的网络数据以及一些未公开的出版商的许可数据。报道称,苹果在2023年底联系了 NBC、康泰纳仕等多家出版商,达成了至少5000万美元的长期协议,以使用其新闻档案进行模型训练。此外,AFM 模型还使用了在 GitHub 上托管的开源代码,包括 Swift、Python、C 等多种编程语言的代码。
然而,使用开源代码进行模型训练在开发者中引发了争议。有些开源代码库并没有许可,或者不允许用于 AI 训练,但苹果表示,他们会经过 “许可过滤”,只选择那些使用限制较少的代码库。
为了提升 AFM 模型的数学能力,苹果在训练数据集中特别加入了来自网页、数学论坛、博客、教程和研讨会的数学问题和答案。此外,他们还利用 “高质量、公开可用” 的数据集进行微调,以尽量减少模型产生不当行为的可能性。
整合的数据集大约包含6.3万亿个标记,而相比之下,Meta 用于训练其旗舰文本生成模型 Llama3.1405B 的数据量达到15万亿。苹果还通过人类反馈和合成数据进一步优化 AFM 模型,力求使其更符合用户需求。
这篇论文虽然没有提出什么惊人的发现,但这也是经过精心设计的结果。因为大多数此类论文并不会过于详细,以避免法律问题。苹果在文中提到,他们允许网页管理员阻止爬虫抓取数据,但这对个别创作者来说并不是很有帮助,如何保护自己的作品仍然是一个亟待解决的问题。
划重点:
🌟 苹果强调,训练模型时并未使用私有用户数据,而是依赖公开和许可的数据。
📊 训练数据包括来自多家出版商的授权内容,以及开源代码库。
🔍 苹果努力在保护用户隐私的同时,致力于提升 AI 模型的性能与责任感。