近日,一项调查揭示了包括苹果在内的多家科技巨头曾利用YouTube视频字幕来训练AI模型。这些数据涵盖了超过170,000个视频,其中包括知名创作者如MKBHD和Mr. Beast的内容。苹果公司利用这些数据训练了其开源模型OpenELM,该模型于今年4月发布。

苹果、 iOS 18、Apple Intelligence

对此,苹果近期向外澄清,OpenELM并未应用于其任何AI或机器学习功能,包括Apple Intelligence。苹果强调,开发OpenELM的目的是为研究界做贡献,并推动开源大语言模型的进步。此前,苹果研究人员曾将OpenELM描述为"最先进的开放语言模型"。

苹果表示,OpenELM仅用于研究目的,不支持任何Apple Intelligence功能。该模型以开源形式发布,可在苹果的机器学习研究网站上获取。这意味着"YouTube字幕"数据集并未用于支持Apple Intelligence。苹果此前曾声明,Apple Intelligence模型是"在授权数据上训练的,包括为特定功能选择的数据和通过网络爬虫收集的公开数据"。

值得注意的是,苹果目前没有计划开发OpenELM的新版本。《连线》杂志报道称,除苹果外,Anthropic和NVIDIA等公司也使用了这个"YouTube字幕"数据集来训练他们的AI模型。该数据集是非营利组织EleutherAI大型数据集"The Pile"的一部分。

这一事件引发了关于AI训练数据来源及其对隐私和版权的影响的讨论。尽管苹果澄清了OpenELM的用途,但科技公司使用公开数据训练AI模型的做法仍然值得关注。