近日,OpenAI 与纽约时报之间的版权侵权诉讼在美国联邦法院开庭。此案引发广泛关注,因为它不仅涉及两大知名机构,还可能对整个数字媒体生态系统产生深远影响。法庭上,OpenAI 及其主要投资者微软提出了驳回诉讼的动议,而纽约时报及其他原告则指控 OpenAI 和微软在未获得许可的情况下使用其内容来训练大型语言模型(LLM),并利用这些模型来与原告竞争,影响其网站流量和收入。纽约时报的律师在法庭上指出,OpenAI 在训练其模型时,可能直接复制了多篇新闻报道,有时甚至在回答
近日,随着 Meta 公司在一场关于版权的集体诉讼中披露的文件浮出水面,该公司利用一个名为 Library Genesis(LibGen)的盗版电子书图书馆来训练其最新的 AI 聊天机器人 Llama3的消息引发了广泛关注。这些文件显示,Meta 的工程师曾讨论过利用 LibGen 这一 “影子图书馆” 的潜在风险,尤其是在版权和数据拥有权问题日益突出的背景下。尽管存在潜在的负面影响和舆论风险,Meta 的首席执行官马克・扎克伯格依然批准了这一决定。图源备注:图片由AI生成,图片授权服务商Midjourney在法庭的要求下
在最近的一次直播对话中,特斯拉和 SpaceX 首席执行官埃隆・马斯克表示,现实世界中可用于训练人工智能模型的数据已经几乎耗尽。与他进行对话的是 Stagwell 董事会主席马克・佩恩。马斯克提到,“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”马斯克的这一观点与前 OpenAI 首席科学家伊利亚・苏茨克弗在去年12月的 NeurIPS 会议上提出的 “数据峰值” 理论相似。苏茨克弗表示,AI 行业正面临数据短缺的挑战,未来缺乏足
近年来,训练大型语言模型(LLM)变得越来越昂贵且复杂,只有少数大型科技公司具备相应的计算资源。不过,谷歌最近推出了一种名为 SALT(小模型辅助大模型训练)的新方法,这一创新可能会彻底改变 AI 训练的格局。图源备注:图片由AI生成,图片授权服务商Midjourney根据谷歌研究和 DeepMind 的最新研究论文,“一点帮助就能走得更远:通过利用小型语言模型实现高效的 LLM 训练”,SALT 引入了一种新的两阶段训练过程。这种方法不仅高效,而且更具实用性,改变了我们以往的训练方式。SALT 的