哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。 它涵盖了各种类型、年代和语言,既有莎士比亚、查尔斯·狄更斯和但丁的经典之作,也有
在当今的人工智能领域,训练模型不仅仅是设计更好的架构,还需要高管理数据。现代 AI 模型需要大量数据,并且这些数据必须快速送达 GPU 和其他加速器。然而,传统的数据加载系统常常无法满足这一需求,导致 GPU 闲置、训练时间延长以及成本增加。尤其是在需要扩展或处理多种数据类型时,这个问题显得尤突出。为了解决这些问题,Meta AI 开发了 SPDL(可扩展且高效的数据加载),这是一个旨在改善 AI 训练数据传输的工具。SPDL 采用线程式加载,这一方法不同于传统的基于进程的方法
IBM 在纽约约克城宣布了一项重大的光学技术突破,该技术将显著数据中心在训练和运行生成式人工(AI)模型时的效率。IBM 的研究人员开发了一种新型的共封装光学技术(CPO),这项技术能够利用光速实现数据中心内部的连接,从而替代目前使用的铜电缆。尽管光纤技术已在全球商业和通信中广泛应用,但大多数数据中心内部仍依赖于铜电缆进行短距离通讯。这导致 GPU 加速器在训练过程中常常处于闲置状态,浪费大量的时间和能源 IBM 的研究团队展示了如何将光的速度和容量引入数据中
在快速发展的生成式 AI 领域,Nous Research 团队正在进行一项独特的实验:他们正在利用分布在全球的机器,预训练一款15亿参数的大型语言模型(LLM),这一过程避免了传统上需要在昂贵且耗电的数据中心或超级集群中进行的集中式开发。Nous Research 还在其专门网站 distro.nousresearch.com 上直播这一预训练过程,实时展示模型在各类评估基准上的表现,并提供参与训练的硬件位置地图,涵盖美国和欧洲的多个地点。截至本文发布时,预训练的剩余时间约为57小时(即2.3天),而已完成的训练进度