哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月13号 15:13

204

哈佛大学近日宣布，计划发布一个由近100万本公共领域书籍组成的数据集，任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。

此项目由哈佛大学新成立的机构数据计划（Institutional Data Initiative）主导，并在微软与OpenAI的资助下完成。该数据集包括来自谷歌Books项目的扫描书籍，涵盖了莎士比亚、狄更斯、但丁等经典作品，以及一些晦涩的捷克数学教科书和威尔士词典等内容。

AI助教机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

这一数据集被称为“Books3数据集”的五倍大，旨在为人工智能领域提供一个公平的竞争环境，让公众，特别是小型AI公司和个人研究人员，能够访问到通常只有大型科技公司才能收集到的高质量数据。格雷格•莱珀特（Greg Leppert）表示，该项目经过了严格筛选，内容精心策划。

微软副总裁伯顿·戴维斯强调，微软支持该项目的目的是为了为初创公司创造一个“可访问数据池”，并确保这些数据以“公众利益为基础”进行管理。OpenAI的知识产权主管汤姆·鲁宾也表示，该公司很高兴能够支持这一项目。

随着关于AI使用版权数据的诉讼不断增多，类似哈佛这一公共领域数据集的项目正在成为AI训练数据的一个重要来源。虽然目前还不清楚该数据集具体如何发布，但它预计将为企业提供大量高质量的数据，同时避免版权问题的困扰。

哈佛大学的“机构数据倡议”计划不仅限于书籍，还与波士顿公共图书馆合作，扫描了数百万篇公共领域的报纸文章，并计划将来与更多合作伙伴进行类似合作。此外，哈佛也正在与谷歌合作，商讨如何实现数据集的公共分发。

这一项目将加入多个类似的倡议，这些项目也承诺提供高质量的AI训练材料，并且避免版权风险。未来，随着更多公共领域数据集的出现，AI公司将有更多的选择来训练其模型，同时减少版权相关的法律风险。

OpenAI 在全球扩展人工智能代理服务Operator，提升用户体验

OpenAI 于上周五宣布，正在为澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国等多个国家的 ChatGPT Pro 用户推出其最新的人工智能代理工具 ——Operator。这一工具的推出标志着 OpenAI 在人工智能领域的一次重要扩展，旨在帮助用户更高效地完成各种日常任务。Operator 自今年1月在美国首次推出以来，便备受关注，成为市场上少数能够代表用户执行任务的 “人工智能代理” 之一。它能够完成多种操作，包括订票、预订餐厅、提交费用报告，甚至在电子商务网站上购物。这些功能不仅

OpenAI宣布面向多个国家推出AI代理 Operator

OpenAI 于周五宣布，将在包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家，为 ChatGPT Pro 用户推出一款名为 “Operator” 的人工智能代理工具。此工具旨在帮助用户更高效地完成各类任务，包括订票、预订餐厅、提交费用报告和网上购物等。“Operator” 最初于今年1月在美国推出，作为市场上几款 “人工智能代理” 工具之一，OpenAI 希望通过这一产品，为用户提供更便捷的服务。需要注意的是，这一工具目前仅对每月付费200美元的 ChatGPT Pro 用户开放，用户可以通过

微软备战OpenAI的GPT-5模型，预计即将发布GPT-4.5

近日，有消息人士透露，微软正在积极准备即将发布的 OpenAI 新模型 ——GPT-4.5及 GPT-5。根据 OpenAI 首席执行官山姆・阿特曼的说法，GPT-4.5将在数周内正式推出，微软则预计最早将在下周托管这一新 AI 模型。GPT-4.5代号 “猎户座”，是 OpenAI 的下一代模型，并且是公司最后一个非链式思维（non-chain-of-thought）模型。业内人士指出，GPT-4.5的能力有望大幅超越其前任 GPT-4。图源备注：图片由AI生成，图片授权服务商Midjourney不过，眼下的焦点不仅仅停留在 GPT-4.5，微软也在期待 GPT-5的到来。根据消

OpenAI Operator工具向多国Pro用户推出欧洲地区推广仍在进行

北京时间，2025 年 2 月 21日讯：OpenAI 今日宣布，其人工智能工具 Operator 已正式向澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国、英国以及 ChatGPT 可用的多数地区的 Pro 用户推出。这一消息通过 X 平台发布，标志着 Operator 的全球化推广迈出重要一步。然而，欧盟、瑞士、挪威、列支敦士登和冰岛的推广工作仍在进行中，具体进展有待后续更新。Operator 扩展至多国Operator 是 OpenAI 开发的一款 AI 代理工具，能够通过视觉界面控制浏览器，自主完成订票、购物等网络任务。该工具最初于

AI新闻资讯

哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料