哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。 它涵盖了各种类型、年代和语言,既有莎士比亚、查尔斯·狄更斯和但丁的经典之作,也有
《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据,令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件,两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而,11月14日,一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功,但由于文件夹结构和文件名已"无法挽回"地丢失,恢复的数据实际
9月25日,百度文心快码登顶了沙利文和SuperCLUE两大评测机构的榜首。沙利文联合头豹研究院发布的《2024年 AI 代码生成市场观测报告-里程碑》显示,百度文心快码在技术底蕴、应用落地、产品成熟等八个重要维度均排名第一,成为所有参评厂商中获评第一最多的产品。同一天,国内评测机构SuperCLUE发布的“中文原生代码助手测评基准榜单”中,百度文心快码也以总分87.55在国内AI代码产品中排名第一。沙利文的报告从四个阶段、十大维度对百度、阿里、腾讯、科大讯飞、商汤、智谱AI等六家
Patched是一家由Y Combinator支持的初创公司,成立于2023年,旨在通过AI自动化代码审查、文档生成和维护任务,为开发者提供革命性的解决方案。作为开源框架,Patched利用大型语言模型(LLM)如Anthropic Claude、Cursor、Zed、Microsoft Copilot和Replit Agents,为开发者提供定制化工作流,自动化代码提交后的流程,如漏洞修复和代码格式化。Patched支持任何用户选择的LLM,提供一个无需编写代码即可轻松创建定制工作流的拖放式界面。商业模式采用每个工作流收费99美元的方式,价格合理,适合更多开发者使用。Patched还与OpenAI紧密合作,确保产品在GPT-5发布时保持相关性,并优化集成。其客户群覆盖全球,包括新加坡的KairosWealth和Stack Auth等公司,通过Patched提高工作效率。