智源研究院发布代码生成训练数据集 TACO

Mistral 公司近日宣布升级其开源代码生成模型 Codestral,推出了全新版本 Codestral25.01。此次更新使得该模型在编程领域的竞争力显著增强,目标是为开发者提供更高效的代码生成体验。根据 Mistral 的博客文章,Codestral25.01的架构经过优化,承诺在同类模型中成为 “绝对领军者”,其代码生成速度是之前版本的两倍。这一新版本依旧保持了原有模型的优势,专注于低延迟和高频操作,支持代码纠正、测试生成及代码填充等任务。Mistral 表示,这对于拥有大量数据的企业和模型驻留使用场景尤为
哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。 它涵盖了各种类型、年代和语言,既有莎士比亚、查尔斯·狄更斯和但丁的经典之作,也有
《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据,令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件,两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而,11月14日,一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功,但由于文件夹结构和文件名已"无法挽回"地丢失,恢复的数据实际
9月25日,百度文心快码登顶了沙利文和SuperCLUE两大评测机构的榜首。沙利文联合头豹研究院发布的《2024年 AI 代码生成市场观测报告-里程碑》显示,百度文心快码在技术底蕴、应用落地、产品成熟等八个重要维度均排名第一,成为所有参评厂商中获评第一最多的产品。同一天,国内评测机构SuperCLUE发布的“中文原生代码助手测评基准榜单”中,百度文心快码也以总分87.55在国内AI代码产品中排名第一。沙利文的报告从四个阶段、十大维度对百度、阿里、腾讯、科大讯飞、商汤、智谱AI等六家