智源研究院发布代码生成训练数据集 TACO

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月25号 14:12

智源研究院发布了名为 TACO 的代码生成训练集，旨在为代码生成模型提供更具挑战性的训练数据和评测基准。TACO 在数据规模、质量和评测方案上具有优势，包括更大规模的训练集和测试集，多样化的解题答案，以及细粒度的标签。实验结果显示，当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异，说明该领域仍有提升空间。TACO 不仅是一个挑战性的测试方法，还可用作改进模型性能的训练数据，促进代码生成领域的发展。

Mistral推出新一代编程模型Codestral 25.01，编程速度提高两倍

Mistral 公司近日宣布升级其开源代码生成模型 Codestral，推出了全新版本 Codestral25.01。此次更新使得该模型在编程领域的竞争力显著增强，目标是为开发者提供更高效的代码生成体验。根据 Mistral 的博客文章，Codestral25.01的架构经过优化，承诺在同类模型中成为 “绝对领军者”，其代码生成速度是之前版本的两倍。这一新版本依旧保持了原有模型的优势，专注于低延迟和高频操作，支持代码纠正、测试生成及代码填充等任务。Mistral 表示，这对于拥有大量数据的企业和模型驻留使用场景尤为

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

哈佛大学周四宣布，将公开一份包含近百万本公共领域图书的高质量数据集，任何人都可以利用它来训练大型语言模型和其他 AI 工具。这份数据集由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并获得了微软和 OpenAI 的资金支持。其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。它涵盖了各种类型、年代和语言，既有莎士比亚、查尔斯·狄更斯和但丁的经典之作，也有

AI数据门:OpenAI意外删除证据，媒体巨头状告其侵犯版权

《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据，令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件，两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而，11月14日，一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功，但由于文件夹结构和文件名已"无法挽回"地丢失，恢复的数据实际

百度文心快码登沙利文、SuperCLUE两大评测报告榜首

9月25日，百度文心快码登顶了沙利文和SuperCLUE两大评测机构的榜首。沙利文联合头豹研究院发布的《2024年 AI 代码生成市场观测报告-里程碑》显示，百度文心快码在技术底蕴、应用落地、产品成熟等八个重要维度均排名第一，成为所有参评厂商中获评第一最多的产品。同一天，国内评测机构SuperCLUE发布的“中文原生代码助手测评基准榜单”中，百度文心快码也以总分87.55在国内AI代码产品中排名第一。沙利文的报告从四个阶段、十大维度对百度、阿里、腾讯、科大讯飞、商汤、智谱AI等六家

AI新闻资讯