AI公司面对训练数据枯竭危机 2026年高质量数据或告急

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月14号 9:34

AI公司或将在2026年面对高质量训练数据告急的危机，使用合成数据可能带来模型畸形效应。解决方案或在于建立数据合作伙伴关系。尽管互联网资源看似无限，实际上很难找到永无止境的数据供应。

OpenAI 在印度法院抗辩，拒绝删除 ChatGPT 训练数据

近日，美国人工智能公司 OpenAI 对印度德里高等法院的裁定提出了抗辩，认为该法院没有权利要求其删除 ChatGPT 的训练数据。此案源于印度新闻机构 ANI 于去年11月提起的诉讼，声称 OpenAI 未经授权使用其已发布的内容来训练 ChatGPT。ANI 要求将其内容从模型的训练数据集中删除，并指控 OpenAI 侵犯版权。在1月10日提交给德里高等法院的一份86页的文件中，OpenAI 表示，根据美国法律，正在进行诉讼时必须保留训练数据。因此，来自印度的删除数据命令与其法律责任相抵触。OpenAI 强调，由于公司

Meta 高层痴迷于超越 GPT-4，训练数据面临版权风波！

近日，随着一起关于人工智能版权的案件 ——Kadrey 诉 Meta 案的进展，Meta 公司内部的消息被法庭解封，透露出公司高管在开发 Llama3过程中，执着于超越 OpenAI 的 GPT-4模型。Meta 的生成 AI 副总裁阿赫马德・阿尔 - 达赫（Ahmad Al-Dahle）在2023年10月的一条信息中提到:“老实说，我们的目标必须是 GPT-4。我们有64000个 GPU!我们需要学习如何建设前沿技术，赢得这场竞争。”尽管 Meta 发布开放的 AI 模型，但公司的 AI 领导层显然更关注那些不公开模型权重的竞争对手，比如 Anthropic 和 OpenAI，并将它们的

全球首个AI训练数据透明度模板推出推动人工智能行业透明化

在推动人工智能（AI）领域透明度的进程中，计算机与通信行业协会(CCIA)于布鲁塞尔和华盛顿共同宣布推出一项开创性的新举措，即全球行业透明度报告模板。这一模板旨在提升公众对通用人工智能(GPAI)模型训练数据的信任与理解。此次发布的 “AI 模型训练数据透明度模板” 要求企业披露用于训练特定 GPAI 模型的数据类型，例如播客、书籍等，同时还需明确数据的主要来源，如开放存取档案、大型公共数据集或公共网站的爬取数据。此外，企业还需详细解释这些数据是如何被筛选和应用于

研究人员开源推理型人工智能模型Sky-T1 训练成本不到450美元

近日，加州大学伯克利分校的 Sky Computing Lab 团队发布了 Sky-T1-32B-Preview，这是一款开放源代码的推理型人工智能模型，标志着推理型 AI 的研发变得更加容易和便宜。该模型在多个关键基准测试中表现出色，甚至与 OpenAI 早期版本的 o1相媲美。Sky-T1的训练成本令人瞩目，仅为450美元，这意味着高水平推理能力的复制已变得更加可负担且高效。虽然450美元的费用可能听起来不算低，但与几年前动辄数百万美元的训练成本相比，已是巨大的下降。借助合成训练数据，即由其他模型生成的训练数据

AI新闻资讯

AI公司面对训练数据枯竭危机 2026年高质量数据或告急

站长之家

相关AI新闻推荐

​OpenAI 在印度法院抗辩，拒绝删除 ChatGPT 训练数据

Meta 高层痴迷于超越 GPT-4，训练数据面临版权风波！

全球首个AI训练数据透明度模板推出 推动人工智能行业透明化

研究人员开源推理型人工智能模型Sky-T1 训练成本不到450美元

OpenAI 在印度法院抗辩，拒绝删除 ChatGPT 训练数据

全球首个AI训练数据透明度模板推出推动人工智能行业透明化