AI训练数据告急：2026年前高质量数据或告罄

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年11月8号 16:33

随着AI行业迅速发展，高质量数据对于强大AI算法至关重要，但研究预测到2026年前可能告急。解决数据短缺问题的方法包括改进算法以更有效地利用已有数据，并使用合成数据来训练系统。此外，AI公司或许需要付费获取数据，以恢复创意工作者和AI公司之间存在的权力失衡。

1000 名艺术家发布“无声”专辑，抗议英国向人工智能出售版权

千名音乐家近日发布“无声专辑”，抗议英国拟议的版权法修改。音乐界担忧新规将允许科技公司未经许可、无偿使用受版权保护作品进行技术训练。名为《这是我们想要的吗?》的专辑汇集了凯特·布什等众多知名音乐人的“无声”作品，象征性地表达不满。艺术家们认为，政府为扶持科技行业，牺牲音乐人权益，新法案如同“将音乐盗窃合法化”。组织者埃德·牛顿-雷克斯指出，新规采用“选择退出”机制不切实际，将迫使艺术家承担追踪和阻止作品被使用的负担。他强调，音乐界并非

全球首个AI训练数据透明度模板推出推动人工智能行业透明化

在推动人工智能（AI）领域透明度的进程中，计算机与通信行业协会(CCIA)于布鲁塞尔和华盛顿共同宣布推出一项开创性的新举措，即全球行业透明度报告模板。这一模板旨在提升公众对通用人工智能(GPAI)模型训练数据的信任与理解。此次发布的 “AI 模型训练数据透明度模板” 要求企业披露用于训练特定 GPAI 模型的数据类型，例如播客、书籍等，同时还需明确数据的主要来源，如开放存取档案、大型公共数据集或公共网站的爬取数据。此外，企业还需详细解释这些数据是如何被筛选和应用于

AI数据门:OpenAI意外删除证据，媒体巨头状告其侵犯版权

《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据，令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件，两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而，11月14日，一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功，但由于文件夹结构和文件名已"无法挽回"地丢失，恢复的数据实际

"弱智吧"成最受欢迎中文AI训练数据库 “乐子人”直呼离谱

在人工智能迅速发展背景下，百度贴吧的"弱智吧"意外成为AI训练的重要数据来源，挑战了人们对高质量数据的传统认知。该社区以其荒诞幽默的内容，在问答、头脑风暴等测试中超越了知名平台，成为受欢迎的AI训练数据库之一。研究发现，"弱智吧"的口语化、多轮问答语料，有助于AI更接近人类交流方式。AI在理解人类幽默方面存在局限，而"弱智吧"的段子通过逻辑严密、修辞丰富和生活观察，为AI提供了宝贵的学习素材，锻炼了其对中文的理解和推理能力。这一现象揭示了人类智慧与创造力的独特性，提醒我们在AI时代仍需珍视人类的幽默感和创造力。

AI新闻资讯