《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据,令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件,两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而,11月14日,一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功,但由于文件夹结构和文件名已"无法挽回"地丢失,恢复的数据实际
在人工智能迅速发展背景下,百度贴吧的"弱智吧"意外成为AI训练的重要数据来源,挑战了人们对高质量数据的传统认知。该社区以其荒诞幽默的内容,在问答、头脑风暴等测试中超越了知名平台,成为受欢迎的AI训练数据库之一。研究发现,"弱智吧"的口语化、多轮问答语料,有助于AI更接近人类交流方式。AI在理解人类幽默方面存在局限,而"弱智吧"的段子通过逻辑严密、修辞丰富和生活观察,为AI提供了宝贵的学习素材,锻炼了其对中文的理解和推理能力。这一现象揭示了人类智慧与创造力的独特性,提醒我们在AI时代仍需珍视人类的幽默感和创造力。
LAION发布Re-LAION-5B,全球首个全面清除CSAM链接的AI训练数据集,旨在解决儿童性虐待材料(CSAM)问题。该数据集在LAION-5B基础上进行了重大改进,主要分为Re-LAION-5B Research和Research-Safe两个版本,共移除2236个CSAM链接,其中1008个来自儿童保护组织名单。数据集包含55亿对文本和图像,旨在帮助清理现有数据集,移除所有匹配的CSAM内容。LAION希望通过此举为网页规模数据集的安全标准设定新基准,解决AI训练数据集中CSAM问题的严重性,尤其是AI生成CSAM内容的增长对真实案件调查和社交媒体平台报告数量的影响。
近日,由国家超级计算成都中心、中国地震局地球物理研究所和清华大学联合开发的"谛听"地震波大模型在四川成都正式发布。该模型是国内首个达到亿级参数量的地震波大模型,标志着我国地震学研究和人工智能技术融合的重要突破。