ChatGPT等模型疯狂训练，2026年或迎来AI界“数据荒”

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · 2024年6月19号 11:38

不久前，专注于AIGC领域的科研机构Epochai发布了一项重磅研究报告。报告里说，咱们人类公开的高质量文本训练数据集，大约有300万亿个tokens。但随着ChatGPT等大模型的胃口越来越大，这些数据可能在2026年到2032年间就被吃干抹净了!

研究人员特别指出，“过度训练”是加速消耗训练数据的罪魁祸首。比如Meta最新开源的Llama3，8B版本的过度训练竟然达到了惊人的100倍!如果所有模型都这么玩，咱们的数据可能在2025年就得说拜拜了。

但别急，咱们还有招。Epoch ai给出了四种获取训练数据的新方法，让AI界的“数据荒”不再是梦魇。

1）合成数据: 就像用料理包做出的大餐，合成数据利用深度学习模拟真实数据，生成全新的数据。但别高兴太早，合成数据的质量可能参差不齐，容易过拟合，缺乏真实文本的细微语言特征。

2）多模态和跨领域数据学习: 这种方法不仅限于文本，还包括图像、视频、音频等多种数据类型。就像在KTV里，不仅能唱，还能跳，还能演，多模态学习让模型更全面地理解和处理复杂任务。

3）私有数据: 目前全球文本数据的私有总量大约是3100万亿tokens，是公开数据的10倍多!但使用私有数据得小心翼翼，毕竟隐私和安全性是大事。而且，获取和整合非公共数据的过程可能非常复杂。

4）与真实世界实时交互学习: 让模型通过与真实世界的直接互动来学习和进步。这种方法要求模型具备自主性和适应性，能够准确理解用户指令，并在现实世界中采取行动。

国产大模型再获巨额融资！阶跃星辰B轮融资数亿美元，押注多模态与AGI

国内大模型独角兽企业阶跃星辰近日宣布完成B轮融资，总金额高达数亿美元，引发行业高度关注。本轮融资吸引了众多重量级投资方的参与，包括上海国有资本投资有限公司及其旗下基金领投，腾讯投资、五源资本、启明创投等知名机构跟投。这笔巨额资金将主要用于加速基础模型的研发，重点提升多模态和复杂推理能力，并进一步拓展C端应用市场。阶跃星辰的CEO姜大昕表示，公司的发展路线与OpenAI的“ChatGPT到Sora”路径类似，都是致力于从单模态到多模态，再到实现多模理解和生成的统

隐私违规！意大利对OpenAI ChatGP施以1500万欧元重罚

近日，意大利数据保护机构宣布对 OpenAI 的人工智能聊天机器人 ChatGPT 处以1500万欧元的罚款。这一决定是在2023年3月启动的调查后做出的，调查发现 OpenAI 在多个方面违反了隐私保护法规。图源备注：图片由AI生成，图片授权服务商Midjourney调查指出，OpenAI 在处理个人数据时存在重大失误。首先，该公司未能及时报告数据泄露事件，这一行为严重影响了用户的隐私安全。此外，OpenAI 缺乏合法的个人数据处理依据，意味着在没有适当授权的情况下，用户的个人信息被非法使用。同时，OpenAI 还违

OpenAI推出ChatGPT新记忆功能:能跨对话回忆用户交流

OpenAI 宣布推出一项全新的记忆功能，允许其 AI 助手 ChatGPT 在用户开启新对话时，能够回忆起以往的交流内容。这一更新旨在提升用户体验，使得 ChatGPT 能够更加个性化地回应用户的需求。新的记忆功能为 ChatGPT 增添了对话记忆的能力。用户可以通过设置面板全面掌控自己的存储信息，具体操作包括删除特定的记忆、清除过往对话记录或归档某些聊天记录以保持私密。用户对 ChatGPT 的记忆功能拥有完全的控制权。他们可以通过设置删除特定的记忆，或者从对话历史中删除过去的对话记录。

ChatGPT桌面端新增应用协作功能 Mac用户轻松读取应用内容

OpenAI 近期宣布对其 ChatGPT 桌面应用程序进行了重要更新，新功能 “Work with Apps（与应用协作）” 现已上线。该功能的最大亮点是，ChatGPT 现在能够直接读取来自多种应用程序的内容，包括终端、集成开发环境（IDE）和文本编辑器。这一更新将极大地提升开发者和创作者的工作效率。具体来说，ChatGPT 现在可以分析 Git 代码库中的提交记录，并为 Xcode 生成代码。支持的应用程序包括 Apple Notes、Notion、Quip 等笔记工具，以及多款流行的开发软件，如 VS Code（包括 Code、Code Insiders、VSCodium 等）、J