智源发布全球最大中英文语义向量模型训练数据集 MTP

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年9月18号 11:23

智源研究院发布了全球最大的中英文语义向量模型训练数据集 MTP，数据规模达 3 亿对。该数据集包含来自不同来源的中英文文本对，为训练中英文语义向量模型提供了重要基础。智源研究院表示，数据对大模型训练起着至关重要的作用，并将推动人工智能协同创新。该数据集的发布有望解决中文模型训练数据集缺乏的问题。

智源研究院与腾讯达成战略合作推动大模型、AI等应用落地

智源研究院与腾讯集团于2024年12月18日签署了战略合作协议，双方将在大模型研发、人工智能技术前沿探索及开源生态建设等多个领域进行深入合作。根据合作协议，智源研究院与腾讯将利用各自的优势，推动大模型技术与产业场景的深度融合，并探索在多元算力环境下的大模型训练与推理优化技术解决方案。双方还将致力于构建一个开放创新的软硬件生态体系，以促进技术的发展和应用。

智源发布原生多模态世界模型Emu3：仅靠下一个token预测实现文本、图像和视频理解和生成

智源研究院正式发布了他们的新一代多模态世界模型 Emu3，该模型的最大亮点在于，它仅依靠下一个 token 的预测能力，就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面，Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面，Emu3则是以一种全新的方式工作，不同于其他模型通过噪声生成视频，Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

在2024北京文化论坛上，北京智源人工智能研究院（BAAI）宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet)，进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ，是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。

AI新闻资讯