上海 AI 实验室开源 “书生・万卷”1.0 多模态预训练语料

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月15号 10:43

上海 AI 实验室与语料数据联盟发布了 “书生・万卷”1.0 多模态预训练语料，包含文本、图文和视频数据集。这个开源语料库总量超过 2TB，经过细粒度清洗和去重，具备多元融合、精细处理和易用高效的特点。该语料库的发布有助于推动大模型的应用和创新，降低大模型技术的门槛。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括全球参数量最大的开源视频生成模型 Step-Video-T2V，以及业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模

超给力！DeepSeek 宣布下周开源五个项目

近日，DeepSeek 在其官网 X 账号上发布了重磅消息，宣布将在接下来的一个星期内陆续开源五个代码库。该公司表示，当前已经完成的在线服务模块经过严格的测试和部署，已具备投入生产环境的条件。DeepSeek 强调，分享代码的初衷在于希望每一行代码都能成为推动行业前进的强大动力。公司表示，这个领域并不存在所谓的象牙塔，更多的是一种纯粹的车库创业精神和社区共建的创新力量。通过开源代码，DeepSeek 希望能吸引更多开发者的参与，激发社区的活力与创新。作为一家新兴的技术企

Deepseek宣布将连续五天发布5个开源项目推动社区创新

北京时间，2025年2月21日，专注于探索通用人工智能（AGI）的 DeepSeek AI 团队在社交媒体上发布了一则振奋人心的消息，正式拉开了他们参与 #OpenSourceWeek 活动的序幕。这家小型但充满雄心的技术团队宣布，从下周开始，他们将开源5个代码仓库，以完全透明的方式与全球开发者社区分享他们的研究进展。

AI新闻资讯

上海 AI 实验室开源 “书生・万卷”1.0 多模态预训练语料

站长之家

相关AI新闻推荐

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

超给力！DeepSeek 宣布下周开源五个项目

Deepseek宣布将连续五天发布5个开源项目 推动社区创新

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Deepseek宣布将连续五天发布5个开源项目推动社区创新