字节大模型新进展：首次引入视觉定位，实现细粒度多模态联合理解，已开源 & demo 可玩

新智元

发布于AI新闻资讯 · 1 分钟阅读 · 2023年8月15号 13:55

文章介绍了字节跳动推出的 BuboGPT 模型，该模型支持文本、图像、音频三种模态的多模态联合理解，并首次引入视觉定位技术，能够精确定位图像中的对象。研究人员通过采用多模态指令调整的训练方案，使得 BuboGPT 在多模态任务上取得了良好的效果。该模型已经开源并提供了可玩的 demo 页面。

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。该模型能够直接生成204帧、540P 分辨率的高质量视频，并在指令遵循、运动平滑性、物理合理性以及美感等方面，表现超越了市场上现有的顶尖开源视频模型。另一方面，Step-Audio 则是业内首款能够生成多种情

智源推出 BGE-VL 多模态向量模型，开启检索新纪元

在多模态人工智能领域，智源研究院与多所高校合作推出了全新的多模态向量模型 BGE-VL，标志着多模态检索技术的一次重大突破。自发布以来，BGE 系列模型便获得了广泛赞誉，而 BGE-VL 的推出则进一步丰富了这一生态系统。该模型在图文检索、组合图像检索等多项关键任务中表现出色，展现出其卓越的性能。BGE-VL 的成功归功于其背后的 MegaPairs 数据合成技术。这一创新方法通过挖掘现有的大规模图文数据，自动生成高质量的多模态三元组数据，显著提升了数据的可扩展性和质量。MegaPairs

Portkey AI Gateway：轻松整合多种大语言模型的开源AI解决方案

随着开源 AI 框架的快速发展，开发者们在部署 AI 模型时获得了前所未有的灵活性。Portkey AI Gateway 作为一款开源项目，旨在简化 AI 模型的编排，提供统一的 API 接口，助力开发者轻松整合多种 AI 模型。除了支持大型语言模型（LLMs），Portkey 还涵盖了视觉、音频(文本转语音和语音转文本)、图像生成等多模态生成 AI 模型。图源备注：图片由AI生成，图片授权服务商MidjourneyPortkey AI Gateway 的设计初衷在于解决开发者在集成和管理多个 LLM 提供商时面临的诸多挑战，包括供应商锁定、不同模型性能

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。该实验室声称，该模型在行业内处于领先地位。Aya Vision 能够执行多项任务，包括撰写图片说明、回答与照片相关的问题、翻译文本以及生成23种主要语言的摘要。Cohere 表示，他们通过 WhatsApp 免费提供 Aya Vision，希望能让世界各地的研究人员更方便地获取技术突破。Cohere 在其博客中指出，尽管人工智能已经取得了显著进展，但在不同语言之间的模型表现仍存在很大差距，尤其是在涉及文本和

AI新闻资讯

字节大模型新进展：首次引入视觉定位，实现细粒度多模态联合理解，已开源 & demo 可玩

新智元

相关AI新闻推荐

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

智源推出 BGE-VL 多模态向量模型，开启检索新纪元

Portkey AI Gateway：轻松整合多种大语言模型的开源AI解决方案

​Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本