字节大模型新进展:首次引入视觉定位,实现细粒度多模态联合理解,已开源 & demo 可玩
新智元
10
文章介绍了字节跳动推出的 BuboGPT 模型,该模型支持文本、图像、音频三种模态的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过采用多模态指令调整的训练方案,使得 BuboGPT 在多模态任务上取得了良好的效果。该模型已经开源并提供了可玩的 demo 页面。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/508