文章介绍了字节跳动推出的 BuboGPT 模型,该模型支持文本、图像、音频三种模态的多模态联合理解,并首次引入视觉定位技术,能够精确定位图像中的对象。研究人员通过采用多模态指令调整的训练方案,使得 BuboGPT 在多模态任务上取得了良好的效果。该模型已经开源并提供了可玩的 demo 页面。