新加坡国立大学发布 NExT-GPT 多模态语言模型,支持文本、图像、视频和音频处理,助力多媒体人工智能应用发展。模型采用三层架构,通过 MosIT 技术进行中间层训练,开源贡献为研究者和开发者创造了集成多模态输入的机会。NExT-GPT 的独特之处在于能够生成模态信令标记,为内容生成、多媒体分析等领域带来潜在应用前景。