在11月12日的百度世界现场,李彦宏展示了全新的工具类智能体,即百度文库和百度网盘联合开发的“自由画布”。自由画布是一个由文心多模态大模型加持的万能白板,可以帮助用户完成从找资料,到编辑、生成和分享的全部任务。自由画布让用户可以在一块类似“画布”的界面上自由拖拽文档、音视频等富媒体素材,迅速生成多模态内容。李彦宏表示,“这不是期货,而是立即可用的现货,是真正服务于创造的新质生产力!”
北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。
在近日的发布会上,阿里国际 AI 团队揭晓了其最新研发的多模态大模型 Ovis,这一创新的 AI 技术无疑为各行业带来了新的机遇。Ovis 具备强大的图像理解和数据处理能力,让人耳目一新。Ovis 的多模态能力极其强大,它能够处理文本、图像等多种数据,展现出优秀的综合实力。与传统的大语言模型相比,Ovis 不仅能理解文本,还能对图像等非文本信息进行深入分析。比如说,用户只需上传一张菜品的照片,Ovis 便能迅速识别并提供详细的烹饪步骤,帮助用户轻松做出美味佳肴。Ovis通过对图片
Mistral AI发布了首款开源多模态大模型Pixtral12B,该模型能同时处理图像和文本,具有120亿参数,体积仅为23.64GB,为多模态模型中的轻量级选手。其设计精巧,技术先进,以开放态度提供模型权重下载,极大降低了能耗和部署门槛,提高模型可访问性。Pixtral12B在多项权威基准测试中表现出色,成绩超越多个知名多模态模型。Mistral AI的这一举措推动了多模态模型的开源浪潮,预示着多模态AI技术可能迎来新一轮创新热潮,为AI技术的民主化和普及化做出重要贡献。