近日,北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型,据称这是首个能够进行自发、系统推理的视觉语言模型,堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异,其11B 参数的版本超越了其他竞争者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理机制,能够自主进行更加复杂的推理过程,超越了传统的思维链提示方法。在多模态推理基准测试中,LLaVA-o1的表现超出了其基础模型8.9%。该模型的
法国人工智能初创公司 Mistral AI 宣布为其 Le Chat AI 助手添加了一系列新功能,包括集成的网络搜索、图像生成以及新推出的 Pixtral Large 模型。Le Chat 功能升级用户现在可以通过 Le Chat 直接访问实时网页内容,轻松获取所需的信息。同时,借助 Black Forest Labs 的 Flux Pro 模型,用户还能生成高质量的图像,满足多种创作需求。除了网络搜索和图像生成,Le Chat 还引入了一个画布界面,让用户可以在聊天窗口内直接编辑生成的内容。这一功能使得用户能够编写文档、创建演示文稿以及编辑代码,而
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。传统的视频理解模型往往是逐帧处理视频,生成大量的视觉信息。这一过程不仅消耗了大量的计算资源,还极大地限制了处理长视频的能力。随着视频数据量的不断增长,这种方法变得愈发低效,因此,找到一种既能捕捉到视频的关键信息,又能
来自智源研究院的Emu3团队发布了一套全新的多模态模型Emu3,该模型仅基于下一个token预测进行训练,颠覆了传统的扩散模型和组合模型架构,在生成和感知任务上均取得了最先进的性能。一直以来,下一个token预测被认为是通向人工智能通用智能(AGI)的希望之路,但在多模态任务上却表现不佳。目前,多模态领域仍然由扩散模型(如Stable Diffusion)和组合模型(如CLIP与LLM的结合)主导。Emu3团队将图像、文本和视频都标记化到离散空间中,并在混合的多模态序列上从头开始训练单个Transformer模型