近日,北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型,据称这是首个能够进行自发、系统推理的视觉语言模型,堪比 GPT-o1。该模型在六个具有挑战性的多模态基准测试中表现优异,其11B 参数的版本超越了其他竞争者,如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。LLaVA-o1基于 Llama-3.2-Vision 模型,采用了 “慢思考” 推理机制,能够自主进行更加复杂的推理过程,超越了传统的思维链提示方法。在多模态推理基准测试中,LLaVA-o1的表现超出了其基础模型8.9%。该模型的
法国人工智能初创公司 Mistral AI 宣布为其 Le Chat AI 助手添加了一系列新功能,包括集成的网络搜索、图像生成以及新推出的 Pixtral Large 模型。Le Chat 功能升级用户现在可以通过 Le Chat 直接访问实时网页内容,轻松获取所需的信息。同时,借助 Black Forest Labs 的 Flux Pro 模型,用户还能生成高质量的图像,满足多种创作需求。除了网络搜索和图像生成,Le Chat 还引入了一个画布界面,让用户可以在聊天窗口内直接编辑生成的内容。这一功能使得用户能够编写文档、创建演示文稿以及编辑代码,而
最近,英伟达和微软携手推出了一项新计划,旨在推动医疗领域的 AI 创新。这项合作结合了英伟达的 Inception 全球计划和微软的初创企业支持计划,意在帮助更多初创企业提升他们的医疗设备和工作流程。现在,两家公司已经有数百家初创企业加入了这两个生态系统。图源备注:图片由AI生成,图片授权服务商Midjourney通过这次合作,初创企业将能更方便地获得加速计算资源,享受到来自两大公司的技术支持和业务指导。英伟达将提供10,000个 ai.nvidia.com 的推理积分,帮助企业运行经过 GPU 优
最近,Salesforce AI 研究团队推出了一款全新的多模态语言模型 ——BLIP-3-Video。随着视频内容的快速增加,如何高效处理视频数据成为了一个亟待解决的问题。这款模型的出现,旨在提升视频理解的效率和效果,适用于从自动驾驶到娱乐等各个行业。传统的视频理解模型往往是逐帧处理视频,生成大量的视觉信息。这一过程不仅消耗了大量的计算资源,还极大地限制了处理长视频的能力。随着视频数据量的不断增长,这种方法变得愈发低效,因此,找到一种既能捕捉到视频的关键信息,又能