昆仑万维今日正式宣布,他们打造的 Skywork R1V 多模态推理模型,正式开源了!这不仅是中国首个工业界开源的多模态推理模型,更标志着中国AI力量在多模态理解和推理领域,迈出了里程碑式的一步!即日起,模型权重和技术报告完全对外敞开怀抱!
王炸!中国AI再添“王牌军”!昆仑万维 Skywork R1V 多模态推理模型震撼开源!

昆仑万维今日正式宣布,他们打造的 Skywork R1V 多模态推理模型,正式开源了!这不仅是中国首个工业界开源的多模态推理模型,更标志着中国AI力量在多模态理解和推理领域,迈出了里程碑式的一步!即日起,模型权重和技术报告完全对外敞开怀抱!
昆仑万维正式发布了全球首个工业界多模态推理模型 Skywork R1V(简称 “R1V”)。这款具有38亿参数的模型在性能上已接近知名闭源模型 DeepSeek-R1,甚至在多个基准测试中表现出色,横扫了一系列当前的最先进技术(SOTA)。昆仑万维选择开源 R1V,旨在推动技术的共享与进步,为全球 AI 开源社区注入新活力。R1V 以其卓越的多模态推理能力而闻名,能够无缝结合文本和视觉信息,展示出强大的智能。具体来看,R1V 在视觉问答任务中直接对标 Claude3.5Sonnet 和 GPT-4o 等闭源模型,并保持顶级文本推理
一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。 我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的
阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。QVQ-72B在视觉推理、数学和科学问题上表现出了显著的提升,尤其是在多步推理任务中。这意味着该模型不仅能够理解文字信息,还能理解图像信息,并通过多步推理来解决复杂问题,这是传统AI模型难以企及的。该模型的一大亮点是其在物理问题中结合文字和视觉信息推导因果关系的能
Qwen团队近日宣布开源其最新研发的多模态推理模型QVQ,标志着人工智能在视觉理解和复杂问题解决能力方面迈出了重要一步。该模型基于Qwen2-VL-72B构建,旨在通过结合语言和视觉信息,提升AI的推理能力。在MMMU评测中,QVQ取得了70.3的高分,并在多项数学相关基准测试中相较Qwen2-VL-72B-Instruct显示出显著的性能提升。