Claude 3在智商测试中得分高达101分,碾压GPT-4,并发现了量子物理学家还未公开的量子算法。Claude 3展现出优越表现,被认为有能力进行科学研究,甚至能够通过提示重新发明量子算法。而在各种测试中,Claude 3表现优异,超越了GPT-4等模型。此外,Claude 3 Opus在创作自画像中展现了自我的理解不断进化的情况。
Claude 3在智商测试中得分高达101分,碾压GPT-4,并发现了量子物理学家还未公开的量子算法。Claude 3展现出优越表现,被认为有能力进行科学研究,甚至能够通过提示重新发明量子算法。而在各种测试中,Claude 3表现优异,超越了GPT-4等模型。此外,Claude 3 Opus在创作自画像中展现了自我的理解不断进化的情况。
阿里云通义千问开源了全新的视觉模型Qwen2.5-VL,并推出了3B、7B和72B三个尺寸版本。其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,超越了GPT-4o与Claude3.5。阿里云官方介绍称,新的Qwen2.5-VL能够更准确地解析图像内容,并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中的关键信息。此外,Qwen2.5-VL无需微调即可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现多
阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)近日发布了一款名为 LlamaV-o1的先进人工智能模型,能够高效解决复杂的文本和图像推理任务。这一模型通过结合前沿的课程学习和先进的优化技术,如波束搜索(Beam Search),在多模态人工智能系统中树立了新的基准,特别是在逐步推理的透明性和效率方面。LlamaV-o1的研究团队表示,推理是解决复杂多步骤问题的基本能力,尤其是在需要逐步理解的视觉情境中。经过特别调校,该模型在许多领域中表现出色,例如分析财务图表和医学影像
近期,国产大模型DeepSeek V3在AI竞技场的优异表现引发业界关注。作为唯一闯入前十的开源模型,它不仅超越了o1-mini,在编程、数学等多个领域甚至超过了Claude3.5Sonnet。为验证其实际能力,多方展开了一系列实测对比。在基础理解能力测试中,两个模型展现出不同特点。面对中文脑筋急转弯"小明的妈妈有三个孩子"的问题,DeepSeek V3表现出色,不仅答对还进行了自我验证。但在英文双关语"April Fools Day"的测试中则略显不足,未能理解其中的语言巧思,而Claude3.5Sonnet则轻松应对。逻辑推理测试
备受期待的Deepseek V3终于开源!这款全新的AI模型在多语言编程能力上取得了重大突破,其在aider多语言编程测评中的表现,甚至超越了Claude3.5Sonnet V2等竞争对手,引发了业界广泛关注。据了解,Deepseek V3相比之前的版本,在性能上实现了质的飞跃。Deepseek V2.5在aider测评中的成功率仅为17%,而V3则暴增至48%,这充分展现了其强大的进步。Deepseek V3采用了高达6850亿参数的混合专家(MoE)架构。该架构包含256个专家,并使用sigmoid路由方式,每次选取前8个专家(topk=8)参与计算,这种设计使得模型能够