Claude 3 突破未公开算法，智商测试101分，超越GPT-4等模型

新智元

发布于AI新闻资讯 · 1 分钟阅读 · 2024年3月6号 23:33

Claude 3在智商测试中得分高达101分，碾压GPT-4，并发现了量子物理学家还未公开的量子算法。Claude 3展现出优越表现，被认为有能力进行科学研究，甚至能够通过提示重新发明量子算法。而在各种测试中，Claude 3表现优异，超越了GPT-4等模型。此外，Claude 3 Opus在创作自画像中展现了自我的理解不断进化的情况。

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中的关键信息。此外，Qwen2.5-VL无需微调即可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现多

新 AI 模型 LlamaV-o1，测试推理能力超越Claude 3.5 Sonnet

阿联酋穆罕默德・本・扎耶德人工智能大学（MBZUAI）近日发布了一款名为 LlamaV-o1的先进人工智能模型，能够高效解决复杂的文本和图像推理任务。这一模型通过结合前沿的课程学习和先进的优化技术，如波束搜索（Beam Search），在多模态人工智能系统中树立了新的基准，特别是在逐步推理的透明性和效率方面。LlamaV-o1的研究团队表示，推理是解决复杂多步骤问题的基本能力，尤其是在需要逐步理解的视觉情境中。经过特别调校，该模型在许多领域中表现出色，例如分析财务图表和医学影像

国产大模型突破！DeepSeek V3挑战Claude 3.5 Sonnet实测全记录

近期，国产大模型DeepSeek V3在AI竞技场的优异表现引发业界关注。作为唯一闯入前十的开源模型，它不仅超越了o1-mini，在编程、数学等多个领域甚至超过了Claude3.5Sonnet。为验证其实际能力，多方展开了一系列实测对比。在基础理解能力测试中，两个模型展现出不同特点。面对中文脑筋急转弯"小明的妈妈有三个孩子"的问题，DeepSeek V3表现出色，不仅答对还进行了自我验证。但在英文双关语"April Fools Day"的测试中则略显不足，未能理解其中的语言巧思，而Claude3.5Sonnet则轻松应对。逻辑推理测试

Deepseek V3开源！多语言编程能力飙升，力压Claude 3.5 Sonnet V2

备受期待的Deepseek V3终于开源!这款全新的AI模型在多语言编程能力上取得了重大突破，其在aider多语言编程测评中的表现，甚至超越了Claude3.5Sonnet V2等竞争对手，引发了业界广泛关注。据了解，Deepseek V3相比之前的版本，在性能上实现了质的飞跃。Deepseek V2.5在aider测评中的成功率仅为17%，而V3则暴增至48%，这充分展现了其强大的进步。Deepseek V3采用了高达6850亿参数的混合专家（MoE）架构。该架构包含256个专家，并使用sigmoid路由方式，每次选取前8个专家(topk=8)参与计算，这种设计使得模型能够

AI新闻资讯

Claude 3 突破未公开算法，智商测试101分，超越GPT-4等模型

新智元

相关AI新闻推荐

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

​新 AI 模型 LlamaV-o1，测试推理能力超越Claude 3.5 Sonnet

国产大模型突破！DeepSeek V3挑战Claude 3.5 Sonnet实测全记录

Deepseek V3开源！多语言编程能力飙升，力压Claude 3.5 Sonnet V2

新 AI 模型 LlamaV-o1，测试推理能力超越Claude 3.5 Sonnet