AI玩《我的世界》大比拼！Claude新版本建筑水平惊艳全网

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 15, 2024

445

近日，一场别开生面的AI能力评测在《我的世界》平台上展开，吸引了大量关注。新旧两个版本的Claude3.5Sonnet在游戏中展开建筑PK，展现出明显的能力差异，新版本（暂称"Sonnet3.6"）的表现尤其亮眼。

这项由开发者adi发起的测试被戏称为"唯一可靠的评测基准"。评测基准研究者Aidan McLau认为这个方法恰好满足了当前AI评测的需求，并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持，相关代码已在GitHub上线。

测试结果显示，各大模型都展现出独特的"个性":

Sonnet3.6在创意性方面略胜一筹，获得2000多名网友的投票支持

OpenAI的o1-preview虽然构建速度较慢，但在还原真实建筑（如泰姬陵）时表现出色

o1-mini则无法完成相关任务

Llama3405B建造了象征自我的"火坑上的钻石墙"

阿里的Qwen2.5-14B也展现出不俗实力

值得注意的是，AI在游戏中的建造过程并不依赖视觉理解或直接控制输入设备，而是通过文本形式提供上下文并生成操作指令，类似于下盲棋。技术实现上主要依靠:

mineflayer开源库:将AI生成的指令转换为可执行的API调用

mindcraft开源库:提供通用提示词和示例，支持各类模型接入游戏

项目组计划将这一评测机制进一步完善，打造类似Lmsys竞技场的评分系统，采用Elo算法根据人类用户投票进行排名。据悉，完整测试环境仅需15分钟即可搭建完成。

这种新颖的评测方式不仅展示了AI的创造力，也为大模型能力的客观评估提供了全新视角。正如o1-preview在自由发挥时选择搭建机器人并拼出"GPT"字样，AI似乎已经开始在这个虚拟世界中展现自己的"个性"。随着更多模型加入测试，这个经典游戏正在成为见证AI发展的独特平台。

视频教程:

https://x.com/mckaywrigley/status/1849613686098506064

开源代码:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator

AI能力评测 Claude3.5Sonnet Sonnet3.6 开源社区

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

阿里通义千问推理大模型QwQ-32B勇夺全球开源社区榜首

在全球最大的 AI 开源社区 HuggingFace 的最新更新中，阿里巴巴近期推出的通义千问推理模型 QwQ-32B 成功夺得了大模型榜单的第一名。这一模型在刚发布后便引起了广泛关注，超越了诸如微软的 Phi-4和 DeepSeek-R1等知名模型，展现出了强大的性能。QwQ-32B 模型在数学、代码处理及通用能力等多个方面都取得了质的飞跃，特别是其参数数量较小的特点，使得其整体性能能够与 DeepSeek-R1相媲美。此外，该模型的设计让用户能够在消费级显卡上实现本地部署，极大降低了模型应用的成本。这一突破为更

2025年3月7号 13:58

4.9k

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。测试结果显示，表现最佳的AI模型Claude3.5Sonnet在编码任务中的成功率为26.2%，在项目管理决策方面达到44.9%。虽然这一成绩与人类开发者仍有差距，但在经济效益方面已展现出可观潜力。数据显示，仅在公开的Diamond数据集中，该模型就能完成价值208，050美元的项

2025年2月20号 10:37

2.0k

有人把 DeepSeek-R1 和 Claude 3.5 Sonnet 组合到了一起，结果太惊艳了！

DeepClaude 是一个将 DeepSeek-R1 的推理过程传递给 Claude 3.5 Sonnet 使用的双引擎开源 AI 项目，旨在利用两种模型的优势，输出更高质量的内容。DeepClaude 简介：DeepClaude 是一个开源项目，它将 DeepSeek-R1 的推理能力与 Claude 3.5 Sonnet 的强大功能相结合。通过使用特定标签包裹 DeepSeek 的推理过程，并将其作为助理消息附加到对话历史中，同时支持流式和非流式两种处理模式，在流式处理中严格保持标签完整性，从而实现协同工作。DeepClaude 功能亮点：深度推理与内容生成结合：利用 DeepSeek-R1 的「元认

2025年2月11号 16:38

3.6k

李飞飞:人工智能政策应基于科学，而非科幻

被誉为“人工智能教母”的斯坦福大学计算机科学家兼初创公司创始人李飞飞，在下周巴黎人工智能行动峰会前，提出了“未来人工智能政策制定的三大基本原则”。她强调，人工智能政策必须以“科学而非科幻小说”为基础。李飞飞认为，政策制定者应聚焦人工智能的现实，而非构建于乌托邦或世界末日设想的宏大未来场景。她特别指出，聊天机器人和副驾驶程序并非“具有意图、自由意志或意识的智能形式”，政策制定者应避免“牵强附会的情景”，专注于“重大挑战”。其次，她强

2025年2月9号 9:45

3.8k

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

字节跳动正式推出其最新的豆包大模型1.5Pro（Doubao-1.5-pro），这一新模型在多个领域的综合能力上表现出色，成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。豆包1.5Pro 采用了新型的稀疏 MoE（混合专家）架构，使用较小的激活参数进行预训练。这种设计的创新之处在于其可以提供等效于7倍激活参数的 Dense 模型性能，使其在效率上远超行业常规的 MoE 架构，带来了约3倍的效率提升。这样的设计使得豆包大模型在知识、代码

2025年1月22号 14:10

30.7k

面壁智能推MiniCPM-o 2.6：一款适用于手机的多模态智能大模型

OpenBMB 团队近日推出了 MiniCPM-o2.6，这是该系列中最新、功能最强大的多模态大型语言模型（MLLM）。MiniCPM-o2.6的最大亮点在于它的8亿参数，使其在视觉、语音以及多模态直播领域的性能接近于 GPT-4o-202405，成为开源社区中多功能且高效的选择。MiniCPM-o2.6具备强大的输入处理能力，能够接受图像、视频、文本和音频等多种输入方式，并提供高质量的文本和语音输出。这款模型的语音模式更是新增了双语实时对话功能，用户可根据需求配置不同的语音，支持情感、速度和风格的控制，甚至能够进

2025年1月15号 9:25

3.0k

AI编程能力进化！通过不断PUA大模型就能提升代码质量

近年来，人工智能（AI）的编程能力不断发展，但尚未达到完美。最近，BuzzFeed 的资深数据科学家 Max Woolf 通过实验发现，如果对大型语言模型(LLM)不断提供 “写更好代码” 的提示，AI 确实能够生成更优质的代码。这一发现引发了广泛关注，业界著名 AI 科学家们也对此表示了极大的兴趣，强调了迭代和提示词设计的重要性。在 Woolf 的实验中，他利用 Claude3.5Sonnet 这一版本的 AI 模型进行了一系列编程任务。起初，他给模型提出了一个简单的编程问题:如何找出一百万个随机整数中，各位数之

2025年1月13号 10:07

2.1k

超越 Cursor ？Cline 解锁 VSCode 编程新体验：Claude 3.5 Sonnet、DeepSeek V3 随意用！

现如今已经可以说是 AI 编程的时代，而 AI 辅助的编程效率提升对于开发者至关重要。Cline 作为一款创新的 AI 编程工具，应运而生，旨在为开发者提供更加智能、高效的编程体验。它集成了先进的 AI 技术，能够与多种模型相结合，具备强大的功能，如代码生成、错误修复、文件操作等，有望成为开发者的得力助手，帮助他们在编程工作中事半功倍。Cline 简介Cline 是一款开源的 AI 助手插件，深度集成在 VS Code 中。它借助 Claude 3.5 Sonnet 等模型的能力，实现复杂的软件开发任务。Cline 支持多种

2024年12月31号 16:28

35.2k

国产大模型突破！DeepSeek V3挑战Claude 3.5 Sonnet实测全记录

近期，国产大模型DeepSeek V3在AI竞技场的优异表现引发业界关注。作为唯一闯入前十的开源模型，它不仅超越了o1-mini，在编程、数学等多个领域甚至超过了Claude3.5Sonnet。为验证其实际能力，多方展开了一系列实测对比。在基础理解能力测试中，两个模型展现出不同特点。面对中文脑筋急转弯"小明的妈妈有三个孩子"的问题，DeepSeek V3表现出色，不仅答对还进行了自我验证。但在英文双关语"April Fools Day"的测试中则略显不足，未能理解其中的语言巧思，而Claude3.5Sonnet则轻松应对。逻辑推理测试

2024年12月31号 14:46

8.9k

Anthropic以十倍增长势头挑战OpenAI的统治地位

随着 AI 技术的迅速发展，Anthropic 正迅速崛起，挑战 OpenAI 在 AI 编程市场的主导地位。最近，Anthropic 推出的 AI 模型 Claude3.5Sonnet 在生成代码方面展现了强大的能力。据 The Information报道，Anthropic 在 “AI 编程” 领域的收入在过去三个月内增长了十倍，这一变化使得市场动态发生了明显转变。7月份，OpenAI 资助的初创公司 Cursor 选择将 Claude 作为其默认的 AI 编程助手，这一决定标志着 Anthropic 在企业客户中的吸引力上升。甚至连 OpenAI 的重要投资者微软也开始在其 Github C o p i l o t 中提供 Anthropic

2024年12月13号 14:27

3.2k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图