2024-11-15 14:45:38.AIbase.13.3k
AI玩《我的世界》大比拼!Claude新版本建筑水平惊艳全网
近日,一场别开生面的AI能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet在游戏中展开建筑PK,展现出明显的能力差异,新版本(暂称"Sonnet3.6")的表现尤其亮眼。这项由开发者adi发起的测试被戏称为"唯一可靠的评测基准"。评测基准研究者Aidan McLau认为这个方法恰好满足了当前AI评测的需求,并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持,相关代码已在GitHub上线。测试结果显示,各大模型都展现出独特的"个性":Sonnet3.6在创意性方