编程能力遥遥领先？Claude 3.7 Sonnet、Claude Code 发布暴击 OpenAI o3-mini、DeepSeek R1 ！

Anthropic 发布了 Claude 3.7 Sonnet 和 Claude Code。Claude 3.7 Sonnet 作为全球首个混合推理模型，具有独特的推理模式和出色的性能；Claude Code 则是一款强大的智能编码工具。它们的发布在 AI 领域引起了广泛关注，为用户提供了更高效、智能的服务与开发体验。

www-cdn.anthropic.png

Claude 3.7 Sonnet 简介

混合推理模式：Claude 3.7 Sonnet 是 Anthropic 迄今为止最智能的模型，也是世界上首个混合推理模型。它融合了标准思考和扩展思维两种模式。在标准模式下，它是 Claude 3.5 Sonnet 的升级版，能快速响应；在扩展思维模式下，模型会进行自我反思后再给出答案，在数学、物理、指令遵循、编码等任务上性能显著提升。
思考时间可控：API 用户可以控制模型的思考预算，即告诉 Claude 思考不超过 N 个 token（N 最大值为 128K tokens 的输出限制），在速度（和成本）与答案质量之间进行权衡。
性能优化方向：开发时将重点转向更能反映企业实际使用 LLM 方式的现实任务，对数学和计算机科学竞赛问题的优化较少。在多项基准测试中，如 SWE-bench Verified（评估 AI 模型解决现实世界软件问题的能力）和 TAU-bench（测试 AI 智能体在复杂现实世界任务中与用户和工具交互能力的框架），Claude 3.7 Sonnet 都取得了优异成绩。
安全性提升：Claude 3.7 Sonnet 对有害请求和良性请求进行了更细微的区分，与前代相比，不必要的拒绝减少了 45%。

www-cdn.anthropic (1).png

Claude 3.7 Sonnet 功能亮点

强大的推理能力：在扩展思维模式下，面对复杂问题能进行逐步推理，例如在解答博弈论数学问题蒙提霍尔问题时，会展示详细的思考过程，帮助用户深入理解问题的解决思路。
出色的编码能力：在编码和前端 Web 开发方面表现卓越，在 SWE-bench Verified 基准测试中取得了 70.3%（使用定制框架）和 62.3%（标准框架）的高分，远超 OpenAI 的 o3-mini (high)、DeepSeek R1 等模型，能够帮助开发者高效地完成编程任务，如创建复杂游戏、实现物理模拟、还原网页等。
良好的多模态能力：在文本与图像的综合处理上有显著提升，具备处理多模态任务的潜力，可在涉及图像和文本的复杂场景中发挥作用。
精准的指令理解与执行：在指令遵循方面表现优秀，能够准确理解用户的指令并执行，在 IFEval 测试中得分高达 93.2%，可以高效完成用户下达的各种任务指令。
广泛的语言支持与理解：在多语言问答（MMMLU）测试中取得了 86.1% 的成绩，表明其对多种语言的理解和处理能力较强，能够满足不同语言用户的需求。
智能的问题解决能力：在解决数学、物理等学科问题时表现出色，例如在 MATH 500 测试中准确率达到 96.2%，能为学生、科研人员等提供有效的解题帮助。
灵活的思考模式切换：用户可根据需求轻松在标准思考和扩展思考模式间切换，以应对不同复杂程度的问题，标准模式适合简单快速获取答案，扩展思考模式则用于处理复杂任务。
可定制的思考预算：API 用户可以根据任务需求，精确设置模型思考的 token 数量，从而灵活控制思考时间和成本，平衡答案的质量与获取速度。

www-cdn.anthropic (2).png

适用场景

编程开发：帮助开发者编写代码、调试程序、优化代码结构。如在开发游戏、应用程序或网站时，能快速生成代码框架，解决代码中的问题，提高开发效率。
学术研究：协助科研人员进行文献综述、研究问题分析、实验设计等工作。在处理复杂的学术问题时，提供专业的知识和逻辑分析支持。
内容创作：为作家、编辑等创作人员提供灵感，辅助撰写文章、故事、报告等内容，提高创作质量和效率。
智能客服：应用于企业的客服系统，快速准确地回答客户问题，理解客户需求，提供高质量的服务体验。
数据分析：对大量数据进行分析和解读，帮助企业或研究人员从数据中提取有价值的信息，进行趋势预测和决策支持。
教育领域：作为智能辅导工具，帮助学生解答各种学科问题，提供学习方法和思路，辅助教师进行教学工作。

www-cdn.anthropic (3).png

Claude 3.7 Sonnet 使用教程

选择使用平台：Claude 3.7 Sonnet 可通过 Claude.ai 平台（支持 Web、iOS 和 Android）、Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 进行访问。用户需根据自身需求和使用场景选择合适的平台。
注册与登录：如果是首次使用，在相应平台上完成注册流程，然后登录账号，进入使用界面。
选择思考模式：根据问题的复杂程度选择合适的思考模式。若问题较为简单，如询问常识性信息，可选择标准模式，以获得快速响应；若问题复杂，像数学难题、编程任务等，则选择扩展思考模式。
输入问题：在输入框中清晰、准确地输入问题或指令，例如「帮我写一个 Python 脚本实现数据分析功能」或「分析一下这个物理实验的原理」。
获取答案：模型会根据选择的模式和输入的问题进行处理，用户等待片刻后即可获得答案。如果对答案不满意或需要进一步探讨，可继续向模型提问或调整问题表述。
调整思考预算（API 用户）：对于 API 用户，如果对答案的质量和速度有特定要求，可以通过设置思考预算（token 数量）来控制模型的思考时间，在请求中明确设定相关参数。

www-cdn.anthropic (4).png

结语

Claude 3.7 Sonnet 和 Claude Code 的发布，是 AI 领域的重要进展。Claude 3.7 Sonnet 凭借其混合推理模式、强大的功能和广泛的适用场景，为用户带来了全新的体验；Claude Code 则为开发者提供了高效的编码辅助工具。它们不仅展示了 Anthropic 在 AI 技术上的创新实力，也推动了整个 AI 行业的发展。

然而，AI 技术仍在不断演进，未来还有更多的可能性等待挖掘。如果在使用过程中有任何新奇的发现、有趣的体验或者宝贵的建议，欢迎在评论区分享交流。