Anthropic 发布了 Claude 3.7 Sonnet 和 Claude Code。Claude 3.7 Sonnet 作为全球首个混合推理模型,具有独特的推理模式和出色的性能;Claude Code 则是一款强大的智能编码工具。它们的发布在 AI 领域引起了广泛关注,为用户提供了更高效、智能的服务与开发体验。

www-cdn.anthropic.png

Claude 3.7 Sonnet 简介

  • 混合推理模式:Claude 3.7 Sonnet 是 Anthropic 迄今为止最智能的模型,也是世界上首个混合推理模型。它融合了标准思考和扩展思维两种模式。在标准模式下,它是 Claude 3.5 Sonnet 的升级版,能快速响应;在扩展思维模式下,模型会进行自我反思后再给出答案,在数学、物理、指令遵循、编码等任务上性能显著提升
  • 思考时间可控:API 用户可以控制模型的思考预算,即告诉 Claude 思考不超过 N 个 token(N 最大值为 128K tokens 的输出限制),在速度(和成本)与答案质量之间进行权衡。
  • 性能优化方向:开发时将重点转向更能反映企业实际使用 LLM 方式的现实任务,对数学和计算机科学竞赛问题的优化较少。在多项基准测试中,如 SWE-bench Verified(评估 AI 模型解决现实世界软件问题的能力)和 TAU-bench(测试 AI 智能体在复杂现实世界任务中与用户和工具交互能力的框架),Claude 3.7 Sonnet 都取得了优异成绩。
  • 安全性提升:Claude 3.7 Sonnet 对有害请求和良性请求进行了更细微的区分,与前代相比,不必要的拒绝减少了 45%。

www-cdn.anthropic (1).png

Claude 3.7 Sonnet 功能亮点

  • 强大的推理能力:在扩展思维模式下,面对复杂问题能进行逐步推理,例如在解答博弈论数学问题蒙提霍尔问题时,会展示详细的思考过程,帮助用户深入理解问题的解决思路。
  • 出色的编码能力:在编码和前端 Web 开发方面表现卓越,在 SWE-bench Verified 基准测试中取得了 70.3%(使用定制框架)和 62.3%(标准框架)的高分,远超 OpenAI 的 o3-mini (high)、DeepSeek R1 等模型,能够帮助开发者高效地完成编程任务,如创建复杂游戏、实现物理模拟、还原网页等。
  • 良好的多模态能力:在文本与图像的综合处理上有显著提升,具备处理多模态任务的潜力,可在涉及图像和文本的复杂场景中发挥作用。
  • 精准的指令理解与执行:在指令遵循方面表现优秀,能够准确理解用户的指令并执行,在 IFEval 测试中得分高达 93.2%,可以高效完成用户下达的各种任务指令。
  • 广泛的语言支持与理解:在多语言问答(MMMLU)测试中取得了 86.1% 的成绩,表明其对多种语言的理解和处理能力较强,能够满足不同语言用户的需求。
  • 智能的问题解决能力:在解决数学、物理等学科问题时表现出色,例如在 MATH 500 测试中准确率达到 96.2%,能为学生、科研人员等提供有效的解题帮助。
  • 灵活的思考模式切换:用户可根据需求轻松在标准思考和扩展思考模式间切换,以应对不同复杂程度的问题,标准模式适合简单快速获取答案,扩展思考模式则用于处理复杂任务。
  • 可定制的思考预算:API 用户可以根据任务需求,精确设置模型思考的 token 数量,从而灵活控制思考时间和成本,平衡答案的质量与获取速度。

www-cdn.anthropic (2).png

适用场景

  • 编程开发:帮助开发者编写代码、调试程序、优化代码结构。如在开发游戏、应用程序或网站时,能快速生成代码框架,解决代码中的问题,提高开发效率。
  • 学术研究:协助科研人员进行文献综述、研究问题分析、实验设计等工作。在处理复杂的学术问题时,提供专业的知识和逻辑分析支持。
  • 内容创作:为作家、编辑等创作人员提供灵感,辅助撰写文章、故事、报告等内容,提高创作质量和效率。
  • 智能客服:应用于企业的客服系统,快速准确地回答客户问题,理解客户需求,提供高质量的服务体验。
  • 数据分析:对大量数据进行分析和解读,帮助企业或研究人员从数据中提取有价值的信息,进行趋势预测和决策支持。
  • 教育领域:作为智能辅导工具,帮助学生解答各种学科问题,提供学习方法和思路,辅助教师进行教学工作。

www-cdn.anthropic (3).png

Claude 3.7 Sonnet 使用教程

  1. 选择使用平台:Claude 3.7 Sonnet 可通过 Claude.ai 平台(支持 Web、iOS 和 Android)、Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 进行访问。用户需根据自身需求和使用场景选择合适的平台。
  2. 注册与登录:如果是首次使用,在相应平台上完成注册流程,然后登录账号,进入使用界面。
  3. 选择思考模式:根据问题的复杂程度选择合适的思考模式。若问题较为简单,如询问常识性信息,可选择标准模式,以获得快速响应;若问题复杂,像数学难题、编程任务等,则选择扩展思考模式。
  4. 输入问题:在输入框中清晰、准确地输入问题或指令,例如「帮我写一个 Python 脚本实现数据分析功能」或「分析一下这个物理实验的原理」。
  5. 获取答案:模型会根据选择的模式和输入的问题进行处理,用户等待片刻后即可获得答案。如果对答案不满意或需要进一步探讨,可继续向模型提问或调整问题表述。
  6. 调整思考预算(API 用户):对于 API 用户,如果对答案的质量和速度有特定要求,可以通过设置思考预算(token 数量)来控制模型的思考时间,在请求中明确设定相关参数。

www-cdn.anthropic (4).png

结语

Claude 3.7 Sonnet 和 Claude Code 的发布,是 AI 领域的重要进展。Claude 3.7 Sonnet 凭借其混合推理模式、强大的功能和广泛的适用场景,为用户带来了全新的体验;Claude Code 则为开发者提供了高效的编码辅助工具。它们不仅展示了 Anthropic 在 AI 技术上的创新实力,也推动了整个 AI 行业的发展。

然而,AI 技术仍在不断演进,未来还有更多的可能性等待挖掘。如果在使用过程中有任何新奇的发现、有趣的体验或者宝贵的建议,欢迎在评论区分享交流。