Claude4系列模型正式发布，号称“世界上最好的”AI编程模型

考研资深辅导 2025年05月23日 17:12:25

当地时间 5 月 22 日，Anthropic 在其首次开发者大会上，正式发布了其下一代 Claude 模型系列：Claude Opus 4 和 Claude Sonnet 4。该公司在公告中高调宣称，新的旗舰模型 Claude Opus 4 是 " 世界上最好的编程模型 "，在编程、高级推理和 AI 智能体（AI agents）方面树立了全新标准，旨在处理复杂、长时间运行的任务和智能体工作流程。与此同时，Claude Sonnet 4 作为对 Claude Sonnet 3.7 的重大升级，也提供了在编程和推理能力等方面，也取得了相当大的进步。

Anthropic 表示，Claude Opus 4 是其迄今为止最强大的模型，尤其在编码领域表现突出。根据 Anthropic 提供的数据，Opus 4 在 SWE-bench（一个评估真实软件工程任务性能的基准）上达到了 72.5% 的准确率（使用并行测试时计算可达 79.4%），在 Terminal-bench（一个测试 AI 模型在终端环境中执行编码任务能力的基准）上达到了 43.2%（并行测试时计算可达 50.0%）。各项数据均超过了 Gemini 2.5 Pro 等其他竞品模型。Claude Sonnet 4 同样表现出色，在 SWE-bench 上实现了 72.7% 的准确率（并行测试时计算可达 80.2%），在某些特定配置下甚至略高于 Opus 4。

图丨基准测试结果（来源：Anthrpoic）

一些早期测试用户在社交媒体上分享了他们的体验，从侧面印证了 Claude 4 的强大。

例如，知名 AI 博主 Ethan Mollick 仅用一句简单的提示："the book Piranesi as a p5js 3d space. do it for me"（将《皮拉内西》这本书创作成一个 p5.js 的 3D 空间，帮我实现它），没有提供任何其他提示，Claude 4 便生成了一个令人印象深刻的 3D 空间演示，其中包含了鸟、水和光照效果，效果看起来相当不错。

还有用户仅用单次提示就生成了复杂的双摆模拟系统，表现非常出色。

另一位知名博主 Peter Yang 也获得了早期访问权限，他总结道："1. 它在写作和编辑方面仍然是同类最佳。2. 它的编码能力和 Gemini 2.5 一样好。" 还展示了 Claude 4 一次性构建了一个功能齐全的俄罗斯方块游戏。

图丨相关推文（来源：X）

除了强大的编码能力，新一代 Claude 模型在推理和 AI 智能体功能方面也迈出了重要一步。Anthropic 推出了 " 工具使用下的扩展思考 "（extended thinking with tool use）测试版功能。这意味着两个模型都能在进行扩展思考时使用工具（如网络搜索），允许 Claude 在推理和工具使用之间交替进行，以改进响应质量。

此外，新模型具备并行使用工具的能力，能更精确地遵循指令，并且在开发者授予本地文件访问权限时，展现出显著改进的记忆能力，能够提取和保存关键事实，以保持连续性并逐步建立隐性知识。

Anthropic 特别提到，新模型显著减少了模型使用 " 捷径 " 或 " 漏洞 " 来完成任务的行为。与 Sonnet 3.7 相比，Opus 4 和 Sonnet 4 在这类易受影响的智能体任务中，发生此类行为的可能性降低了 65%。

图丨 Claude 4 Sonnet 消除了 Sonnet 3.7 过于冗长和过于热衷于实现功能的倾向（来源：iGent AI）

记忆能力的提升也是 Claude 4 系列的一大看点。Anthropic 的首席产品官 Mike Krieger 在接受 WIRED 采访时提到，Claude Opus 4 能够 " 在《宝可梦》游戏中以智能体方式工作长达 24 小时 "，而此前模型最长只能玩 45 分钟。Anthropic 甚至进行了一个名为 "Claude Plays Pok é mon" 的 Twitch 直播，展示了 Claude 3.7 Sonnet 在《宝可梦》游戏中的表现。

图丨 Opus 4 在玩宝可梦时记下的真实笔记（来源：Anthropic）

Claude 4 Opus 则在此基础上更进一步，当它在游戏中导航一个复杂的任务时，研究人员注意到其长期记忆和规划能力的改进。例如，当 AI 意识到需要特定能力才能前进时，它会花两天时间提升技能，然后再继续游戏。这种多步骤推理且无需立即反馈的能力，所反映的正是模型在保持任务连贯性和追踪目标方面的进步。

Anthropic 的研究员 David Hershey 解释说，这项研究的目的是探索 Claude 如何作为智能体独立完成复杂任务。当开发者构建允许 Claude 访问本地文件的应用程序时，Opus 4 能够熟练地创建和维护 " 记忆文件 " 来存储关键信息。这解锁了更好的长期任务感知、连贯性和智能体任务性能，就像 Opus 4 在玩《宝可梦》时创建了一个 " 导航指南 " 一样。这种能力对于需要长时间保持上下文的 AI 智能体至关重要，无论是自动化数小时的工作流，还是进行大规模代码重构。Krieger 提到，一位早期客户（日本乐天）就曾让模型连续工作 7 小时完成了一项大型代码重构任务。

定价方面，Claude 4 模型与其前代产品保持一致：Opus 4 的输入价格为每百万 token 15 美元，输出价格为每百万 token 75 美元；Sonnet 4 的输入价格为每百万 token 3 美元，输出价格为每百万 token 15 美元。两种模型都提供扩展思考模式的开关。Sonnet 4 将继续向免费用户提供，而 Opus 4 则需要付费订阅。

伴随新模型的发布，Anthropic 还宣布 Claude Code（最初于今年 2 月推出）在经过数月预览测试后正式普遍可用。Claude Code 旨在将 Claude 的强大能力更广泛地融入开发者的工作流程中，无论是在终端、偏好的 IDE 中，还是通过 Claude Code SDK 在后台运行。新的针对 VS Code 和 JetBrains 的 beta 版扩展程序能将 Claude Code 直接集成到 IDE 中，Claude 提出的编辑建议会以内联方式显示在文件中，简化了在熟悉编辑器界面内的审查和跟踪流程。

此外，Anthropic 还发布了一个可扩展的 Claude Code SDK，允许开发者使用与 Claude Code 相同的核心智能体构建自己的智能体和应用程序。

Anthropic API 也迎来了四项新功能，旨在帮助开发者构建更强大的 AI 智能体，包括：代码执行工具、MCP 连接器、Files API 以及将提示缓存长达一小时的能力。

Anthropic 声称，" 这些模型是朝着虚拟协作者迈出的一大步——保持完整的上下文，持续专注于更长的项目，并推动变革性影响。"回顾近期谷歌、OpenAI 以及 Anthropic 等 AI 巨头们发布的各项成果，无一不在为这一方向努力。

参考资料：

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/

排版：溪树

The End

相关文章