Anthropic发布了最新一代编码模型Claude 4,具有强大的代码执行能力和记忆能力。

  2.Claude Opus 4在复杂、长期运行的任务和代理工作流中表现优异,大幅领先其他模型。

  Claude 4 就这么低调的发布了,之前他们 CEO 说27年所有的代码都会由AI生成,现在看来应该就是看到了Claude 4的潜力。

  根据 Anthropic 所说 Claude Opus 4 是全球最佳编码模型,在复杂、长期运行的任务和代理工作流中表现持续优异。

  新模型能力:两款模型均可并行使用工具,更精准地遵循指令,并且在开发者授予本地文件访问权限时,展现出显著增强的记忆能力。

  Claude Code 现已全面开放:Claude Code 现支持通过 GitHub Actions 执行后台任务,并与 VS Code 和 JetBrains 实现原生集成。

  Claude Opus 4 的编码能力在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上大幅领先其他模型,而且它在需要集中精力和数千步操作的长时间任务中表现出持续稳定的性能,能够连续工作数小时,这个对于Agent产品非常重要。

  另外 Claude Opus 4 在记忆能力上也显著超越了之前的所有模型。当开发者构建提供 Claude 本地文件访问的应用程序时,Opus 4 能够熟练地创建和维护记忆文件来存储关键信息。

  接下来我们对 Opus 4 做一下代码能力的测试,首先是基本的一个藏师傅提示词生成作品集网站的测试。

  这是 Claude 4 一次成功的结果,你可以大致看着跟之前的差不多,但其实细节好了非常多,比如右边的滚动条样式他都改了!

  每个组件的交互样式和逻辑都是一样的,同时图表的 Hover 之后展示的数据卡片样式也被改了,整个页面看起来非常的舒服,这就是细节的力量。

  然后我又让他写了一个带有逻辑的电商产品后台,我去朋友们这个美学表现太了,我根本没有要求特定的样式,而且所有的组件都是可以操作,都是带逻辑的。

  从零开始实现一个设计一个广告投放管理系统可配置的数据分析仪表盘,支持多种图表、筛选条件和实时数据更新,数据虚构,但是功能需要可以用

  比较离谱的是,Opus 我就跑了这几个案例我的Plus会员就达到上限了,太扯淡了,不知道是不是因为刚发布用的人太多。

  Claude Sonnet 4 也很强,我测试了我那个主题自定义,巨长的提示词一次成功,之前3.7的时候我调整了非常多次才完成,尤其是导出那部分,而且现在这玩意免费了。

  Anthropic 也是按照这方式来优化模型的,今年的主题或者说未来几年的主题就是这个了,代码能力&Agent能力。