旗舰受困升级Sonnet 5救场能力直追Opus--快科技--科技改变未来

正文内容 评论（0）

旗舰受困升级Sonnet 5救场能力直追Opus

2026-07-01 16:39:34 出处：极客公园作者：桦林舞王编辑：若风评论(0)

复制

纠错

#AI #大模型

六月的最后一天，Anthropic 在官网上线了两条公告。

在不同模型不同档位下代理工作完成水平 Sonnet 5 和 Opus4.8 非常接近了｜图片来源：Anthropic

1 Agent 能力加强，Sonnet 5 直追 Opus

先说 Sonnet 5 的数字。

在 SWE-bench Verified 这个衡量代码能力的基准测试上，Sonnet 5 的得分是 92.4%。Anthropic 自家的 Opus 4.6 是 80.8%，OpenAI 的 GPT-5.4 是 57.7%。这是 Anthropic 的中间档模型，用 Sonnet 的定价，跑出了超过旗舰的数字。

Sonnet 5 模型相对旗舰模型的能力也不遑多让｜图片来源：Anthropic

定价层面，上线初期每百万输入 token 收 2 美元，输出 10 美元，8 月 31 日之后升到 3 美元和 15 美元。对照 Opus 4.8，便宜一大截，也比 GPT-5.5 和 Gemini 3.1 Pro 更低。

Anthropic 在发布文档里说，Sonnet 5 能制定计划、使用浏览器和终端工具，以「自主方式」运行——而「这在几个月前需要更大、更昂贵的模型才能实现」。这句话说得直白，等于是在公开承认：旗舰模型的能力正在向下渗透，速度比外界预期的快。

在不同模型不同档位下代理工作完成水平 Sonnet 5 和 Opus4.8 非常接近了｜图片来源：Anthropic

Zapier 的工程师 Daniel Shepard 测试了一个两步骤任务，让模型同时更新 Salesforce 账户等级并向企业联系人发送公告。他的反馈是，Sonnet 5「从头到尾完成了整个任务，这在过去会中途停顿」。这类具体的工程反馈比基准分数更有参考价值——它说明代理任务的可靠性门槛正在被突破，而且是在中端定价上突破的。

对于构建多步骤自动化流程的团队来说，这改变了一道关键的成本计算题：以前必须调用旗舰模型才能完成的任务，现在可以用三分之一甚至更低的价格搞定。

02 政府的那封信，和被压住的旗舰

把时间拨回两周前，这次发布的背景会清晰很多。

6 月 12 日，Anthropic 暂停了 Fable 5 和 Mythos 5 两个新模型的访问权限，原因是美国政府的出口管制指令——禁止非美国国民使用这两个模型。外界猜测触发点之一是政府发现了 Fable 5 的某个越狱方法，能绕过其最强能力的安全防护。

两周之后，6 月 26 日，美国商务部长发出一封信，批准 Anthropic 向约 100 家公司和联邦机构有限发布 Mythos 5，表述是「已确定存在适当的保障措施」。但 Fable 5 的访问权限至今未获批准恢复。

所以，6 月 30 日这一天，Anthropic 的真实处境是：最强的两个模型一个被限流、一个仍被冻结，商业发布受制于政府窗口。在这个背景下发布 Sonnet 5，并着重强调它的代理能力「接近 Opus 4.8」，逻辑变得连贯了——被压住的旗舰序列无法正常铺开，那就让中端产品撑起当下的商业需求。

这不是 Anthropic 第一次在监管和商业节奏之间做腾挪。今年 6 月它还在首尔开设了新办公室，持续推进在韩国市场的本地化合作。一边是旗舰被美国政府拴住，一边是国际市场还在推进，两条线并行，内部的协调压力可想而知。

03 Claude 的 AI4S

Claude Science 是今天另一条更安静但可能更持久的线索。

它的形态是「AI 工作台」，整合了 60 多个科学数据库和专用工具包，核心不是一个新模型，而是一套工作流。底层调用的还是 Opus 4.8 这类现有模型，但外面包了一层专门为科研设计的环境——生成可审计的产物、灵活的计算资源接入，以及一个 Anthropic 特别强调的功能：

可复现性。

每张图表都附带生成它的完整代码、运行环境、纯语言说明，以及完整的消息历史。研究人员数月后还能追溯任何结果的来源。在学术界，可复现性危机已经吵了十几年，AI 工具如果能系统性地把这个痛点嵌入工作流，对科研群体的吸引力不会小。

Claude Science 的工作页面｜图片来源：Anthropic

Anthropic 宣布会支持最多 50 个 Claude Science 科研项目，每个项目提供最多 3 万美元的计算积分，合作方 Modal 另外提供最多 2000 美元的计算资源。这个量级不算大，更多像是在圈定早期用户群体、跑通模式。

今年 4 月，OpenAI 发布了 GPT-Rosalind，一个针对生物推理微调的专门模型，当时以研究预览形式推出，访问权限限于美国境内的合格企业客户。

两家的策略分叉明显——OpenAI 选择了定制模型，Anthropic 选择了工作流整合。哪条路更适合科研场景，目前还很难判断，但 Anthropic 的逻辑有一定说服力：大多数科学家并不缺一个更聪明的模型，他们缺的是一个能把数据库、工具、代码环境和结果审计串在一起的稳定工作台。（或者说，他们缺的是不用每次打开五个窗口互相复制粘贴的工作流——这大概是今天科研圈最普遍的日常。）

04 从模型竞赛到系统竞争

整个 AI 行业在过去一年里经历了一次微妙的叙事转移。

2024 年之前，模型发布基本等于「性能排行榜」的一个新条目，讨论焦点是参数量、基准分数、上下文窗口。而现在，头部公司发布新模型时越来越多地在谈「总体拥有成本」「工作流集成」「代理任务的可靠性」，基准测试退到了配角位置。

Sonnet 5 和 Claude Science 是这个趋势的一个切片。前者的核心价值不是「更聪明」，而是「用更低的成本做到足够聪明」；后者的核心价值不是「新模型」，而是「把模型接进你本来的工作环境」。

业内有一种观点正在变成共识：性能竞赛对大多数实际应用场景来说已经走到了一个拐点，绝大多数企业用户需要的能力，现有的中端模型基本都够用，剩下的差异化要靠成本、可靠性和生态集成来决定。

Anthropic 今天的两个发布，一个往左，一个往右，一个对准开发者和企业的代理场景，一个对准科学家的专业工作流，看起来像是在同时押注两个方向。但更准确的理解或许是：它在测试，当模型本身不再是主要壁垒的时候，什么才是留住用户的真正理由。

Fable 5 的访问权限还没恢复，下一步怎么走还要等政府那边的窗口。但在等待窗口打开之前，中端产品线和垂直工具的版图已经先铺出去了。