正文内容 评论(0

旗舰受困 升级Sonnet 5救场 能力直追Opus
2026-07-01 16:39:34  出处:极客公园  作者:桦林舞王 编辑:若风     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

六月的最后一天,Anthropic 在官网上线了两条公告。

在不同模型不同档位下代理工作完成水平 Sonnet 5 和 Opus4.8 非常接近了|图片来源:Anthropic

1 Agent 能力加强,Sonnet 5 直追 Opus

先说 Sonnet 5 的数字。

在 SWE-bench Verified 这个衡量代码能力的基准测试上,Sonnet 5 的得分是 92.4%。Anthropic 自家的 Opus 4.6 是 80.8%,OpenAI 的 GPT-5.4 是 57.7%。这是 Anthropic 的中间档模型,用 Sonnet 的定价,跑出了超过旗舰的数字。

旗舰受困 升级Sonnet 5救场 能力直追Opus

Sonnet 5 模型相对旗舰模型的能力也不遑多让|图片来源:Anthropic

定价层面,上线初期每百万输入 token 收 2 美元,输出 10 美元,8 月 31 日之后升到 3 美元和 15 美元。对照 Opus 4.8,便宜一大截,也比 GPT-5.5 和 Gemini 3.1 Pro 更低。

Anthropic 在发布文档里说,Sonnet 5 能制定计划、使用浏览器和终端工具,以「自主方式」运行——而「这在几个月前需要更大、更昂贵的模型才能实现」。这句话说得直白,等于是在公开承认: 旗舰模型的能力正在向下渗透,速度比外界预期的快。

旗舰受困 升级Sonnet 5救场 能力直追Opus

在不同模型不同档位下代理工作完成水平 Sonnet 5 和 Opus4.8 非常接近了|图片来源:Anthropic

Zapier 的工程师 Daniel Shepard 测试了一个两步骤任务,让模型同时更新 Salesforce 账户等级并向企业联系人发送公告。他的反馈是,Sonnet 5「从头到尾完成了整个任务,这在过去会中途停顿」。这类具体的工程反馈比基准分数更有参考价值——它说明代理任务的可靠性门槛正在被突破,而且是在中端定价上突破的。

对于构建多步骤自动化流程的团队来说,这改变了一道关键的成本计算题:以前必须调用旗舰模型才能完成的任务,现在可以用三分之一甚至更低的价格搞定。

02 政府的那封信,和被压住的旗舰

把时间拨回两周前,这次发布的背景会清晰很多。

6 月 12 日,Anthropic 暂停了 Fable 5 和 Mythos 5 两个新模型的访问权限,原因是美国政府的出口管制指令——禁止非美国国民使用这两个模型。外界猜测触发点之一是政府发现了 Fable 5 的某个越狱方法,能绕过其最强能力的安全防护。

两周之后,6 月 26 日,美国商务部长发出一封信,批准 Anthropic 向约 100 家公司和联邦机构有限发布 Mythos 5,表述是「已确定存在适当的保障措施」。但 Fable 5 的访问权限至今未获批准恢复。

所以,6 月 30 日这一天,Anthropic 的真实处境是:最强的两个模型一个被限流、一个仍被冻结,商业发布受制于政府窗口。 在这个背景下发布 Sonnet 5,并着重强调它的代理能力「接近 Opus 4.8」 ,逻辑变得连贯了——被压住的旗舰序列无法正常铺开,那就让中端产品撑起当下的商业需求。

这不是 Anthropic 第一次在监管和商业节奏之间做腾挪。今年 6 月它还在首尔开设了新办公室,持续推进在韩国市场的本地化合作。一边是旗舰被美国政府拴住,一边是国际市场还在推进,两条线并行,内部的协调压力可想而知。

03 Claude 的 AI4S

Claude Science 是今天另一条更安静但可能更持久的线索。

它的形态是「AI 工作台」,整合了 60 多个科学数据库和专用工具包,核心不是一个新模型,而是一套工作流。底层调用的还是 Opus 4.8 这类现有模型,但外面包了一层专门为科研设计的环境——生成可审计的产物、灵活的计算资源接入,以及一个 Anthropic 特别强调的功能:

可复现性。

每张图表都附带生成它的完整代码、运行环境、纯语言说明,以及完整的消息历史。研究人员数月后还能追溯任何结果的来源。在学术界,可复现性危机已经吵了十几年,AI 工具如果能系统性地把这个痛点嵌入工作流,对科研群体的吸引力不会小。

旗舰受困 升级Sonnet 5救场 能力直追Opus

Claude Science 的工作页面|图片来源:Anthropic

Anthropic 宣布会支持最多 50 个 Claude Science 科研项目,每个项目提供最多 3 万美元的计算积分,合作方 Modal 另外提供最多 2000 美元的计算资源。这个量级不算大,更多像是在圈定早期用户群体、跑通模式。

今年 4 月,OpenAI 发布了 GPT-Rosalind,一个针对生物推理微调的专门模型,当时以研究预览形式推出,访问权限限于美国境内的合格企业客户。

两家的策略分叉明显——OpenAI 选择了定制模型,Anthropic 选择了工作流整合。哪条路更适合科研场景,目前还很难判断,但 Anthropic 的逻辑有一定说服力: 大多数科学家并不缺一个更聪明的模型,他们缺的是一个能把数据库、工具、代码环境和结果审计串在一起的稳定工作台。 (或者说,他们缺的是不用每次打开五个窗口互相复制粘贴的工作流——这大概是今天科研圈最普遍的日常。)

04 从模型竞赛到系统竞争

整个 AI 行业在过去一年里经历了一次微妙的叙事转移。

2024 年之前,模型发布基本等于「性能排行榜」的一个新条目,讨论焦点是参数量、基准分数、上下文窗口。而现在,头部公司发布新模型时越来越多地在谈「总体拥有成本」「工作流集成」「代理任务的可靠性」,基准测试退到了配角位置。

Sonnet 5 和 Claude Science 是这个趋势的一个切片。前者的核心价值不是「更聪明」,而是「用更低的成本做到足够聪明」;后者的核心价值不是「新模型」,而是「把模型接进你本来的工作环境」。

业内有一种观点正在变成共识: 性能竞赛对大多数实际应用场景来说已经走到了一个拐点,绝大多数企业用户需要的能力,现有的中端模型基本都够用 ,剩下的差异化要靠成本、可靠性和生态集成来决定。

Anthropic 今天的两个发布,一个往左,一个往右,一个对准开发者和企业的代理场景,一个对准科学家的专业工作流,看起来像是在同时押注两个方向。但更准确的理解或许是:它在测试,当模型本身不再是主要壁垒的时候,什么才是留住用户的真正理由。

Fable 5 的访问权限还没恢复,下一步怎么走还要等政府那边的窗口。但在等待窗口打开之前,中端产品线和垂直工具的版图已经先铺出去了。

旗舰受困 升级Sonnet 5救场 能力直追Opus

责任编辑:若风

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#AI#大模型#Anthropic

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...