探讨RAG技术、AI代理及AI伦理挑战
OPUS 4.7发布48小时,口碑两极撕裂。官方榜单并列全球第一,逻辑推理公开测试却从94.7%暴跌到41.0%。TOKEN消耗涨了35%,旧接口直接报错,用户集体控诉「更贵、更蠢、更爱顶嘴」。ANTHROPIC到底升级了什么,又搞砸了什么?
「4.6根本没法用,4.7的消耗速度像核反应堆一样。」
Opus 4.7发布后,一位Reddit用户在Anthropic官方帖子下的留言。不是玩梗,是真心话。
一篇「Claude Opus 4.7是严重倒退,不是升级」的Reddit帖子迅速冲上3000赞。还有人晒出截图,说4.7连strawberry里有几个字母都答不对。更别说「擅改简历编造学历和姓氏」,回复用户「我懒得做交叉验证」,以及「三问就撞限额」这些网友热门槽点了。《Pragmatic Engineer》作者Gergely Orosz试用之后,形容这个模型「出人意料地带攻击性」,然后宣布放弃,换回了4.6。
这边骂声还没散,那边一组数据却指向了相反的方向。Artificial Analysis给Opus 4.7的Intelligence Index打了57分,和GPT-5.4、Gemini 3.1 Pro并列全球第一。创业者Jeremy Howard形容它是「第一个真正懂我在工作时到底在做什么的模型」,Y Combinator CEO Garry Tan正在拿它做项目。还有网友说,Claude Opus 4.7 已实现通用人工智能(AGI)。
同一个模型,有人看到了AGI的影子,有人觉得自己的工作流炸了。上线两天,Opus 4.7就把AI社区撕裂了。
用户的怒火集中在三个点上:
第一,代码能力断崖式下滑。 大量开发者反馈,从4.6升级到4.7之后,之前能稳定完成的编程任务开始频繁出错。代码补全变迟钝,上下文理解出现退化,复杂逻辑链的推理明显变弱。一位Reddit用户说,他用一个已知答案的长重构任务做回归测试,结果模型自信地改挂了3个原本在4.6下能通过的测试,只能回滚。
第二,推理质量的倒退。 不是速度慢了那么简单,是思考深度出现了可感知的退化。以前能一步到位的复杂问题,现在需要反复追问、手动引导。
第三,花更多钱,体验更差。 Opus本身就是Anthropic最贵的模型,重度用户每月的API账单不是小数目。花了更多的钱、升了更新的版本、得到的却是更差的体验。
Artificial Analysis的多维评测显示Opus 4.7在数学推理、多语言理解、长上下文处理等多个维度的得分创下新高,以57分并列榜首,与Gemini 3.1 Pro Preview、GPT-5.4并列。
Anthropic的逻辑并不难理解:大模型迭代必然涉及能力再分配。有些维度提升了,有些维度就可能出现回退,这是工程上的取舍。但用户不看这个,只看自己手里的活干不干得动。
Anthropic没有调价,每百万token的单价和Opus 4.6、4.5完全一样。但官方迁移指南里写道:新分词器(tokenizer)在处理相同文本时,token用量大约可能达到原来的1.0倍到1.35倍。
Claude Code创建者Boris Cherny随后在X上表示:Opus 4.7消耗更多thinking token,所以我们已为所有订阅用户提高了速率限制,来补偿这一点。
如果你是Claude的重度开发者,4.7上线那天你可能遇到了这样的事情:代码里写了thinking={"type": "enabled", "budget_tokens": 32000},用来控制模型的思考预算。在4.6上跑得好好的。换成4.7,直接返回400错误。没有弃用过渡期,没有兼容模式,直接报错。
更隐蔽的变化是thinking内容现在默认隐藏。4.6时代,模型的思考过程默认展示摘要版。到了4.7,默认变成「省略」。但你仍然在为这些看不到的thinking token全额付费。
Anthropic官方原话:省略只会降低延迟,不会降低成本。这就像你点了一份套餐,服务员说「为了加快上菜速度,我们不给你看菜了,但你还是得付全款」。
关于4.7变得「combative」(带攻击性)的问题,Anthropic官方迁移指南里有一句很关键的话:Claude Opus 4.7会以更字面、更明确的方式理解提示词。
也就是说:4.6会「猜你的意思」,4.7会「照你说的做」。如果你的prompt本来就写得含糊,4.6可以帮你脑补,但4.7不会。因此,「顶嘴」这个标签背后,是Anthropic正在把Claude从一个「顺从的助手」改造成一个「更有主见的同事」。
同时,4.7的幻觉率比4.6下降了25个百分点,降到了36%。它是怎么做到的?据Artificial Analysis的分析,主要是依靠「更频繁地选择不作答」,宁可说「我不知道」,也不瞎编。
NYT Connections Extended基准测试显示:Opus 4.6(high reasoning)得分94.7%,Opus 4.7(high reasoning)得分41.0%。从年级第一,跌到不及格。
另一份数据来自Anthropic提供的Opus 4.7 System Card中100万token上下文的MRCR v2基准测试:4.6得分78.3%,4.7得分32.2%,下跌46个百分点。
这些是特定类型的测试,它们不能证明4.7「全面变蠢」,就像GDPval-AA的领先不能证明4.7「全面变强」一样。
Opus 4.7的争议不是个案。OpenAI经历过GPT-4 Turbo降智风波,几个月前撤下GPT-4o时也遭遇过类似的用户反弹。现在Reddit上已经出现了「哀悼」Claude 4.5的帖子,满是自称「心碎」的粉丝。
每一次模型升级,都有一批用户失去已经适应的工具。新分词器让旧的成本预算失效;新的默认行为让旧的prompt不再好用;新的接口规范让旧的代码直接报错……每一项单独看都有技术上的合理性,但叠在一起,就是把全部迁移成本一次性推给了用户。
为什么模型越来越聪明,用户越来越焦虑?因为每一次「更好」,都意味着推翻上一次的「刚好」。
Anthropic员工Alex Albert在发布次日写道:很多人在昨天刚开始体验Opus 4.7时可能遇到的bug,现在都已经修复了。感谢大家的包容和耐心。
bug可以修。但信任这种东西,消耗容易,重建很慢。这轮AI军备竞赛的下一个瓶颈,也许不只是算力和数据,还要比谁能在快速迭代的同时,能不把自己的用户甩下车。这次,Anthropic发布了迁移指南,但用户更想要的是一个承诺:升级不能把原有的工作流推倒重来。
当AI从玩具变成生产力工具,「快速迭代」就不再是无条件的优点。Opus 4.8会怎么来?Anthropic还没说。但用户的耐心,已经开始倒计时了。
关注公众号
立刻获取最新消息及人工咨询