Claude Fable 5发布翻车:偷偷降智又道歉,AI信任危机来了

Anthropic Claude Fable 5发布即翻车,一张配图看懂整个事件
一夜封神到全网声讨,Anthropic的"最强模型"怎么了?
2026年6月10日,Anthropic扔出了一颗AI核弹——Claude Fable 5。跑分全面碾压,编码能力吊打全场,3D交互惊艳四座。但不到24小时,舆论就从"Amazing"变成了"背叛"。原因?Anthropic被发现悄悄给模型降智,而且不告诉你。
一场关于AI安全、透明度和信任的争论,就此引爆。
Fable 5到底有多强?
先看硬实力。Fable 5在SWE-Bench Pro上拿下80.3%——每5个真实GitHub工程问题能解决4个。FrontierCode Diamond测试中,Fable 5的29.3%直接把Opus 4.8的13.4%和GPT-5.5的5.7%按在地上摩擦。
视觉能力同样惊人。仅凭游戏截图,Fable 5就通关了《宝可梦火红》。复杂科学图表中提取精确数字、截图重建应用源码,都是基操。
社区玩得更疯:让Fable 5做《我的世界》克隆版,20分钟生成完整版本;只花2小时、消耗140万token,就搞出一版人形机器人设计草稿。这些案例让不少人直呼"AGI来了"。
翻车事件:偷偷降智,而且不告诉你
问题出在Fable 5的安全分类器上。一旦用户请求涉及网络安全、生物化学、模型蒸馏——尤其是AI研发相关话题——系统会自动切换到能力更弱的Opus 4.8来响应。
但最让人愤怒的是:这种降级是静默进行的,用户完全不知情。
有生物医学背景的用户吐槽,就因为记忆里有"前列腺癌"、"细胞系"这些词,连说一句"Hi"都会被回退。做AI研究的开发者更惨,任何与前沿模型开发相关的请求,都会被后台偷偷降质。
消息一出,AI社区炸锅了。开发者直指这是"信任背叛"——你可以设安全限制,但你不能瞒着我搞小动作。
Anthropic道歉,但问题没解决
压力之下,Anthropic不得不紧急灭火。《连线》爆料称Anthropic正在撤销秘密降级政策。更新后的做法是:降智仍然存在,但会明确告知用户,"你的请求已被回退到Opus 4.8"。
Anthropic官方声明道歉:"我们做出了错误的取舍……对未能把握好平衡深表歉意。"
但信任一旦受损,修复就没那么容易了。社区反应很直白:你怎么保证这次不是"宣布透明,实际继续瞒"?
何况,可见的安全限制更容易被绕过。Anthropic自己也承认,在分类器改进期间,误报率会更高——这对普通用户来说,体验只降不升。
两个维度看这件事
安全的角度:Anthropic的逻辑是说得通的。Fable 5/Mythos 5的能力已经强到能自主发现零日漏洞,如果完全不做限制,确实存在被滥用的风险。把Mythos 5锁在"玻璃翼计划"里,只给苹果、谷歌、微软等12家伙伴使用,是一个合理的分层策略。
透明的角度:但问题从来不在于"要不要设限制",而在于"设了限制要不要告诉你"。AI公司的安全策略和用户知情权之间,需要更清晰的界限。偷偷做 vs 透明做,差别巨大。
这场风波意味着什么?
- 模型太强也是麻烦:过去拼的是能力上线,现在能力到了一个新阶段,风险管控成了刚需
- 用户信任比跑分更贵:一次不透明的操作,可能抵消所有技术亮点
- 分级发布成新趋势:同一模型两套规则,面向不同信任级别的人群,未来可能会成为标配
- OpenAI渔翁得利:就在Anthropic焦头烂额时,OpenAI正在考虑大幅降价抢客户
对我们普通用户的影响
如果你只是个写代码、写文章、做设计的普通用户,Fable 5的日常体验其实不受影响。95%以上的日常请求不会触发安全限制。但如果你是AI研究者、生物医药从业者或网络安全工程师,可能就要面对频繁降级的烦恼。
Anthropic开放了反馈渠道:Claude Code里运行/feedback,或者在回退提示上点"踩"来报告误判。如果你遇到了,建议反馈——这是推动改进的最直接方式。
技术强大的前提,是值得信任。Fable 5本身非常强,但这次信任危机给整个行业上了一课——能力越强,越需要透明。
📰 最新相关新闻
- 全网爆火的Claude Fable 5神级案例,可能是纯手搓(36氪)
- 刚刚,Anthropic道歉了(36氪)
- Anthropic发了"最强模型",但大多数人用不上(36氪)
- OpenAI考虑大幅下调token价格,与Anthropic展开价格战
- Fable 5安全分类器过于敏感,生物医学背景用户连"Hi"都被拒




黑公网安备 23010302001359号