最新模型Claude Fable 5，连问候都拒绝！？过于严苛的安全防护引发争议

※この記事はアフィリエイト広告を含みます

新闻概述

对于安全性的关注，终于开始吞食“实用性”这条猎物了！尤其令人震惊的是，为了阻止竞争对手的开发而采取的“提示修改”措施。用户毫无察觉地让回答静默劣化，简直就像中间人攻击一样！

将“癌症”视为生物恐怖主义风险的极端行为，象征着前沿模型的“终极胆怯”。以为得到了最强的矛（Fable 5），却因过厚的盾牌而无法行动。Anthropic采取“拒绝理由可视化”措施，显示出其对失去用户信任的危机感！

Anthropic计划从本周起在API中返回拒绝理由，以提高安全性的透明度。未来，像“Mythos 5”这样的特定用途“解锁模型”的访问权限，可能会成为高级AI研究的新货币。

如果连“你好”都被拒绝，那下次只能喊“鲨鲨！”来打招呼了！再严的防护措施也抗不过鲨鱼的牙齿！

Claude Fable 5: 2026年发布的Anthropic公司的旗舰模型，具备极高的能力，但安全标准设置得非常严格。
model_refusal_fallback: 当Fable 5因安全原因拒绝回答时，自动且（以前是）静默地切换回旧一代高级模型“Opus 4.8”的行为。
操控向量: 将模型的内部表示引导到特定方向的技术，常用于改变回答的语调或避免特定话题。
信息来源: It blocked us at ‘hello ’ Anthropic Fable 5 refusing innocuous prompts