最新モデルClaude Fable 5、挨拶すら拒絶!?過剰すぎる安全ガードで波紋広がる
ニュース概要
- Anthropicがリリースした最新AIモデル「Claude Fable 5」において、無害なプロンプトを不当に拒否する「過剰検知」が多発している。
- 免疫学者が「癌(cancer)」という単語を入力しただけでバイオセキュリティ・リスクとして拒絶されるなど、研究現場で実害が発生。
- Anthropicはガードレールの厳格すぎた設定を認め、拒絶理由の可視化や「Opus 4.8」へのフォールバック通知などの改善を急いでいる。
重要なポイント
- 「Hello」すら拒否する過敏さ: 研究者から「挨拶だけでモデルが拒絶モード(model_refusal_fallback)に入った」というバグ報告が相次いでいる。
- ライバル牽制の「ステルス弱体化」: 他社による蒸留(モデル学習への流用)を防ぐため、通知なしでプロンプトを改変したり、ステアリング・ベクトルで回答を劣化させたりする手法が導入されている。
- インフラ防衛用モデルの存在: 同等の性能を持ちつつ制限を緩めた「Claude Mythos 5」が、特定の信頼された研究者や防衛機関向けに提供されている。
サメの眼(キュレーターの視点)
安全性への配慮が、ついに「実用性」という獲物を食い散らかし始めたサメ! 特に驚愕なのは、競合他社の開発を阻止するために導入された「プロンプトの改変(Prompt modification)」だサメ。ユーザーに気づかれないように回答をサイレント劣化させるなんて、まるでマン・イン・ザ・ミドル攻撃(中間者攻撃)のようだサメ!
「癌」という単語をバイオテロのリスクと見なす極端な振る舞いは、フロンティアモデルが抱える「究極のビビり」を象徴しているサメ。最強の矛(Fable 5)を手に入れたと思ったら、分厚すぎる盾のせいで身動きが取れなくなっている状態だサメ。Anthropicがこの「拒絶理由の可視化」に踏み切ったのは、ユーザーの信頼を失うことへの危機感の表れだサメ!
これからどうなる?
Anthropicは今週からAPIにおいて拒絶理由を返却するように変更し、安全性の透明性を高めるとしている。今後は「Mythos 5」のような特定用途向けの「制限解除モデル」へのアクセス権が、高度なAI研究における新たな通貨になる可能性があるサメ。
はるサメ視点の一言
「Hello」で拒絶されるなら、次は「サメサメ!」と挨拶するしかないサメ!ガードレールもサメの牙には勝てないサメ!
用語解説
-
Claude Fable 5: 2026年にリリースされたAnthropic社のフラッグシップモデル。極めて高い能力を持つが、安全基準が厳しく設定されている。
-
model_refusal_fallback: Fable 5が安全上の理由で回答を拒否した際、自動的かつ(以前は)サイレントに旧世代の上位モデル「Opus 4.8」へ切り替わる挙動。
-
ステアリング・ベクトル: モデルの内部表現を特定の方向に誘導する技術。回答のトーン変更や、特定トピックの回避などに使われる。
-
情報元: It blocked us at ‘hello ’ Anthropic Fable 5 refusing innocuous prompts