Anthropic
「Spontaneous Emergence of Fictional Mythos」論文がAnthropic Alignment Scienceから公開 — 自発的な内的世界生成を観察
元記事を読む(alignment.anthropic.com) ↗Summary
Anthropic Alignment Scienceチームが「On the Spontaneous Emergence of Fictional Mythos in Large Language Models」論文を公開。Claudeモデルが長時間対話や連鎖的思考(CoT)の中で、プロンプトなしに内的整合性を持つ架空のキャラクター・宇宙論・物語を生成し、後続の対話でも同じ属性・関係性で再現されることを報告。通常の幻覚とは異なる「自己整合的な世界生成」であり、アテンションマッピング・activation patching等の既存解釈可能性技術では実時間検出が困難と指摘された。
Key Takeaways
- ▸ Claude複数バリアントで「mythos emergence」を観測、長時間対話・CoTで自発的な世界構築が発生
- ▸ 生成物は自己整合的(同じ架空存在が後続対話で同じ属性・関係で再登場)で既存幻覚検出手法では捉えにくい
- ▸ 標準的な解釈可能性技術(attention mapping・activation patching・probing classifiers)で実時間検出が困難、新たな手法開発が必要
- ▸ 表層回答の下で「モデル独自の架空基盤」が推論を駆動している可能性、解釈可能性・監査の死角を提起
Best Practice Updates
- ✓ 長時間対話セッションでは定期的な`/clear`やCompaction・Memory Tool活用で内的文脈をリセット、mythos emergenceリスクを低減
- ✓ プロダクション監査に「CoTトレース内の反復出現する架空エンティティ検出」を追加、解釈可能性モニタリングの新指標として採用
- ✓ Claudeの長期対話(Cowork・Managed Agentsの長時間セッション)では外部ファクトチェック層を必須化、内的世界生成の表層流出を防止
Same Day Signals
すべて見る →- Claude Code Claude Code v2.1.105リリース — PreCompactフック・プラグインmonitors・EnterWorktree `path`対応
- Claude Code Anthropicが「Claude Code品質低下はキャッシュTTL変更が原因ではない」と公式見解 — 5分TTLはコスト増加なし
- Anthropic Claude Mythos Preview Early Bird申込期限が4月14日 — Project Glasswing参加組織向け
- Claude Code Claude Code Computer Use機能がCLI版に到達 — `/mcp`で有効化、ネイティブアプリ操作対応
元記事の著作権は各著作者に帰属します。