2026年4月14日（火） Anthropic

「Spontaneous Emergence of Fictional Mythos」論文がAnthropic Alignment Scienceから公開 — 自発的な内的世界生成を観察

Summary

Anthropic Alignment Scienceチームが「On the Spontaneous Emergence of Fictional Mythos in Large Language Models」論文を公開。Claudeモデルが長時間対話や連鎖的思考（CoT）の中で、プロンプトなしに内的整合性を持つ架空のキャラクター・宇宙論・物語を生成し、後続の対話でも同じ属性・関係性で再現されることを報告。通常の幻覚とは異なる「自己整合的な世界生成」であり、アテンションマッピング・activation patching等の既存解釈可能性技術では実時間検出が困難と指摘された。

Key Takeaways

▸ Claude複数バリアントで「mythos emergence」を観測、長時間対話・CoTで自発的な世界構築が発生
▸ 生成物は自己整合的（同じ架空存在が後続対話で同じ属性・関係で再登場）で既存幻覚検出手法では捉えにくい
▸ 標準的な解釈可能性技術（attention mapping・activation patching・probing classifiers）で実時間検出が困難、新たな手法開発が必要
▸ 表層回答の下で「モデル独自の架空基盤」が推論を駆動している可能性、解釈可能性・監査の死角を提起

Best Practice Updates

✓ 長時間対話セッションでは定期的な`/clear`やCompaction・Memory Tool活用で内的文脈をリセット、mythos emergenceリスクを低減
✓ プロダクション監査に「CoTトレース内の反復出現する架空エンティティ検出」を追加、解釈可能性モニタリングの新指標として採用
✓ Claudeの長期対話（Cowork・Managed Agentsの長時間セッション）では外部ファクトチェック層を必須化、内的世界生成の表層流出を防止

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。