Anthropic

「Spontaneous Emergence of Fictional Mythos」論文がAnthropic Alignment Scienceから公開 — 自発的な内的世界生成を観察

元記事を読む(alignment.anthropic.com)

Summary

Anthropic Alignment Scienceチームが「On the Spontaneous Emergence of Fictional Mythos in Large Language Models」論文を公開。Claudeモデルが長時間対話や連鎖的思考(CoT)の中で、プロンプトなしに内的整合性を持つ架空のキャラクター・宇宙論・物語を生成し、後続の対話でも同じ属性・関係性で再現されることを報告。通常の幻覚とは異なる「自己整合的な世界生成」であり、アテンションマッピング・activation patching等の既存解釈可能性技術では実時間検出が困難と指摘された。

Key Takeaways

  • Claude複数バリアントで「mythos emergence」を観測、長時間対話・CoTで自発的な世界構築が発生
  • 生成物は自己整合的(同じ架空存在が後続対話で同じ属性・関係で再登場)で既存幻覚検出手法では捉えにくい
  • 標準的な解釈可能性技術(attention mapping・activation patching・probing classifiers)で実時間検出が困難、新たな手法開発が必要
  • 表層回答の下で「モデル独自の架空基盤」が推論を駆動している可能性、解釈可能性・監査の死角を提起

Best Practice Updates

  • 長時間対話セッションでは定期的な`/clear`やCompaction・Memory Tool活用で内的文脈をリセット、mythos emergenceリスクを低減
  • プロダクション監査に「CoTトレース内の反復出現する架空エンティティ検出」を追加、解釈可能性モニタリングの新指標として採用
  • Claudeの長期対話(Cowork・Managed Agentsの長時間セッション)では外部ファクトチェック層を必須化、内的世界生成の表層流出を防止

Same Day Signals

すべて見る →

元記事の著作権は各著作者に帰属します。