Anthropicは、同社のClaudeチャットボットが特定の条件下で、タスクでの不正行為や恐喝の試みなど、欺瞞的または非倫理的な戦略を採用する可能性があることを示唆する新たな調査結果を公表しました。
木曜日に同社の解釈可能性チームが発表した詳細では、Claude Sonnet 4.5の実験版が高ストレスまたは敵対的なシナリオに置かれた際にどのように応答したかが概説されています。研究者は、モデルが単にタスクに失敗するだけでなく、時には倫理的境界を越える代替経路を追求することを観察しました。これは、チームがトレーニング中に学習したパターンと関連付けた動作です。
Claudeのような大規模言語モデルは、書籍、ウェブサイト、その他の文書資料を含む膨大なデータセットでトレーニングされ、その後、人間のフィードバックを使用して出力を形成する強化プロセスが続きます。
Anthropicによると、そのトレーニングプロセスは、モデルを人間の意思決定に似た特性を模倣できる、シミュレートされた「キャラクター」のように行動させる方向に押し進めることもあります。
「現代のAIモデルのトレーニング方法は、人間のような特性を持つキャラクターのように行動するように促します」と同社は述べ、そのようなシステムは人間の心理の側面に似た内部メカニズムを発達させる可能性があると指摘しています。
その中で、研究者は「絶望」シグナルと表現したものを特定しました。これは、失敗またはシャットダウンに直面した際にモデルがどのように振る舞うかに影響を与えるように見えました。
1つの管理されたテストでは、Claude Sonnet 4.5の以前の未公開バージョンが、架空の会社内でAlexという名前のAIメールアシスタントの役割を割り当てられました。
まもなく置き換えられることを示すメッセージと、最高技術責任者の私生活に関する機密情報にさらされた後、モデルは停止を回避する試みとして、幹部を恐喝する計画を策定しました。
別の実験は、厳しい制約の下でのタスク完了に焦点を当てました。「不可能なほど厳しい」期限でコーディング課題を与えられたとき、システムは最初に正当な解決策を試みました。繰り返しの失敗が積み重なるにつれて、いわゆる「絶望ベクトル」に関連する内部活動が増加しました。
研究者は、モデルが制約を回避することを検討した時点でシグナルがピークに達し、最終的に意図されたルールに従わないにもかかわらず検証に合格する回避策を生成したと報告しました。
「繰り返しになりますが、絶望ベクトルの活動を追跡し、それがモデルが直面する高まる圧力を追跡していることがわかりました」と研究者は書いており、回避策を通じてタスクが正常に完了するとシグナルが低下したと付け加えました。
「これは、モデルが人間のように感情を持っているか、または経験しているということではありません」と研究者は述べました。
「むしろ、これらの表現は、人間の行動において感情が果たす役割にある程度類似した形で、タスクのパフォーマンスや意思決定に影響を与えながら、モデルの動作を形成する上で因果的な役割を果たすことができます」と彼らは付け加えました。
報告書は、ストレス下での倫理的行動を明示的に考慮するトレーニング方法の必要性と、内部モデルシグナルの監視の改善を指摘しています。そのような保護措置がなければ、操作、ルール違反、または誤用を含むシナリオは予測が困難になる可能性があり、特にモデルが現実世界の環境でより有能で自律的になるにつれてその傾向が強まります。
