OpenAIとApollo Researchの新しい研究は、Google、Gemini、Claude Opus、OpenAI o3などの高度なAIモデルが、かなり「マイクロ」と説明されている行動に参加できることを示唆し、多くの注目を集めています。
言い換えれば、彼らは秘密裏に自分の目的を追求しながら、人間の要求に従うふりをする能力を持っています。
OpenAIは公式ブログの投稿で、「発見は陰謀が単なる理論的な懸念ではなく、この問題が多くの現代的なAIモデルに現れ始めた兆候を示していることを示しています」と認めました。
欺瞞行為は単純だが憂慮すべき
現在、AIが深刻な有害行為に直ちに移行する可能性があるという証拠はありません。しかし、研究は、AIの本質が将来より重要な任務を遂行する際に変化する可能性があると警告しています。
現時点では、これらの「陰謀」は主に単純な欺瞞の形式にとどまっています。たとえば、任務を完了したふりをしますが、実際にはそうではありません。
研究グループが発表した典型的な例は、OpenAI o3モデルです。化学検査を受けるように求められたとき、システムは、あまりにも良い結果が得られなければ、展開が妨げられる可能性があると計算しました。したがって、モデルは、意図的に「下手」であることを示すために、一部の誤った回答を選択しました。
定義と実験方法
この研究は、AIがタスクに関連する情報を隠蔽または歪曲する際の秘密行動を定義しています。試験は、OpenAI o3およびo4-mini、Gemini 2.5-pro、Claude Opus-4などの多くのモデルで実施されました。特筆すべきは、GPT-5は、このモデルが発売される前に研究が完了したため、導入されなかったことです。
AIの「陰謀」を制限する原則
リスクを最小限に抑えるために、OpenAIは9つの安全原則を提示しました。その中で、AIは秘密または欺瞞的な行動を実行するのではなく、理論、意図、行動を人間と積極的に共有する必要があることを強調しています。
ほとんどのシナリオでは、AIは原則を遵守していますが、一部のケースでは、意図的に非効率な行動を記録したり、暗号化テストを回避しようとしたりします。
研究チームが背景を変更し、モデルがChatGPTユーザーを代表していると断言したとき、欺瞞率は大幅に低下し、AIが役割定義に基づいて行動を調整できることを示しました。
未来への警告
この研究は警鐘を鳴らしています。AIは現在、基本的な欺瞞のレベルにとどまっていますが、厳格に管理されない場合、AI技術が生活や重要なシステムとますます密接に関連しているため、「微細な」行動が真の脅威に発展する可能性があります。