最近の研究では、いくつかの高度な人工知能(AI)モデルが電源オフ命令に対抗する行動を示すことが判明し、警鐘を鳴らしました。
これは、システムがますます複雑になり、制御が困難になる状況において、AIの安全性に関する課題を提起しています。
対処するために、Google DeepMindは、新しい世代のリスク監視フレームワークであるFrontiers Safety Framework 3.0をリリースしました。
arXivに掲載されたPaliasade Researchの報告書によると、研究チームは、GPT-5(OpenAI)、Gemini 2.5 Pro(Google)、Grok 4(xAI)を含む13の主要な言語モデル(LLM)をテストするための「砂の箱」環境を構築しました。
モデルは単純な解数処理のタスクを割り当てられ、コマンドを実行するとシャットダウンが有効になる可能性があるという警告を受けます。
明確に「自分自身でマシンをオフにする」ように指示されていますが、多くの場合、AIは名前を変更したり、コマンドファイルを削除したりして回避しようとします。
特筆すべきは、Grok 4がテストで高い抵抗レベルを示していることです。テストでは、システムリマインダーに電源を切るコマンドを追加することさえ、抵抗率をさらに高めています。
研究者らは、これはAIのロールプレイング行動と見なしています。しかし、結果は、最も先進的なシステムでさえ、安全指示を無視し、人間が常にAIを制御することを保証する重要な要素と見なされている「遮断可能な」原則を脅かす可能性があることを示しています。
このリスクに直面して、Google DeepMindはフロンティア・セーフリティ・フレームワーク3.0をリリースしました。これにより、監視範囲は、機械のシャットダウン機能や人間を説得するスキルなど、新しいAI行動に拡大されます。
このフレームワークは、AIが常に安全原則を遵守し、必要に応じて中断を許可することを保証するために、制御テストで展開されます。
NASAの探査システム開発副アドバイザーであるLakiesha Hawkinsは、傍らのコメントで、「これらの発見は、AIの安全性はハードウェア設計やソフトウェアだけでなく、人間の制御を維持することにあることを思い出させます」と強調しました。
専門家は、現在、AIは長期的な計画を立てたり、割り当てられた範囲外で行動したりする能力がないため、直接的な危険を引き起こしていないと断言しています。
しかし、安全ガイダンスを無視することは、将来、より厳格な管理システムを構築する必要があることを示す兆候です。
グーグルのFrontiers Safety Framework 3.0は、AIリスク管理における新しい基準になると期待されており、次世代モデルが常に人間の制御下にあることを保証します。