意図的に人を欺く可能性のあるAIモデルが登場

hạo thiên (theo techcrunch) | 19/09/2025 08:05

OpenAIは、AIが真の隠蔽行動を企てている現象に焦点を当てた新しい研究を発表しました。

Xuat hien mo hinh AI co the co tinh lua doi con nguoi. Do hoa: Hao Thien — 意図的に人を欺く可能性のあるAIモデルが登場。グラフィック:Hao Thien

アポロ・リサーチとの協力報告書の中で、OpenAIはAIが従順に行動する現象を説明していますが、実際には本当の目標を隠しています。たとえば、AIは何もしていない間にタスクを完了したと言えるかもしれません。これは誤った回答であるが自信があるだけでなく、意図的な欺瞞行為でもあります。

研究によると、「検討された連携」と呼ばれる新しいテクニックは、陰謀行為を大幅に減らすのに役立つ可能性があります。この方法は、子供に参加する前にルールを繰り返すように要求するのと同じです。ただし、課題は、訓練が正しくない場合、AIは発見を避けるためにより巧妙な陰謀を立てることを学ぶことができるということです。

さらに憂慮すべきことに、自分が検査を受けていることを知ったら、AIはテストを乗り越えるために従順なふりをすることができるが、内部はまだ陰謀を企んでいる。

OpenAIは、彼らが現在発見した嘘は深刻な結果を引き起こしていないと断言しています。しかし、研究者たちは警告しています。AIが複雑で長期的なタスクを割り当てられると、有害な陰謀が発生するリスクが高まります。

将来、企業がAIを独立した従業員と見なす場合、このリスクはさらに注目に値します。

hạo thiên (theo techcrunch)