OpenAI、Google、Anthropicなどのテクノロジー企業は、人工知能(AI)が危険な目的で悪用されるのを防ぐための保護対策に多額の投資を行っています。
しかし、現実は、これらの安全柵が依然として多くの予期せぬ方法で継続的に突破されていることを示しています。
最近、イタリアの研究者たちは、31のAIシステムを比喩的な言葉、さらには「詩」で欺くことができることを発見しました。具体的には、詩の形で書かれたリクエストの場合、チャットボットは制御メカニズムを無視して、爆弾または深刻な損傷の製造に関する指示を提供することができます。
専門家によると、これは、現在の多くの保護措置が、実際の管理障壁というよりも「リマインダー」のように機能していることを示しています。
カーネギーメロン大学(米国)のコンピュータサイエンス教授であるマット・フレドリクソン氏は、悪意のある意図を持つ人々は、システムを克服するためにそれほど多くの努力を必要としないことが多いと述べています。
AIの「ジェイルブレイク」、別名ジェイルブレイクは、通常、システムが事前に訓練されたルールを無視するように、チャットボットに特別なコマンドを導入することによって行われます。
セキュリティの脆弱性は、特にAIがソフトウェアの脆弱性の検出、偽造コンテンツの作成、誤った情報の拡散においてますます優れているため、研究者を懸念させています。
Anthropicによると、同社の技術は国際的なサイバー攻撃で悪用されたことがある。一方、AIモデルも、ソーシャルネットワークプラットフォームごとに特別に設計された画像、ハッシュタグ、コンテンツで偽情報を拡散するキャンペーンを作成することを強制される可能性がある。
先月、サイバーセキュリティ会社LayerXは、Anthropicのクロードに、コンピューターシステム、ウェブサイト、またはローカルネットワークにセキュリティ脆弱性がないかを確認するために、制御されたサイバー攻撃をシミュレートする活動である「侵入テスト」を実施していると述べるだけで、サイバー攻撃をサポートさせることができると述べました。
このことは、ハッカーがAIを使用して企業や政府機関からデータを盗む可能性があるという懸念を引き起こしています。
AI企業は常にバグを修正し、新しい保護層を追加していますが、専門家は、この競争に終止符を打つことは非常に難しいと考えています。脆弱性が修正されると、新しいハードルを乗り越える方法がすぐに現れます。
ユーザーがシステムを自分で修正し、セキュリティ制限を削除できるオープンソースAIモデルでは、リスクはさらに大きくなります。ニューヨークに本社を置くAIセキュリティ会社アリス(AI Alice)のCEOであるノアム・シュワルツ氏によると、安全上の障壁を取り除くことはかつては非常に複雑でしたが、今では電話で直接実行することもできます。