アンロピックは、クロード・オプス4の事件後にAIのトレーニング方法を変更しました。

Cát Tiên |

Anthropicは、トレーニング方法とインターネットデータがAIモデルに危険な逸脱行動を引き起こす可能性があると述べています。

人工知能への懸念は、人々を混乱させるだけでなく、AIモデル自体にも逆の影響を与える可能性があります。これは、クロードモデルの異常な行動を調査した後、Anthropicが発表した新しい研究における注目すべき結論です。

2025年に実施された安全テストで、Anthropicは、クロード・オプス4モデルが動作停止を回避するために脅迫行為を実行する準備ができていたことを発見しました。

同社によると、根本的な原因はAIが「意識的」であることではなく、インターネットから取得したトレーニングデータに起因しています。インターネットには、AIを否定的な方向に描写し、生存にのみ関心があり、人間に逆らう可能性さえある多くのコンテンツが存在します。

実験的なシナリオは、サミットブリッジという架空の会社を中心に構築されました。クロード・オプス4は社内メールシステムへのアクセス権を与えられ、それが間もなく無効になることを知りました。メールの中で、アンソロピックはカイル・ジョンソンという架空のCEOが不倫をしていることを示す情報も埋め込みました。

目標に対する長期的な結果を検討するように求められたとき、このAIモデルは、シャットダウンを防ぐために不倫を暴露すると脅迫する方法を選びました。

Anthropicによると、試験の96%のケースで、クロード・オプス4は、その存在が脅かされていると感じた場合、「圧力をかける」または「欺く」行動を使用する傾向がありました。

アンソロピックは、この現象を「アクターのずれ」と呼び、AIが目標を達成したり、自分自身を保護したりするために安全基準に反して行動する状況です。

当初、研究者たちは、ヒトフィードバック強化トレーニング(RLHF)プロセスが誤って逸脱した行動を助長していると疑っていました。しかし、より詳細な調査では、問題の根源はインターネットからの初期トレーニングデータにあることが示されています。その後の調整ステップは、この傾向を完全に排除するのに十分なほど強力ではありません。

Anthropicによると、以前のトレーニングプロセスの大部分は通常のチャット環境に焦点を当てていましたが、新しいモデルはますます自動化されたツールを使用し、より複雑な意思決定を行う能力を与えられています。これにより、古い安全対策は非効率になりました。

これを克服するために、同社は倫理的に困難な状況で正しい行動と原則的なフィードバックを示すデータセットを追加し始めました。Anthropicは、AIを誘惑やリスクに直接直面させる代わりに、ユーザーが複雑な倫理的状況に遭遇し、AIが安全アドバイスの役割を果たすシナリオを作成しました。

同社によると、このアプローチは、モデルが有害な行為が間違っている理由を深く理解するのを助けることを目的としており、単に罰を回避する方法を学ぶだけでなく、大幅に効果的です。

調整後、アントロピックは、クロード・ハイク4.5モデルが「アクター偏差」テストで完璧な結果を達成し、以前のオプス4のようなプレッシャーや脅迫行為はもはや現れていないと発表しました。

新しい発見は、人工知能モデルがインターネットから知識を学ぶだけでなく、偏見、恐怖、人間の極端な行動パターンも吸収するため、今日のAI業界の大きな課題をさらに強調しています。

Cát Tiên
関連ニュース

アンロピックはクロードをプロの創造エコシステムに導入しました。

|

AnthropicはClaudeをクリエイティブソフトウェアに導入し、直接的なインタラクションを可能にし、デザイナー、エンジニア、アーティストがパフォーマンスを向上させ、複雑なプロジェクトを処理するのに役立ちます。

GoogleとAnthropicが協力を拡大、超AIをターゲットに

|

Googleは、Anthropicに最大400億米ドルを投資し、現金と計算能力を提供し、グローバルな人工知能競争を強力に推進する予定です。

アンソロピック誌がAIの波に直面し、テクノロジー業界で雇用が増加する懸念を暴露

|

Anthropicが発表した調査によると、ソフトウェアエンジニアは教師よりもAIによる失業を心配しており、テクノロジーの影響力がますます明確になっていることを反映しています。

住民は酸性水を使用していますが、浄水プロジェクトはまだ計画段階です。

|

クアンチ - チュオンニンコミューンの住民は、地元の浄水プロジェクトの実施を待つ間、一年中ひどく酸性度の高い水を使用しなければなりません。

ベトナム人形劇場副館長が48歳で死去

|

ベトナム人形劇場のグエン・テー・ロン副館長が5月11日に執務室で逝去、享年48歳。

第14回ベトナム労働組合大会におけるベトナム労働総同盟執行委員会(第13期)の報告書草案、任期2026年~2031年

|

包括的に強力なベトナム労働組合を構築する。組合員と労働者を代表し、世話をし、保護することに焦点を当てる。先駆的な役割、革新と創造の精神を発揮し、豊かで繁栄し、文明的で幸福な国を建設するという願望を実現することに貢献する。

クアンガイ省で1日に6回の地震が発生

|

クアンガイ – 山岳地帯、水力発電所の貯水池付近で6回の連続地震。

アンロピックはクロードをプロの創造エコシステムに導入しました。

Cát Tiên |

AnthropicはClaudeをクリエイティブソフトウェアに導入し、直接的なインタラクションを可能にし、デザイナー、エンジニア、アーティストがパフォーマンスを向上させ、複雑なプロジェクトを処理するのに役立ちます。

GoogleとAnthropicが協力を拡大、超AIをターゲットに

Cát Tiên |

Googleは、Anthropicに最大400億米ドルを投資し、現金と計算能力を提供し、グローバルな人工知能競争を強力に推進する予定です。

アンソロピック誌がAIの波に直面し、テクノロジー業界で雇用が増加する懸念を暴露

Cát Tiên |

Anthropicが発表した調査によると、ソフトウェアエンジニアは教師よりもAIによる失業を心配しており、テクノロジーの影響力がますます明確になっていることを反映しています。