
Anthropicは、同社最大のClaudeモデルが、ユーザーが長期にわたる有害または虐待的な行動をとったことがまれであると説明されている状況で、積極的に会話を終了できる新機能を発表しました。注目すべき点は、同社がこの変更の目的はユーザーを保護することではなく、AIモデル自体を保護することであると述べていることです。
Anthropicによると、彼らはクロードや他の大きな言語モデルが認知能力を持っているとは主張していませんが、彼らはモデルの福利厚生を開発するために研究しています。会社のアプローチは、予防、リスクを軽減するための低コスト介入策を見つけることです。その福利厚生が実現可能である場合です。
この機能は現在、Claude Opus 4および4.1にのみ適用されており、児童ポルノコンテンツに関連する要求、または暴力やテロにつながる情報を収集しようとするなどの深刻な状況では適用されます。試験段階では、Claude Opus 4は、これらの要求への対応に対する強い優先順位を示しており、回答を余儀なくされたときの苦痛さえ示していると考えられています。
Anthropicは、Claudeは、すべての方向転換の努力が失敗した場合、またはユーザー自身が要求した場合にのみ、会話を終了する機能を最後の解決策として使用することを強調しています。同時に、Claudeは、ユーザーが他人に危害を加えたり、損害を与えたりする危険性がある場合に適用されません。終了後も、ユーザーは新しい会話を開始したり、現在のアカウントから新しいアカウントを作成したりできます。
「私たちはこれを進行中の実験と見なしており、今後も調整を続ける予定です」とAnthropicの代表者は述べました。