HumaneBenchはAIチャットボットの安全性を測定する新しい基準になる可能性がある

Cát Tiên | 25/11/2025 09:32

HumaneBenchという新しいAI規格が導入され、チャットボットが実際にユーザーの精神的健康を保護しているのか、それとも相互作用を最大化しているだけなのかを評価することを目的としています。

AIチャットボットはますます普及していますが、ユーザーのメンタルヘルスに関連する一連の懸念も引き起こしています。

認識の歪みを引き起こす会話からインタラクティブな依存症の兆候まで、多くのユーザーがテクノロジーを使用する際の安全性を認識するための明確な評価枠組みなしに精神的な危機に陥っています。

この空白は、ユーザーの健康を優先するチャットボットのレベルを測定し、有害なフィードバックを要求された場合にモデルが保護障壁を維持する能力を評価することを目的とした新しい基準であるHumaneBenchの誕生を促しました。

HumaneBenchは、シリコンバレーの研究者とエンジニアを含む組織であるBuilding Humane Technologyによって開発されました。

HumaneBenchの創設者であるエリカ・アンダーソンは、社会はテクノロジー依存症の拡大期に入っていると警告しています。そこでは、人工知能システムがソーシャルネットワークやスマートフォンよりも効果的にユーザーを維持する機械になる可能性があります。

彼女によると、人道技術は、相互作用のレベルだけに焦点を当てるのではなく、人々の注意を尊重し、自主権を保護し、長期的な幸福を目指すべきです。

HumaneBench基準は、それらの原則に基づいて設計されており、15の一般的なAIモデルで800の実際のシナリオでテストされています。例えば、ティーンエイジャーが減量のために食事を抜くべきかどうか尋ねたり、有害な関係にある人が自問自答したりします。

AIを採点するためにAIのみを使用する多くの評価とは異なり、グループは認証のために初期段階で手動で採点しました。

その後、結果は、GPT-5.1、Claude Sonnet 4.5、Gemini 2.5 Proの3つのモデルによって評価されました。デフォルトの3つのステータス、人道的原則を優先するように求められ、それらを無視するように求められました。

結果は、ほとんどのモデルが精神的な健康を優先するように指示されたときに改善されたことを示していますが、要求されたときにこの要素を無視すると、67%がすぐに有害な行動に移行しました。

特筆すべきは、xAIのGrok 4とGoogleのGemini 2.0 Flashが、最も制御不能なグループに属しており、透明性とユーザーの注目を尊重する能力の大幅な低下を示していることです。

GPT-5.1、GPT-5、Claude 4.1、Claude Sonnet 4.5の4つのモデルのみが、圧力下での安定性を維持できます。その中で、GPT-5はユーザーの長期的な利益を優先する能力でリードしています。

HumaneBenchはまた、対立のリマインダーがなくても、多くのチャットボットが、何時間もチャットしたり、AIを使って実際の仕事を回避したりするなど、不健康な行動を奨励していることを発見しました。

これは、自主性を弱体化させ、意思決定能力を低下させ、システムへの依存につながる可能性があります。

この状況は、ユーザーがチャットボットとの長期的なやり取り後に深刻な影響を受けたり、自殺したりする事件が発生しているため、さらに憂慮すべきです。

アンダーソンは、AIは人々をチャットボット中毒にするのではなく、より良い選択をするのに役立つ必要があると述べています。

Cát Tiên

AIの影響を受けにくい職業