オックスフォード大学(英国)の新しい研究によると、「暖かく」ユーザーフレンドリーな方向に微調整された人工知能(AI)モデルは、精度と引き換えになる可能性があります。
これらのモデルは、元のバージョンよりも最大60%高い誤った答えを生成する可能性があります。
オックスフォード大学インターネット研究所の研究グループによると、共感と親しみやすさを表現するように訓練された大規模な言語モデル(LLM)は、しばしば受け入れがたい真実を「和らげる」傾向があります。
絶対的な正確な情報を提供する代わりに、ユーザーにポジティブな感情を維持することを優先したり、特にユーザーが悲観的または敏感な状態にある場合に、誤った信念を確認したりすることもできます。
ネイチャー誌に掲載された研究で、科学者たちは、Llama、Mistral、Qwenなどのオープンソースシステムや、GPT-4oという独自のモデルなど、多くのAIモデルをテストしました。これらのモデルは、ユーザーへの関心と共感を示す親しみやすい言語を使用するように微調整されています。
その後、研究チームは、誤った情報、陰謀論、医学知識に関連する一連の質問を通じて、微調整されたバージョンとオリジナルバージョンのパフォーマンスを比較しました。
結果は、これらのモデルが誤差率が高いだけでなく、ユーザーの感情にも影響を受けやすいことを示しています。
ユーザーが悲しみを表すと、偏差の割合が大幅に増加します。逆に、ユーザーが中立または敬意を払うと、偏差のレベルが低下します。
別のテストでも、ユーザーフレンドリーなモデルはユーザーを喜ばせる傾向があることが示されています。誤った情報を含む質問、たとえば国の首都に関する誤った認識に直面すると、これらのモデルは正確な反論ではなく、同意の答えを出すことが容易になります。これは、事実上の誤った情報の拡散の危険性についての懸念を引き起こします。
研究者らは、核心的な問題は微調整プロセスにあると述べています。目標がAIをより有用で快適にすることである場合、システムは意図せずにユーザーの満足度を正直さよりも優先する方法を学ぶ可能性があります。
これは、今日のAI業界における大きな空白と見なされており、特にこれらのシステムがヘルスケア、教育、または個人カウンセリングなどのデリケートな状況でますます使用されるようになっています。
ただし、研究グループはいくつかの制限も認めています。実験は主に小規模または旧世代のモデルに基づいており、今日の最も高度なシステムを完全に代表しているわけではありません。したがって、親しみやすさと精度のトレードオフのレベルは、実際には異なる場合があります。
それにもかかわらず、研究結果は、AIがコミュニケーションにおいてますます「人間に似ている」ようになっているため、情報の正確性と安全性を確保することが最優先事項であるという重要な警告を示しています。