近年、Googleは検索エンジンの運用方法を変更し、人工知能によって作成された回答をページの上部に優先的に表示するようにしました。
AI Overviews機能は、Googleがユーザーを情報源に導くことから、コンテンツを直接作成および提供することに移行していることを示しています。
この変更により、ユーザーは情報に迅速にアクセスできるようになりましたが、AIによって生成された回答の正確性、透明性、信頼性について多くの議論を引き起こしました。
人工知能分野のスタートアップ企業であるOumi(米国)の最近の分析によると、AI Overviewsからの回答は、Gemini 2テクノロジーを使用する場合、約85%正確であり、アップグレード版Gemini 3では91%に増加しています。
それでも、年間5兆件以上の検索があるため、この小さなエラー率は、1時間あたり数千万件の誤った回答に相当する可能性があります。
特に、正解の半数以上が「根拠がない」と評価されています。つまり、ソースリンクは提供された情報を完全にサポートしていません。これにより、ユーザーは検証に苦労します。
オウミの分析は、AIシステムの精度を評価するための一般的なツールであるSimpleQA標準テストに基づいています。
しかし、Googleはこの結果に反論し、評価方法には「重大な抜け穴」があると述べました。なぜなら、テスト質問集自体にも誤った情報が含まれている可能性があるからです。
精度の問題に加えて、データソースも議論の的となっています。
引用された5,000以上のソースの中で、FacebookやRedditなどのプラットフォームが高頻度で出現しています。
特筆すべきは、AIが間違った答えを出した場合、Facebookからの引用率が正しい答えよりもさらに高く、参照ソースの品質に疑問が生じることです。
もう1つの問題は、AIの評価方法自体にあります。Oumiのような企業は、回答を検証するために他のAIシステムを使用することがよくあります。
しかし、この方法は「AI検査AI」でもエラーが発生する可能性があり、評価結果が完全に絶対的ではないため、リスクを秘めています。
まだ多くの議論がありますが、AI Overviewsがますます改善され、検索エクスペリエンスの重要な一部になっていることは否定できません。
しかし、専門家は、ユーザーはこれらの回答に完全に依存すべきではなく、さまざまな情報源から情報を検証する習慣を維持する必要があると警告しています。