人工知能のパイオニアであるアンドリュー・ン(C Coursera の共同創設者、スタンフォード大学コンピュータサイエンスの非常勤教授)は、テクノロジー業界で広まっている誇張された主張や、一般人工知能(AGI)の概念の乱用を排除することを目的とした、新しい評価基準「ターリング-AGI」を提案しました。
Courseraの共同創設者は、AGIは現在も曖昧な用語であり、正確な定義が欠けており、多くの企業がマーケティングツールとして使用していると述べています。
アンドリュー・ン氏によると、これは一般の人々、投資家、さらには政策立案者さえも、現代のAIシステムの真の能力について誤解させています。
アンドリュー・ン氏は、チューリングAGIテストは、従来のチューリングテストのような会話能力だけに基づいてはならないと提案しました。代わりに、AIシステムとスキルを持つ人が、ウェブブラウザ、メール、Zoomなどの一般的なソフトウェアにインターネットに接続されたコンピューターを使用して、数日間の実際の作業の一連のタスクを実行します。
たとえば、AIは、実際の労働者として、コールセンターの役割、通話、メール、および発生する状況の処理を担う必要がある場合があります。
アンドリュー・ン氏は、「スキルのある人のように仕事をうまくこなせるシステムは、ターリングAGIテストを通過します」と強調しました。
同氏によると、AIが実際に人間の知能レベルに達した場合、一般的な労働タスクを完了することは必然であり、単なるテキスト対話にとどまらないでしょう。
アンドリュー・ン氏はまた、オリジナルのチューリングテストの制限を指摘しました。これは、会話中に採点者を欺くためにコンピューターを要求することです。アンドリュー・ン氏は、会話で「人間を演じる」能力は、人間のレベルでの知性を証明するには不十分であり、ましてやAGIを代表することはできないと述べました。
この提案は、AGIに関する研究者とテクノロジーリーダーの間でますます激化する議論の中で出されました。
昨年末、Yann LeCunとGoogle DeepMindのCEODemis Hassabisは、人間の知性が普遍的であるか専門的であるかについて公然と意見の相違を表明しました。この議論は、Hassabisの見解を公然と支持しているElon Muskの注目も集めました。

アンドリュー・ン氏は、AGIに関する明確な基準の欠如は、学術的な混乱を引き起こすだけでなく、社会的影響も生み出すと考えています。彼はまた、学生はAGIが間もなく登場すると信じているため、重要な研究分野を避ける可能性があるという警告を発しました。一方、CEOは短期的にAIの可能性を過大評価したために誤った投資決定を下す可能性があります。
さらに、彼はGPQA、AIME、SWE-benchなどの固定AI評価セットも批判しました。NGによると、モデルは公開されたテストを通過するために「逆訓練」される可能性がありますが、これらのデータセットは知能のほんの一部しか測定していません。
対照的に、チューリング-AGIテストでは、AIの実際の「全体像」レベルをテストするために、予告なしに完全に新しいシナリオを設計できます。
アンドリュー・ン氏によると、このアプローチは社会が期待を再調整し、AIバブルのリスクを軽減し、長期投資のためのより持続可能な基盤を構築するのに役立ちます。
「企業がTuring-AGIテストを通過すれば、単なるプレスリリースではなく、真の価値を生み出すでしょう」とアンドリュー・ン氏は断言しました。