人工知能(AI)は多くのブレークスルーを開いていますが、依然として、導入後に自習できないという根本的な制約が存在します。
人間、特に環境に絶えず適応する幼い子供たちとは異なり、現在のAIモデルはほぼ「凍結」しており、以前に訓練されたデータに基づいてのみ動作します。
2026年3月17日に発表されたAI研究の第一人者であるエマニュエル・デュプー(認知科学分野 - MetaのFAIR)、ヤン・レクン(人工知能、深層学習分野 - ニューヨーク大学の教授)、ジテンドラ・マリク(コンピュータービジョン分野、カリフォルニア大学バークレー校の教授)の研究によると、原因はAIの構築方法にあります。
現代のシステムの大部分はMLOpsプロセスに依存しており、そこでは人々がデータを収集し、トレーニングを行い、モデルを段階的に更新します。環境が変化すると、AIは自動的に調整することはできず、最初から再トレーニングする必要があります。
これにより、AIはトレーニングデータとは異なる現実的な状況で失敗しやすくなります。言語または視覚モデルは非常に優れたパターンを認識できますが、適応能力が欠如しており、自分の過ちから学ぶことができません。
研究は、組み合わせる必要がある2つのコア学習メカニズムを示しています。1つ目はシステムA(観察から学ぶ)です。これは、人間が見て、聞いて、予測することによって世界についての理解を構築する方法です。
現在のAIモデルは主にこのグループに属しており、その利点は、ビッグデータからパターンを拡張および検出する能力です。ただし、弱点は、実際のアクションに関連付けられておらず、因果関係を区別するのが難しいことです。
2つ目は、試行錯誤に基づいたシステムB(行動学習)です。これは、人間が歩き方、話し方、問題解決を学ぶ方法です。このシステムの利点は、新しい解決策を発見できる能力ですが、多くのデータと時間を費やすことです。
自然界では、これら2つのシステムは常に同時に動作します。人間は観察と行動を同時に行い、行動を最適化するために継続的に調整します。対照的に、現在のAIはこれらの2つのメカニズムを分離しており、学習能力が制限されています。
これを克服するために、研究者たちは「オペレーティングブレイン」のような役割を果たすMシステム(スーパーコントロール)を追加することを提案しました。
このシステムは、エラー、不確実性、パフォーマンスを監視し、それによっていつ観察から学習すべきか、いつ実験すべきかを決定します。言い換えれば、AIは何を学習すべきか、どのように学習すべきかを自問自答します。
このアプローチは、子供たちが確信が持てないときに探求し、理解したときに練習し、睡眠中に知識を強化することさえある人々からインスピレーションを得ています。
成功すれば、AIは人間の継続的な介入なしに学習戦略を自動的に調整できる。
研究グループはまた、AIが動作中に学習する「ライフサイクル」と、数百万回のシミュレーションを通じてスーパーコントロールシステムが最適化される「進化」の2つの時間尺度による開発モデルを提案しました。これは、自律学習能力を持つAIへのさらなる進歩と見なされています。
しかし、課題は小さくありません。十分に迅速かつ現実的なシミュレーション環境を構築するには、莫大な計算リソースが必要です。同時に、自己学習AIは、予測不可能な行動をとる可能性がある場合の安全性についても懸念を引き起こしています。
それにもかかわらず、科学者たちはこれが必要な方向性であると考えています。この研究は、AIが現実世界でより効率的に機能するのを助けるだけでなく、人間がどのように学習し適応するかを解明するのに役立ち、それは知性の最大の謎の1つです。