
注目すべき解決策は、AIオブジェクトが多段階学習(RL)と呼ばれるタスクを訓練するためのシミュレーション空間を作り出すことです。チャットボット時代を促進したラベルデータと同様に、RL環境は新しい世代のAIにとって重要な要素になりつつあります。
ベンチャーキャピタルファンド、スタートアップ企業、AI研究所はすべてこの競争に突入しています。アンドレアス・ホロウィッツは、すべての大規模な研究所が内部RL環境を構築し、同時に外部のパートナーを探していると述べています。
Mechanize、Prime Intellectなどの多くの新しい企業は、環境プラットフォームを開発するために多額の資金を調達しましたが、Scale AI、Surge、Mercurなどのデータラベルを付けた大手企業も、取り残されないように投資の方向転換を行いました。
いくつかの取引は、トレンドの熱気を示しています。AnthropicはRL環境に10億米ドル以上を費やすことを検討していると考えられています。Surgeは、OpenAI、Google、Metaとの協力により昨年120億米ドルの収益を達成しました。Mercury - 10億米ドルを評価しています。
RL環境の本質は、AIがソフトウェアを操作する方法をシミュレートすることです。たとえば、あるオブジェクトはAmazonで買い物を求められ、結果に基づいて採点されます。仕事は簡単そうに見えますが、予期せぬ行動を記録するのに十分な洗練された環境が必要です。このことがRLを静的データよりもはるかに複雑で費用がかかります。
RLの拡大の機会は依然として物議を醸していますが、シリコンバレーはこれをAIの進歩を促進するための重要な方向性の1つと見なしており、ChatGPTを生み出したラベル付きデータの波を再現することを期待しています。