9月29日(米国時間)、DeepSeekの研究チームは、V3.2-expという名前の新しいテストモデルを発表しました。このモデルは、長期的な文脈タスクでの推論コストを大幅に削減するように設計されています。このモデルは、GitHubで公開された学術論文とともにHugging Faceプラットフォームで紹介されました。
V3.2-expのハイライトは、DeepSeek Sparse Attentionメカニズム(曖昧な注意システム)にあります。データ全体を処理する代わりに、このシステムは、文脈ウィンドウの重要なテキストセクションの抽出を優先するために、「セーフセクション設定」と呼ばれるモジュールを使用しています。
その後、別のモジュールである「詳細通知コード選択システム」は、重要なトークンを絞り込み、制限された注意ウィンドウに挿入します。このアプローチは、サーバーの負荷を軽減しながら、長いスローモーションを処理する能力を維持するのに役立ちます。
初期テストによると、DeepSeekは、APIコマンドの実行コストが、大きな文脈を必要とする状況で最大50%削減できる可能性があると述べています。
認証にはさらに多くの独立した評価が必要であるが、Hugging Faceのモデルを公開することで、サードパーティがテストおよび検証に道を開くだろう。
V3.2-expの発売は、推論コストの問題を解決するための一連の取り組みに続くものであり、AIモデルの運用における最大の課題の1つです。
初期のトレーニング費用とは異なり、推論費用はユーザーにサービスを提供するためのサーバーインフラストラクチャに直接関係しており、常にAIを展開する企業にとって大きな負担となっています。
中国に拠点を置くDeepSeekは、年初にR1モデルで注目を集めましたが、主に低コストの強化学習で訓練されました。しかし、R1は期待どおりの革命を起こしておらず、DeepSeekへの関心はここ数ヶ月で徐々に低下しています。
それにもかかわらず、この新しいメカニズムにより、DeepSeekは変圧アーキテクチャを最適化するための新しいアプローチを示しています。このソリューションはR1ほど騒がしいものではありませんが、推論コスト削減の必要性がますます高まっている米国のAIサービスプロバイダーにとって、実際的な教訓をもたらすと評価されています。