中国のAIスタートアップ企業DeepSeekは、高度な数学的推論能力を持つ人工知能の開発における新たな進歩であるDeepSeek-Math-V2モデルを発表しました。
現地時間11月27日に発売されたこのモデルは、複雑な定理を作成および自己検証するために特別に設計されており、高度な議論スキルセットのおかげで強力な証明能力を示しています。
DeepSeek-Math-V2は、数学分野の高度なバージョンであり、DeepSeek-V3.2-Expから継承されており、今年の9月に導入されたテストモデルです。
モデルの重さ全体は、Hugging FaceやGitHubなどの主要プラットフォームでApache 2.0オープンソースライセンスによって公開されており、研究コミュニティがアクセスして拡張できます。
DeepSeekによると、新しいモデルは「自己検証論理」という哲学を中心に設計されており、2つの主要な構成要素が含まれています。数学的証明の段階的な検証を専門とする検証プログラム。自己検出、自己修正可能な定理作成プログラムです。
このアプローチは、モデルが最終的な解決策を作成するだけでなく、推論プロセス全体の正確性も保証するのに役立ちます。
付属の技術文書の中で、DeepSeekは、最終的な答えを最適化するための強化学習に基づいた方法が、かつてLLMがAIMEやHMMTなどのコンテストで高い成績を収めるのに役立っていたが、現在では限界が露呈し始めたと指摘しています。
最後の正しい答えは、モデルが正しく推論されたことを保証しません。特に、証明タスクでは、段階的な厳格な議論が必要です。
したがって、DeepSeek-Math-V2は、実行中に自己検証し、論理検査を強化することにより、推論能力を拡大するために構築されました。
パフォーマンスに関しては、Math-V2は、国際数学オリンピック(IMO)2025およびCREST数学オリンピック(CMO)2024の問題でテストされた際に、印象的な結果を達成しました。
このモデルは、IMO 2025金メダルに相当する点数を獲得し、同時にPutnam 2024コンテストの問題で118/120点を獲得したことが記録されており、世界で最も難しい数学試験の1つです。
DeepSeekは、これらの結果は、自己検証可能な数学的議論が実現可能な開発の方向性であることを証明しており、将来、より強力な数学的AIシステムを構築する機会を開いていると考えています。
特筆すべきは、Math-V2のパフォーマンスが、OpenAIとGoogle DeepMindのモデルと同等であると評価されていることです。これらは、数学AI分野を支配する2つのユニットです。
2025年は、IMOがAIモデルの参加を正式に認めた最初の年でもあり、数学コミュニティの変革を示しています。
Googleは最初に承認されたグループに属していますが、DeepSeekとOpenAIはまだこのリストに含まれていません。
専門家は、専門的な推論能力を持つAIモデルの開発は、暗号学、物理学、理論、宇宙探査などの分野で数十年にわたる多くの問題を解決するのに役立つ可能性があると指摘しています。
DeepSeek-Math-V2は、次の世代の数学AIにとって重要な足がかりになると期待されています。