グーグルが人工知能能力に関する内部「赤信号」を発してから数日後、OpenAIはGPT-5.2を発表し、同社で現在最も強力であると説明されているモデルを発表しました。
これは新しい世代のAIであり、ビジネス環境に最適で、専門的な仕事と長期的なアクティビティに焦点を当てています。
OpenAIによると、GPT-5.2は、ドキュメントの要約、コードの書き込み、エラーの修正、プレゼンテーションの作成、または複雑なデータ組織など、一連の専門的なタスクを実行する速度、推論能力、およびパフォーマンスにおいて優れています。
同社によると、ChatGPT Enterpriseのユーザーは現在、1日に40〜60分、つまり週に10時間の作業時間を節約しており、GPT-5.2ではさらに増加すると予想されています。
モデルは、Instant(迅速な応答)、Think(深い議論)、Pro(テクニカル問題で最高の品質)の3つのバージョンに分けられます。
GPT-5.2は、有料チャットGPTパッケージで利用可能になり、APIにもgpt-5.2、gpt-5.2-chat-latest、gpt-5.2-proという名前で登場しました。
パフォーマンスに関しては、GPT-5.2はGDPvalで印象的な結果を達成しました。これは、44の実際の職業をシミュレートしたテストです。
Thinkingバージョンだけで、70.9%のタスクで人間専門家のリクエストを上回るか同等以上、GPT-5の実績の2倍です。
プログラミング向けのSWE-Bench Proでは、モデルは脆弱性の修正、機能の展開、包括的な技術タスクの処理において優位性を発揮し、新たな記録を樹立しました。
もう1つのハイライトは、膨大なテキストファイル分析能力です。GPT-5.2は数十万のキーワードを追跡し、重要な情報が数百ページのドキュメントに深く埋もれている場合でも、ほぼ絶対的な精度を維持します。モデルは、前世代と比較して幻覚現象も大幅に軽減します。
GPT-5.2の外部ツールの使用能力も大幅に向上しました。Tau2テストでは、モデルは、航空券の再予約、荷物の手配、ホテルの手配、または医療要件の処理など、多くのステップで顧客をサポートするシナリオの精度が98.1%に達しました。これは、古いモデルが途中で中断されることが多い状況です。
GPT-5.2は、数学の解き方、科学的推論、および技術的な画像理解においても優れています。大学院の科学的な質問では、モデルは92%以上の精度を達成し、多くの専門的な数学形式で記録を樹立しました。
研究者らは、モデルは統計理論で証拠を提案し、人々が検討できるようにすることもできると述べています。
GPT-5.2の発売は、非常に激しいAI競争の状況下で行われました。GoogleがGemini 3とAnthropicがClaude Opus 4を発売した後、OpenAIのCEOであるサム・アルトマンは、全社にモデルの品質向上に注力し、広告を含む追加の計画を一時停止するよう要求しました。
GPT-5.2により、OpenAIは企業AIの生産性基準を向上させ、より信頼性が高く、エラーが少なくなり、実際のより複雑なプロセスに役立つモデルを提供することを期待しています。