中国の AI スタートアップ DeepSeek は、大幅に低い計算コストで大量のドキュメントを処理できる新しいマルチモーダル AI モデルである DeepSeek-OCR を発表しました。
このモデルは、Nvidia A100 GPU を 1 つだけ使用して 1 日あたり最大 200,000 ページのトレーニング データを生成でき、AI 研究におけるパフォーマンスとリソースの最適化の進歩を実証します。
DeepSeek によると、DeepSeek-OCR は視覚認識を活用してテキストを圧縮し、大規模言語モデル (LLM) がメモリ制限なしで長いコンテキストを処理できるようにします。
通常の方法でテキストを読み取る代わりに、モデルはテキストを画像に変換し、ビジュアル エンコーダーを使用して元の情報の最大 97% を保持しながらデータを削減します。
その結果、処理する必要があるトークンの量は、従来の方法と比較して 7 ~ 20 分の 1 に削減されます。
このモデルは、画像分析と圧縮のための 3 億 8,000 万のパラメーターを備えた DeepEncoder と、30 億パラメーターのエキスパート言語モデル (MoE) に基づいて構築された 5 億 7,000 万のパラメーターのテキスト ジェネレーターの 2 つの部分で構成されています。
技術文書によると、DeepSeek-OCR は、中国語や英語を含む 100 以上の言語で作成された 3,000 万以上の PDF ページと、何百万もの複雑な図、化学式、幾何学を使用してトレーニングされました。
実験結果は、DeepSeek-OCR が既存の OCR モデルよりも優れたパフォーマンスを示すことを示しています。 OmniDocBench ベンチマークでは、モデルに必要なビジュアル トークンはページあたり約 100 のみで、GOT-OCR2.0 (256 トークン) や MinerU2.0 (1 ページあたり 6,000 トークン以上) よりも大幅に少ないです。
Fox ベンチマークでも、DeepSeek-OCR は高密度の PDF ドキュメントに焦点を当てて分析する優れた能力を示しています。
同社は、DeepSeek-OCR を使用して、LLM の最大の課題の 1 つである、リソースを無駄にすることなく長い形式のコンテキストを理解する能力を維持することを目指しています。
Hugging Face や GitHub などのオープン プラットフォームでソース コードとモデルの重みを公開することは、グローバル AI コミュニティにおける透明性とコラボレーションの促進に対する DeepSeek の取り組みを示しています。
DeepSeekが注目を集めたのはこれが初めてではない。以前は、DeepSeek-V3 および R1 モデルは、OpenAI の o1 などの高度なシステムに匹敵するパフォーマンスを、数分の一のコストで実現していました。
しかし、米国の一部の専門家は依然として同社の低コスト主張や開発プロセスに疑問を抱いている。
論争はあるものの、DeepSeek-OCR は AI 業界のコスト削減と効率向上の取り組みにおける重要な一歩を踏み出し、コンピュータ ビジョンと自然言語処理を組み合わせる新たな方向性を切り開きます。