Robust Reading Competition(RRC)は、スペインのアルカイダ・デ・バルセロナ大学(UAB)のコンピューター視覚センター(CVC)が主催する、コンピューター視覚分野で世界的に評判の高い研究施設です。
CMC ATI所長のダン・ミン・トゥアン博士は、「CMCチームの研究能力がRRCのようなグローバルな信頼できる舞台で確認されたことを非常に嬉しく思っています。短期間でチームが上位にランクインし、先進国からの大手企業の肩を並べることができることを誇りに思っています」と述べました。
CATI-VLMは、従来のOCR(光学式文字認識)とは異なり、文字を抽出するだけでなく、テキストの内容、非テキスト要素(ボックス、チェックボックス、グラフ、記号、公式)、レイアウト(ページ、表、フォーム)、スタイル(フォント、ハイライト部分)など、多くの層の情報も理解しています。
このモデルは、特定のフォームを事前に学習することなく、ChatGPTと同様に、画像やドキュメントで提起された直接的な質問に答えることができます。
RRCランキングでは、CATI-VLMはわずか30億のパラメータしか持っていないが、7つのデータセットのうち4つで最高の精度を達成している。この成果は、CMCエンジニアチームが無意味なパラメータを追求するのではなく、ベトナムの適切なインフラストラクチャでテクノロジーコアを習得し、効率的に運用することに焦点を当てていることを証明している。
CMCテクノロジーグループの取締役会長/CEOであるグエン・チュン・チン氏は、「この成果は、CMCテクノロジーグループの10年以上の粘り強いR&D投資からの甘い果実であり、ベトナムのテクノロジーを習得する戦略、AI変革、Go Globalの方向性に関連付けられています」と強調しました。
CATI-VLMは、C.OpenAIエコシステムに属する製品チェーンに応用されます。これには、CLS仮想アシスタント、法律文書のレビュー、CMC SmartDoc - ドキュメントデジタルトランスフォーメーションプラットフォーム、CMC KMS知識管理システム、スマートオフィス向け自動レポートシステム、および新世代のAgentic Documentsアプリケーションが含まれます。