インドは独自の言語モデル (LLM) の開発に取り組んでいますが、OpenAI は、言語処理能力だけでなく、インド独自の文化的ニュアンスを捉える能力もテストするように設計された評価システムである IndQA ベンチマーク スイートを発表しました。
IndQA は、12 の言語と 10 の異なる文化領域にわたる 2,278 の質問で構成されており、インド全土の 261 人の専門家と協力して編集されています。
トピックは芸術、文化、歴史、宗教、料理からメディア、スポーツ、日常生活にまで及び、ヒンディー語、タミル語、ベンガル語、マラーティー語、テルグ語、さらにはこの国での典型的なコミュニケーション形式である英語とヒンディー語のハイブリッドなどの一般的な言語も含まれます。
OpenAIによると、IndQAの目標はランキングを作成することではなく、AIモデルの長期的な改善を測定し、研究チームが文化的背景を捉える各モデルの能力をよりよく理解できるようにすることだという。
採点システムは専門家によって設定された基準に基づいており、各回答の完全性と適切性を反映する尺度が付いています。
特に、IndQA の質問は慎重に選択されており、GPT-4o、o3、GPT-4.5 などの OpenAI の高度なモデルがまだ十分に回答していない質問のみが保持されています。
OpenAI によると、これにより、将来のモデルのための開発スペースが確保されると同時に、テストが簡単になりすぎることも避けられます。
構築プロセス中、IndQA 編集チームにはジャーナリスト、学者、芸術家、詩人、チェスの名人も含まれており、インドの文化的多様性と知識の深さを反映しています。各問題には英訳と模範解答が付いており、評価の標準化に役立ちます。
この取り組みは、インドが ChatGPT にとって米国に次ぐ 2 番目に大きな市場になりつつあるという状況の中で生まれました。
OpenAI はまた、バンガロールでの DevDay Exchange などのイベントや、早期登録したユーザーに 1 年間無料の ChatGPT Go パッケージを配布するプログラムなど、人口 10 億人を超えるこの国での存在感を高めています。
しかし、専門家らは、IndQA はネイティブ AI 標準を構築する旅の最初のステップにすぎないと述べています。
SarvamやShunya Labsのような多くのインドの新興企業は、世界標準が英語に偏っており、インドの言語モデルが競争することを困難にしていると不満を述べている。
最近、Shunya Labs は、同社の Pingala 音声モデルのエラー率はわずか 3.1% であり、Nvidia の 5.6% よりも優れているものの、評価プロセスの透明性の欠如により依然として上位にランクされなかったと発表しました。
したがって、IndQA は、インドの言語モデルに対してより公平な競争の場を作り、この南アジアの国独自のアイデンティティと基準を備えた AI エコシステムの形成への道を開く重要な取り組みとみなされています。