現地時間5月7日の発表によると、OpenAIのAPI(アプリケーションプログラミングインターフェース)に統合された新しいモデルにより、アプリケーション開発者は、ユーザーが話しているときに直接チャット、翻訳、会話を記録できます。これは、リアルタイム音声AI開発競争における重要な進歩と見なされています。
新しいモデルセットは、GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisperの3つの主要製品で構成されています。
その中で、GPT-Realtime-2はGPT-5レベルでの推論機能を統合しており、AIがより複雑な要件を処理し、ユーザーとのより自然な会話を維持するのに役立ちます。
OpenAIは、このモデルは会話の文脈を理解し、変更を要求したときに適応し、状況に応じて適切なフィードバックを提供することができると述べています。
2番目のモデルはGPTリアルタイム翻訳であり、直接音声翻訳に焦点を当てています。この技術は、70以上の入力言語と約13の出力言語をサポートしています。
注目すべき点は、システムが元の言葉とほぼ同時に翻訳でき、話者の自然な速度とリズムを維持できることです。
一方、GPT-Realtime-Whisperは、会話中に直接発言を録音できる新しいオンラインテキスト音声変換モデルです。
OpenAIは、音声AIは現在、人間とソフトウェア間の最も一般的な対話方法の1つであると考えています。
しかし、実際の音声製品の構築は依然として非常に複雑です。なぜなら、AIは聞き取り理解だけでなく、文脈を追跡し、適切なツールを使用し、適切なタイミングで応答する必要があるからです。
OpenAIは公式ブログで、「新しいモデルは、リアルタイムサウンドを単純なQ&A形式を超えて、会話中に直接聞き、推論し、翻訳し、メモを取り、実行できる音声インターフェースにするだろう」と述べています。
同社は、新しいテクノロジーが自動顧客サービスサービスを拡大したい企業を強力にサポートすることを期待しています。
さらに、リアルタイム音声AIは、教育、メディア、イベント企画、コンテンツクリエイティブプラットフォームなど、多くの分野でも応用できます。
インドのような多言語国家では、直接翻訳技術が特に役立つと考えられています。新しいモデルにより、複数の人が同じ会話で異なる言語を使用でき、同時にリアルタイムで翻訳を聞き、テキスト記録を直接追跡できます。
BolnaAI(インドの企業向け音声AIプラットフォームの開発を専門とするテクノロジー企業)の共同創設者兼最高技術責任者であるプラティック・サチャン氏は、GPT-Realtime-Translateのエラー率は、同社がヒンディー語、タミル語、テルグ語などの言語でテストした他の多くのモデルよりも12.5%低いと述べています。
サチャン氏によると、OpenAIの新技術は、特に複雑な音声および方言システムを持つ市場において、多言語音声AIの新しい基準を確立しています。