Googleは、本物の人間のようにウェブインターフェースと直接対話するように設計された新しいAIモデルであるGemini 2.5 Computer Useを発表しました。
Gemini 2.5 Proプラットフォームでサポートされているこのテクノロジーは、ブラウザをナビゲートしたり、フォームを入力したり、ページをスクロールしたり、クリックしたり、データを入力したり、キーボードの組み合わせを使用したりできます。これらはすべて、Googleが独自に開発した仮想ブラウザを通じて行われます。
ブログの公式投稿によると、Gemini 2.5 Computer Useは、Google AI StudioとVertex AIを通じて開発者に提供されました。
モデルの目的は、AIが、アカウント登録、データ整理、ソフトウェアテストなど、自然言語による指示に基づいて、インターネット上で複雑な実用的なタスクを実行できるようにすることです。
Googleは、このモデルは、ウェブとモバイルデバイスに関する多くの標準テストで、競合他社よりも遅延が少なく、パフォーマンスが優れていると述べています。
イラストビデオでは、Gemini 2.5 Computer Useは、AIがウェブサイトにアクセスしたり、コンテンツを読んだり、ユーザーが要求に応じて情報を整理したりするなど、柔軟な処理能力を示しています。たとえば、メモをウェブアプリケーションの正しい場所にドラッグできます。
Googleは、これらのタスクは以前よりも3倍高速化されており、自動インターフェースナビゲーション技術の進歩を証明していると述べています。
現在、Gemini 2.5 Computer Useは、主にブラウザレベルでのみ13種類のアクションをサポートしており、デスクトップコンピュータオペレーティングシステムレベルでは直接操作できません。
それにもかかわらず、Googleは、内部技術チームがユーザーインターフェース(UI)のテストにこのモデルを適用し、ソフトウェア開発の時間を大幅に短縮したと断言しています。
この新技術は、Google検索のAIモード、Firebaseのテストオブジェクト、Marinerプロジェクト(ユーザーが自然言語でコミュニケーションをとるのを支援するAIプラットフォーム)など、いくつかの製品および内部プロジェクトにも統合されており、オブジェクトを指定して、計画、研究、データ入力などの作業を自動的に実行します。
Gemini 2.5 Computer Useにより、GoogleはAIを真のデジタルユーザーに変える上でさらなる一歩を踏み出しており、Web上で直接操作、応答、情報を処理できるため、オンラインタスクが人工知能によって完全に自動化される未来が開かれています。