マイクロソフトは、最初のコンパクトなAIオブジェクトモデルであるFara-7Bを発表しました。これにより、スクリーンショットを介して人間のようなコンピューターを使用できます。
大規模なクラウドインフラに依存する複雑なアジェンダシステムとは異なり、Fara-7Bはデバイス上で直接実行するように設計されており、遅延を減らし、プライバシーを高め、まったく新しいPCインタラクションの方法を開きます。
Fara-7Bは、マイクロソフトが昨年から追求している小型言語モデル(SLM)グループに属し、Windows 11に統合されたPhiシリーズに続く。
ただし、Fara 7Bは、コンピューター使用アシスタント(CUA)として構築された場合、コンピューターインターフェースを理解し、画面画像を分析し、クリック、テキスト入力、ウェブナビゲーションなどの実際のアクションを実行できるモデルであるため、より重要な進歩です。
そのおかげで、ユーザーは手動で介入することなく、モデルに一般的なタスクを多数処理させることができます。
Fara-7Bの特別な点は、シンプルさです。現在のCUAモデルの大部分は、画面分析のためだけに、大規模なクラウドサーバー、多くの子システム、そして膨大な計算パワーが必要です。
マイクロソフトによると、Fara-7Bは単一のモデルであり、補助モデルや複雑なパイプラインに依存していませんが、それでも大規模なAIオブジェクトと同等のパフォーマンスを達成しています。
7億のパラメータを持つこのモデルは、個人用PCですぐに実行でき、ユーザーのデータをクラウドに送信する必要がないことを保証します。
Fara-7Bをトレーニングするために、マイクロソフトはFariaGen総合データシステムを構築しました。そこでは、AIオブジェクトが70 000以上の実際のドメイン名で人間の行動をシミュレートします。
各作業セッションには、再テスト、スクロール、検索、エラー処理などの多くのステップが含まれており、3つの独立したAIモデルによって評価され、合理性が保証されています。
フィルタリングの後、モデルを訓練するために150 000回以上のセッションと100万回以上のアクションが保持されました。
実際のパフォーマンスによると、Fara-7Bは1つのタスクあたり約124 000トランザクションと1 100トランザクションを消費します。
モデルの基準点も印象的で、Web Voyagerでは73,5%、OnlineMind 2 Webでは34.1%、DeepShopでは22%、WebTailBenchでは38.4%が、仕事探しや不動産検索などの実用的なタスクに焦点を当てています。
Fara-7Bは現在、MITライセンスの下でMicrosoft FoundryおよびHugging Faceで利用可能です。Microsoftは、Windows 11を実行するPC Copilot+の最適化版を同時にリリースし、コミュニティが直接テストできるようにします。
開放性と局所走行機能により、Fara-7Bは、日常業務を自動化するAIオブジェクト開発の波を促進するプラットフォームになることが期待されています。