Googleは、データプライバシーを保護し、トレーニングプロセスにおける漏洩のリスクを防ぐために特別に設計された新世代AIモデルであるVaultGemmaを発表しました。
これは、大規模言語モデル(LLM)が機密情報を保存および再作成する能力について継続的に疑問を呈している状況において、テクノロジー大手の次の試みです。
VaultGemmaは、異なるプライバシーメカニズム(Differential Privacy – DP)で最初から開発されており、モデルが元のトレーニングデータを記憶して再作成するのを防ぎます。
Googleによると、これはDPで訓練された最大のオープン言語モデルであり、10億のパラメータの規模を持ち、設計されたプライベートAIの構築における重要な進歩を示しています。
特に、VaultGemmaの重量は、Hugging FaceやKaggleなどのプラットフォームで無料でリリースされており、AIの研究開発コミュニティが活用、テストする機会が開かれています。
Googleは、DeepMindと緊密に協力して、トレーニングのための新しい拡張ルールを確立し、それによってプライバシー、パフォーマンス、計算コストの3つの要素のバランスを取ると述べています。
長年にわたり、専門家はLLMからのデータ漏洩の危険性を繰り返し警告してきました。
適切なリマインダーを送信することで、攻撃者はモデルに機密情報を開示させる可能性があります。
典型的な例は、ニューヨーク・タイムズとOpenAIの間の訴訟であり、そこで編集部はChatGPTが彼らのいくつかの記事の原文を再現したと非難しました。
通常のようにユーザーレベルでのプライバシー保護措置のみを適用する代わりに、グーグルは学習プロセス中に異なるプライバシー(DP)を統合しました。これは、パターンの記憶と元のデータの再作成を防ぐためにノイズ層を追加することによって行われます。
しかし、この解決策は、訓練プロセスがより不安定になり、ロットのサイズが増加し、計算コストが高くなるという課題ももたらします。
評価にもかかわらず、グーグルは、DP環境で大規模なロットを適用する際に、より小さく、しかしより効果的なモデルを訓練できるという重要な発見があると断言しました。
VaultGemmaにより、GoogleはAI業界に新たな基準を設定することを期待しています。強力であるだけでなく、プラットフォームからユーザーのプライバシーを安全かつ尊重しています。