Wikimedia Deutschlandは、Wikidata Embeddingプロジェクトを発表しました。これは、AIモデルがウィキペディアの豊富な知識ライブラリにアクセスして理解するのに役立つ新しいデータベースです。
システムは、文字の意味と関係をコンピュータが認識するのに役立つ技術であるベクターに基づいて意味検索を適用し、ウィキペディアおよび関連プラットフォームで約1億2000万件の入力項目を提供します。
プロジェクトは、AIシステムがデータソースと直接通信するのに役立つ標準である、モデリングコンテキストプロトコル(MCP)も統合しています。
そのおかげで、大規模言語モデル(LLM)は自然言語でリクエストを実行でき、ウィキペディアからの正確な情報を収集および使用する能力を高めることができます。
このプロジェクトは、Wikimedia Deutschlandによって実施され、IBMが所有するリアルタイムトレーニングデータ会社であるJina.AIとDataStaxと協力しています。
以前は、Wikidataはキーワード検索とSPARQLクエリのみをサポートしていましたが、AIの活用能力を制限していました。
新しいシステムは、アクセスを強化するデータ生成モデル(RAG)で良好に動作し、AIが外部情報を収集し、ウィキペディアの編集者が検証したデータに基づいて知識を構築するのに役立ちます。
データは、文脈と意味を提供するために構造化されています。たとえば、「科学者」というキーワードからの問い合わせは、有名な原子力科学者、ベルラボで働いていた研究者のリスト、複数の言語への翻訳、ライセンス画像、および「学者」や「研究者」などの関連概念を返します。
このデータベースはToolforgeで公開アクセスでき、Wikidataは10月9日に開発者向けのオンラインセミナーを開催します。
このプロジェクトは、AI開発者がモデルを微調整するための高品質のデータソースを探している状況で誕生しました。
AIトレーニングシステムの複雑さの増大に伴い、特にウィキペディアがCommon Crawlのようなビッグデータファイルよりも正確な情報を提供しているため、信頼できるデータの必要性はますます緊急になっています。
WikidataのAIプロジェクトマネージャーであるフィリップ・サディ氏は、プロジェクトの独立性と協力性を強調しました。「強力なAIは、必ずしも小さな企業グループによって制御される必要はありません。それはオープンで、協力的で、すべての人に役立ちます。」