人工知能(AI)によって生み出される「幻覚」に対する懸念は、世界で最も権威のある科学会議でさえ、偽の引用が出現し始めたため、学術界でますます顕著になっています。
米国のAI発見スタートアップ企業GPTZeroの新しいレポートによると、神経情報処理システム会議(略称NeurIPS)で承認された51以上の研究論文が、AIによって作成された偽の引用を含むことが判明しました。合計で、これらの論文の中で100以上の「存在しない」引用が見つかりました。
NeurIPSは、人工知能と機械学習(AI/ML)の分野で最大かつ最も影響力のある年次会議の1つです。
GPTZeroは、昨年12月にカリフォルニア州サンディエゴ(米国)で開催されたNeurIPS 2025で、4,841件の承認された研究論文をスキャンし、偽の引用と生み出されたAIのコンテンツの両方を検出したと述べています。
4,841件の論文のうち51件の割合は大きな統計的意味合いを持っていませんが、大規模言語モデル(LLM)の使用に関するNeurIPSのポリシーによると、偽の引用が1つ現れるだけで、論文を拒否または回収する根拠になる可能性があります。
「これらの論文は承認され、直接プレゼンテーションされ、正式に出版されました。NeurIPS 2025の承認率が24.52%に過ぎない状況では、各論文は15,000以上の他の原稿を上回りましたが、それでも1つまたは複数の誤った錯覚が含まれています」と、GPTZeroは述べています。
この発見は、NeurIPSが人工知能の世界有数の専門家が集まる場所であるため、特に懸念を引き起こしています。厳格に審査された論文が依然として偽の引用に見舞われていることは、AI研究者でさえ、使用するツールの精度を制御するのに苦労していることを示しています。
NeurIPSは例外的なケースではありません。昨年12月、GPTZeroはICLR 2026会議で検討されている研究論文で50以上の仮想引用を発見しました。
さらに、arXivのようなオンライン原稿アーカイブには、AIによって作成または強力にサポートされている低品質のプロジェクトがますます多く登場しています。
米国のThe Atlantic誌で引用された分析によると、大規模な言語モデルに基づくツールを使用している科学者は、これらのツールを使用していない人よりも約33%多く論文を掲載しています。
偽の引用を検出するために、GPTZeroは、オンラインで見つけられない引用源を精査することを専門とする独自のAIツール「ハルミネーションチェック」を使用しています。
旗印が付けられた引用は、その後、人間によって手動でチェックされ、会社によって「感情的な引用」と呼ばれています。これらは合理的に見える引用ですが、まったく存在しません。
GPTZeroは、引用エラーを早期に検出するために、このツールを著者、編集者、会議議長に提供し、それによってAI生みの時代における学術的評価プロセスをより迅速かつ正確にするのに役立ったと述べています。