Technology: Interaction data may allow identification of anonymized individuals over time
個人間の交流の記録を用いれば、長期間にわたって匿名化データセットから特定の個人を特定できることを示唆する論文が、Nature Communications に掲載される。今回の知見は、この種のデータの取り扱いに関する現在の実務が、欧州連合の一般データ保護規則に定める匿名化の基準を満たしていない可能性が高いことを示唆している。
個人間の交流に関する詳細なデータは、メッセージングアプリ、携帯電話キャリア、ソーシャルメディアプロバイダーやその他のアプリによって収集されて、それらのサービスの運営や研究目的に利用されている。こうしたデータはこれまでに、個人の交流パターンの研究、流行性疾患の空間的拡散の予測、友人関係が政治動員に及ぼす影響の研究に用いられてきた。現行のデータ保護規制では、個人間の交流のデータは匿名化されていれば、ユーザーの同意なしに共同使用でき、売却できることになっている。
今回、Yves-Alexandre de Montjoye、Ana-Maria Cretuたちは、個人間の交流データが長期間にわたって安定しており、匿名化データセットから特定の個人を識別するために使用できることを明らかにした。著者たちは、深層学習技術を用いたモデルを開発し、これを個人の交流のネットワークに基づいて個人を識別するように訓練して、異なる期間中に収集された合計4万人以上のデータセットに適用した。このモデルは、ホップ数2の交流ネットワーク(個人と対象者が2ホップ離れた交流のネットワーク)に基づいて、全体の52%の個人を識別できた。また、このモデルは、個人の直接接触者(ホップ数1)を用いることで、人々を15%の確率で識別できた。個人の交流は、長期間にわたって安定しているため、著書たちは、ホップ数2の交流ネットワークを使って20週間後に24%の人々を識別することができた。さらに、このモデルを587人からなるBluetooth近接データセットに適用すると、26%以上の確率で個人の識別ができた。ただし、著者たちは、このモデルを接触者追跡プロトコル(GoogleやAppleの接触通知など)に適用できるとは考えていないと述べている。
著書たちは、今回の研究結果によって、交流に関する匿名化され、関連付けられなくなったデータから特定の個人を長期にわたって識別できる可能性があることが示されており、プライバシー法令の遵守に重要な意味を持つと考えられると主張し、セキュリティ対策(アクセス制御システム、プライバシー強化システムなど)を使って、再識別化を防ぐことができるという考えを示している。
[英語の原文»]
「Nature 関連誌注目のハイライト」は、ネイチャー広報部門が報道関係者向けに作成したリリースを翻訳したものです。より正確かつ詳細な情報が必要な場合には、必ず原著論文をご覧ください。
※この記事は「Nature Japan 注目のハイライト」から転載しています。
転載元:「技術:個人間の交流のデータがあれば、長期にわたって匿名化データから特定の個人を識別できるかもしれない」