通博tb娱乐

为保护隐私不在网上透露真名?想找到你,只要3个匿名数据就够了

22: 00

源: Shell网络

您是否在互联网上透露您的真实姓名以保护您的隐私?想找到你,只要3个匿名数据就够了

今天,随着大数据,云计算和人工智能技术的快速发展,数据科学技术在科研,医疗,商业,管理等各个领域发挥了重要作用,为我们带来了便利,提高效率和改善生活质量。然而,这些技术的存在和发展依赖于大规模,详细的个人数据,收集和共享此类数据的过程引发了对个人隐私泄露的担忧。

3fe8155bfdd14d85a70778e84ee055da.jpeg

技术的存在和发展取决于大规模的详细个人数据|通用数据保护法规(GDPR),美国《加州消费者隐私法案》(加利福尼亚州消费者隐私法案,CCPA)等要求在使用,共享和传播数据之前对数据进行匿名处理或仅公开完整数据。一小部分样本。

但这种治疗后足够安全吗?

州长的隐私也正在人性化

早在1997年,当时马萨诸塞州州长威廉韦尔德向公众保证,马萨诸塞州保险委员会(GIC)向研究人员披露的医疗数据已被完全删除。可识别的信息可以有效地保护公民的隐私。

然而,仍然是研究生的Latania Sweeney使用了一些简单的已知信息(州长的生日,性别,居住地的邮政编码等)来检查州长自己的公共GIC数据中的个人数据。医疗记录甚至打印出来并送到州长办公室。这是一个积极的面孔。

6312792723854f1c9bb0adeb17eaadc3.jpeg

威廉韦尔德(左)| flickr.com

有些人可能会说这只是对个人的故意攻击,并不能代表整个数据库。但最近发表在《自然·通讯》上的一项研究表明,我们今天使用的匿名数据共享方法不够安全。

让我们用AI分析它

来自英国伦敦帝国理工学院计算机科学与数据科学系的Yves-Alexandre de Montjoye及其同事使用在线公开数据库 - 包括年度人口普查数据和机器学习数据库的UCI调查表数据等 - 训练有素的机器学习模型(即我们通常所说的AI程序)。

记录整个数据集的“唯一性”并估计整个数据集的总体“唯一性”。

c04d3a158f1942c794e962116c09f3c8.jpeg

地图|照片

让AI做出判断。结果,AI给出的识别概率在各种情况下都非常准确。在识别概率阈值超过95%的情况下,错误识别率仅为5.26%,基本上一个是准确的。这些碎片(这三个数据由Sweeney使用),他们真的遇到了熟悉的Welde州长。

根据AI的判断,William Weld的识别率为58%,准确率为77%。也就是说,根据三点数据,确定了Veror州长的医疗数据,正确概率为77%。此外,如果将数据“有5个孩子”添加到数据中,识别准确率将达到99.8%。

这是什么意思?

这意味着只需要几个简单的属性来重新识别具有高可信度的匿名数据库的身份。例如,上述州长的例子,仅使用出生日期,性别,居住地和子女数量四个属性,可以确定马萨诸塞州79.4%的人口,可信度超过80%;如果增加到15人,统计属性可以有效地识别该州99.98%的人口。

0bfef3576ded4d79b4bb5cea64db8188.jpeg

地图|照片

预测和识别的目的仍然非常准确,平均绝对误差(MAE)小于0.05。也就是说,即使仅发布总量中的少量数据,攻击者也容易识别该信息。

针对这些新技术和新威胁,研究人员认为,目前国际匿名化处理标准还有待进一步完善,包括欧盟在内的各个国家和地区的信息安全机构应进一步完善隐私保护体系,落实安全措施。为了确保数据的可用性,还要保护人们的隐私。

参考

1.使用生成模型估算不完整数据集中重新识别的成功率,NATURE COMMUNICATIONS,

2.州长William Weld医疗信息的“重新识别”:严重重新检查健康数据识别风险和隐私保护,当时和现在,Daniel C. Barth-Jones。

作者:欧洲剃须

八云

AI

AI版人肉搜索? SSFD

如有需要,请与我们联系

(欢迎来到朋友圈)

概括地说

在大数据,明星或普通人的时代,似乎每个人都遭受隐私泄露。你有什么小技巧来保护你的隐私?快来与社区分享

仅提供信息存储空间服务。

威廉韦尔德

总督

数据

隐私

数据库

阅读()