对抗大数据隐私保护技术解密

2017-12-04 22:11技术宅
电脑爱好者 2017年21期
关键词:输入法服务商差分

技术宅

大数据时代 你的隐私是这样泄露的

大家知道现在很多网站会收集用户数据,比如会通过用户的搜索关键字、购物习惯、经常访问网站等来收集数据,然后结合这些大数据为用户提供更为个性化的服务。比如淘宝,它会根据用户购买和访问店铺的记录,这样用户再次登录淘宝的时候,它就会为用户提供精准推荐购买服务(图1)。

当然不仅仅是淘宝,类似百度、网易邮箱、优酷等这些大型服务商也在进行类似数据的收集,不过这些网站收集的数据可能会泄露我们的隐私。如很多研究报告,经常会将一些搜索数据作为分析数据,在引用数据的时候会将某用户的搜索关键字如搜索地点、名称等罗列出来。这样虽然在研究文章里不会列出搜索用户的实际名字,但是“有心人”结合这些公开的内容就可能找到实际的搜索用户,带来隐私泄露的问题。

非请勿看 服务商怎么保护我们的隐私

如上所述,随着大数据技术的发展,我们在平常享受各种网络服务的同时会无意泄露自己的隐私,那么作为常见的网络服务商是怎么保护我们的隐私?

首先需要了解什么叫隐私。因为现在很多网站都会主动收集用户信息,比如网易在隐私保护申明中就明确告诉用户,网站会收集身份证、姓名、用户来源途径、访问顺序等信息(图2)。

在这些信息中,一些公共属性的如上述用户来源途径、访问顺序等并不属于个人隐私,但是其中身份证、用户姓名等私人属性的信息则属于个人隐私。因此网站在需要将收集的信息向大众公布或者查询的时候,就需要对个人隐私信息进行保护。目前主流的保护手段有k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness和Differential Privacy(差分隐私)等。

这里我们以苹果“Differential Privacy”(差分隐私技术)为例。大家知道全球苹果用户众多,苹果公司也通过不断收集用户使用习惯、输入法、位置等信息来了解用户的需求,并通过用户反馈来改进自己的产品。那么苹果如何保证在大规模收集用户信息的前提下又不会泄露用户隐私?其中的差分隐私保护就起到很好的保护作用。

差分隐私保护用算法加扰个人用户数据,比如在数据中引入噪声,通过对源数据进行干扰,使得研究者无法通过收集到或者公开的信息回溯到具体的个体。但是研究者可以对数据进行批量分析,得出大规模的趋势规律。这样通过差分隐私保护技术,既可以很好地保护用户身份信息,同时可以提取机器学习所需的通用信息(图3)。

举个简单的例子,在iPhone上使用QuickType输入法的用户都会发现,在我们输入一些之前从未用过的网络热词时,如键入“lanshouxiangg”,输入法会自动预测用户需要输入的可能是“蓝瘦香菇”,并将其排在首选位置以方便用户输入,无论你之前是否输入过该词(图4)。

这个功能其实就是差分隐私技术在输入法上的一个典型应用,当我们在iPhone上进行输入的时候,苹果服务器都会对用户的输入数据进行抓取,但是抓取的并不是某个用户详尽的输入信息。比如iOS系统监测到北京的张三在iPhone 7短信中输入“蓝瘦香菇”一词,iOS并不会将北京、张三、iPhone 7这些信息传输到服务器,而仅仅是将用户输入频率较高的信息词反馈到服务器,同时在传输信息时使用哈希加密,并在传输的信息中添加干扰噪音。这样服务器可以根据大多数用户的输入习惯知道“蓝瘦香菇”为当前热词,并将其推送到iPhone用户输入法屏幕上,但是服务器并不知道具体是哪个用户输入这些热词,可能是北京的张三,也可能是湖北的李四,甚至是你隔壁老王输入的。苹果需要的是某个用户群体信息,而不是单个用户具体信息(图5)。

隐私保护 不仅仅靠网站

现在隐私的泄露已经越来越严重,每个人都希望在享受各种服务的同时不会泄露自己的隐私。从上面的介绍可以看到,为了保护用户的隐私,各大网络服务商也提供了很多的技术保护手段。不过隐私保护也不是仅靠网站,要做好隐私保护还需要加强自己的意识。

比如在实际网络活动中,即使用户没有主动泄露过自己的隐私,但是可能通过无意泄露的照片(比如照片显示自己小区的标志建筑、位置)、微博用户、朋友圈等信息泄露自己的隐私,比如网上就流传网友通过两张照片找到某明星的实际住址的新闻(图6)。因此,在网站提供各种保护技巧的前提下,我们自己也需要主动加强隐私保护意识,只有这样才能更好地保护自己的隐私不被泄露!

猜你喜欢
输入法服务商差分
航天卫星领域专业服务商
要命的输入法
论IaaS云服务商的著作权侵权责任
数列与差分
百度被诉侵犯商标权和不正当竞争
基于差分隐私的大数据隐私保护
期刊展示宣传服务商
2014中国金服务·十大杰出服务商
相对差分单项测距△DOR
你最想要的输入法—QQ输入法