出品 | 新浪科技《科学大家》
撰文 | 朱廷劭 中国科学院心理研究所 研究员
2018年3月17日当地时间,美国纽约时报和英国观察者报(英国卫报的周日版)共同发布了深度报道,” The Cambridge Analytica Files”,称Facebook上超过5000万用户信息数据被一家名为Cambridge Analytica(剑桥分析)的公司不当获取,用于在2016年美国总统大选中对目标受众进行精准信息投放,可能影响到大选结果。这篇报道在世界范围内引发了轩然大波,并不断发酵至今,也引起人们对社交网络数据隐私保护的热切关注。
事情起因于剑桥大学的心理学讲师Aleksandr Kogan通过一款用于科研的Facebook应用(thisisyourdigitallife)收集了约27万用户的数据记录,并通过好友关系抓取了共5000万名Facebook用户数据。Facebook宣称Kogan后来将这些数据转手卖给了第三方,其中就包括剑桥分析公司。剑桥分析通过对Facebook数据挖掘获取选民的心理特点,进而有针对性地为特朗普投放竞选广告,由此辅助特朗普赢得2016美国大选,从而名声大噪。事件曝光后在媒体和网络上持续发酵,报道中遭到个人数据泄露的用户数量在不断放大,甚至有媒体宣称挖到了“通俄”线索,Facebook股价也随之大跌,一时众说纷纭,好不热闹。
在热闹与震惊背后,这一事件触及了在以社交网络为代表的大数据时代,用户数据应该被如何使用的一些关键问题。这些问题在近年来社交网络心理学研究中被不断提及,在学术界也已有若干讨论与共识。巧合的是,这次事件的起源恰恰有可能与对科研伦理的违背有关。下面我们来逐一分析。
网络上没有留下个人关键信息,隐私还可能泄露吗?
随着网络的普及,人们对于网络信息的安全性愈加关注,不会轻易把个人的关键信息放在网上。但纵然如此,隐私真的就万无一失了吗?2006年6月,Pass等人在香港举办的一个国际会议上发表了”A Picture of Search”的论文,并将文中使用的美国在线2006年3月1号到5月31号的搜索日志公开,包括1900万次搜索、1080多万搜索词以及65万余匿名化处理后的用户ID。虽然这些数据中已经将用户信息删除,但是有的搜索本身就含有个人隐私性质。一些搜索记录可能与特定的人能够相联系,纵然用户ID已经被匿名化处理,但是从某个用户ID所做的一系列搜索,仍然有可能找到这个用户的真实身份。纽约时报记者根据搜索数据轻易地找到一位62岁的老太太,这个老太太证实那些列出的搜索关键词确实是她的。事后,这个研究小组被解散,并最终导致AOL首席技术官引咎辞职。个人隐私的泄露除了自己主动放到网上被他人不当获取之外,通过对网络留痕的分析,也可以对一些比较隐私的个人关键信息(如年龄性别等)进行有效推断。
人们在社交网络上的一举一动,都是性格特点与内心状态等心理特征的某种反映。个人往往不需要在社交网络上直接写下“我是××性格的人”,只要对社交网络的日常使用积累到一定数量,科学家就能够运用人工智能技术,通过其在社交网络上日常展示的信息自动计算出心理特征,目前在Facebook/Twitter以及微博上相关研究也证实了这种个人心理特征自动获取的可行性。如果我们在社交网络上展示的内容足够丰富,对我们心理特征的计算可以做到很准确,甚至能超过家人对我们的了解程度。这些心理特征可能对许多应用有重要的指导作用,比如可以根据用户的心理特征来推荐他感兴趣的内容,带来更佳的用户体验;又比如可以根据这些心理特征有针对性地投放广告,提高宣传的效果,而这正是Cambridge Analytica公司据称在英国脱欧和美国大选中所做的事情。
运用类似的方法,通过社交网络行为数据还有可能识别出个体的性取向、政治倾向、价值观等通常意义上更“敏感”的个人信息。而在其他一些只反映某种特定行为的数据集上,如利用匿名之后的信用卡刷卡的地点记录,用户的身份更是很容易被定位。因此,只隐去传统意义上的个人关键信息,在人工智能和大数据的配合下,可能我们的隐私反而会以一种更深刻的形式泄露出去。