大数据有大风险

2017-04-20厄尔尼斯特·戴维斯

南风窗 2017年5期

厄尔尼斯特·戴维斯

过去十五年来，我们亲眼目睹了从互联网、社交媒体、科学设备、智能手機、监控摄像头和其他多种来源搜集的数字数据量、以及处理这些数据的相关电脑技术呈爆炸性增长。众所周知，大数据无疑将带来重要的科学、技术和医疗成果。但如果被误用或滥用，大数据也是非常危险的。

互联网搜索引擎、机器翻译和图像标签等重要创新技术已经依赖于将机器学习技术应用于大数据。而且，在不久的将来，大数据可以大大改善政府决策、社会福利计划和奖学金项目。

但拥有更多数据替代不了拥有高质量的数据。例如，自然杂志最近发表的一篇文章报道，美国大选调查员正头疼怎样获得有代表性的人口数据样本，因为美国法律规定调查员只能拨打固定电话，而美国民众对移动电话的使用却越来越多。虽然你可以在社交媒体上找到无数的政治观点，但却无法确定这些观点在选民中是否具有代表性。事实上，推特和Facebook上与政治有关的发帖很多由计算机自动生成。

近年来，以偏差数据集为基础的自动程序造成了很多丑闻。举例而言，去年6月，当一名大学生以“不符合职业标准的工作发型”为关键词搜索谷歌图片，结果显示的图片绝大多数是黑人；当这位学生把第一个关键词换成“符合职业标准”，谷歌返回的搜索结果却大多是白人。但这不应归咎于谷歌程序员带有偏见；相反，它是民众对网上图片标签的反映。

那些采用上述搜索结果来评估招聘和晋升决策的大数据程序，则很可能不利于那些发型与“不符合职业标准的工作发型”相似的黑人候选人，进而延续传统的社会偏见。而这绝不仅仅是一种假设的可能性。去年，ProPublica 的一项“累犯风险模型”调查显示，一种被广泛采用的对已定罪的犯人量刑的方法，实际上系统性地高估了黑人被告未来的犯罪风险，并同时对白人被告未来的犯罪风险有所低估。

大数据的另一种风险是它可以被操纵。如果人们知道利用大数据来做出将影响他们生活的重要决策，他们有动机让天平向己方倾斜。举例来讲，如果以学生的考试成绩作为教师的评判标准，教师或许更有可能“为考而教”，甚至作弊。

同样，想要提升所在院校在美国新闻和世界报道排名的大学管理人员已经做出了不明智的决定，比方说以牺牲学术为代价投资建设奢侈的体育场馆。更糟的是，他们做出了一些奇怪的不道德的决定，比如通过在开学前几周找到并开除成绩较差的学生来提高圣玛丽大学的“留校率”。

就连谷歌的搜索引擎也不能免疫。尽管由世界顶级数据学家监控的海量数据驱动，其结果仍有可能受到“搜索引擎优化”和操纵，“谷歌轰炸”、“垃圾邮件索引”和其它服务于某些狭隘利益的方法就是实例。

第三种风险是侵犯隐私，因为现在提供的大量数据均包含个人信息。近年来，有人从商业和政府网站窃取了大量机密数据。研究人员已经表明，可以以何种方式准确搜集在看似无害的在线帖子（如影评）中所流露出来的人们的政治观念甚或性偏好—即使发帖采用匿名的方式。

最后，大数据对问责制提出了挑战。如果有人感觉自己遭受了算法的不公平对待，往往没有办法对其提出上诉，这或者因为具体结果无法解释，或者因为算法的编写者拒绝提供算法的细节。虽然政府或企业可以通过强调算法的数学性或科学性来威胁任何反对者，他们自己的行为也常常令他们始料未及。欧盟最近通过了一项措施确保被算法影响的民众拥有“解释权”；但只有时间才能告诉我们这种方法的实际效果。

如果被大数据损害的民众没有追索途径，那么就像数据学家凯蒂·奥尼尔在其最新著作《数学武器毁灭》中所展示的那样，将有可能带来影响深远的有害结果。

好消息是大数据的危害性可以在很大程度上避免。但除非我们积极保护民众隐私、发现并纠正不公平做法、谨慎利用算法并保持对算法内部工作原理和决策数据的严格理解，否则就无法达到这样的目的。