科学家像你一样对大数据引发的道德问题充满困惑
2016-10-10张莎拉SarahZhang
张莎拉(Sarah Zhang)
滕智红/译
科学家像你一样对大数据引发的道德问题充满困惑
张莎拉(Sarah Zhang)
滕智红/译
伯恩哈特·朗恩(Bernhard Lang)
2016年5月中旬,当一位研究人员恶作剧地公布了约会网站(OkCupid)7万份包括用户名和性取向在内的个人档案时,人们很愤怒。当脸谱网(Facebook)研究人员把2014年发表在信息流上的情绪感染研究编成故事时,人们真的愤怒了。于是,约会网站整理版权归属问题撤下了这些资料;出版脸谱网研究的期刊发表了一篇《提请注意》(expression of concern)的文章。愤怒成为构筑道德界限的一种方式。我们从错误中吸取教训。
但是令人吃惊的是,爆料出上述两种大数据的研究人员从未料到公众会愤怒(约会网站的研究似乎没有经过任何形式的道德审查流程,而脸谱网的实验得到了康奈尔道德审查委员会的同意)。这表明了这一新的研究领域未经道德审查的情况有多严重。与经过几十年临床试验形成的医学研究不同,分析庞大的、半公开的数据库的风险-回报问题才刚刚开始。
而负责监管这些风险的审查委员会是东拼西凑、蜗牛慢爬似地进入了 21世纪。根据美国普遍法则(the Common Rule),由联邦基金资助的研究必须经过道德审查。而审查系统并不统一,每一所大学都有自己的机构审查委员会,即IRB (institutional review board)。审查委员会成员大多是大学研究人员,最普遍的是生物医学专业。几乎没有职业道德家。
电脑学家或安全专家就更少了,而在这类新颖研究中,为保护参与者的利益,这些专家是不可或缺的。未来隐私论坛的政策顾问凯尔西·芬奇(Kelsey Finch)说:“机构审查委员会所做的决策可能会因委员会成员、大学和成员当天的心情不同而不同。”美国有成千上万个类似的道德审查委员会——它们在数字化时代大多要依靠自己来把握研究的道德问题。
医学的起源
普通法则和道德审查委员会制度也是愤怒的产物——当然它们犯过的错误更严重。在20世纪70年代,公众最终得知,在美国政府所做的时间跨度为几十年的亚拉巴马州的塔斯基吉实验中,医生对那些身患梅毒的非裔美国佃农不予治疗,为的是研究疾病的发展状况。争论结果是美国卫生及公共服务部(the United States Department of Health and Human Services)以人类为研究对象的课题研究新法规得以建立,并被推广到所有联邦机构。现在,任何获得联邦基金资助的机构必须成立道德审查委员会来监督涉及人类的研究,无论是新的流感疫苗还是土耳其地毯销售商的人种学。
乔治梅森大学(George Mason University)历史学家、关于社会科学道德审查委员会一书的作者扎卡里·施拉格(Zachary Schrag)说:“医疗机构的实验研究构架得到了相当大的发展。”但不是所有的人类研究本质上都是医学的,很多社会学家就感到审查过程不适用于自己的研究,因为社会研究往往比生与死的风险要微妙得多。
某些道德审查委员会的要求对社会科学而言显得很荒谬。例如,知情同意书上经常有“选择参与是……”的话来减少病人可能因拒绝参与将意味着放弃医学治疗产生的恐惧。但如果是志愿者填写关于应试习惯的调查表,那么很显然,对于同样的问询,人们唯一的回答是“不参与”。
社会学家一时间强烈抗议道德审查委员会不公正。美国大学教授协会建议增加道德审查委员会中社会学家的人数或者成立只评估社会科学研究的独立委员会。2013年,该协会甚至提交了一份报告,建议对于自己风险极小的工作,研究人员应当自行决定是否需要征得道德审查委员会的同意。这样做还能为道德审查委员会腾出更多的时间致力于生死攸关的生物医学研究。
新的风险
这不是说社会科学研究整体上——特别是社会科学大数据研究——没有风险。有了新科技以后,从来不怎么起作用的系统所起的作用更小了。
威斯康辛大学斯托特分校(the University of Wisconsin-Stout)的道德学家伊丽莎白·布坎南(Elizabeth Buchanan)认为,基于网络的研究进入了第三阶段,产生了新的道德问题。第一阶段开始于20世纪90年代的网络调查,第二阶段是社交媒体网站带来的数据。现在处于第三阶段,研究人员能购买推特(Twitter)几年前的数据,并把它合并到其他公开的数据中。她说:“就是在相互融合中我们发现了道德和隐私的冲突。”
布坎南最近在一家道德审查委员会那里,审查一项建议把社交媒体提到毒品的街道名称合并到公众可查询的犯罪信息中的提议。从技术上来说,所有这些信息在某种程度上都是公开的——即使有些推文曾被删除了或者封锁在个人日志里。但把信息合并起来的行为意味着通过例行研究能够识别犯罪背后的人。道德审查委员会最终同意了该项目。布坎南说,在这些案例中,你必须权衡社会研究价值与风险的关系,并首先通过剥离公开发布的潜在标识符的数据,使风险最小化。
随着科技发生变化,对参与者来说,风险很难预测。2013年,美国麻省理工学院(MIT)的研究人员发现,根据最初一批研究人员自己发表在网上的参与者信息,就能把姓名和公开提供的DNA序列匹配起来。指出这一点的是遗传学家吗?他曾经是位电脑安全专家。“我认为委员会成员中有统计专家、电脑专家或网络技术安全专家真的非常重要,”布坎南说,“现实的确如此。我们要考虑的不仅仅是有人对调查中提出的问题感到沮丧。”
也许其他机构,如要求研究人员分享数据的公共的科学资源库,应当收拾道德问题的烂摊子。西奈山(Mount Sinai)的生物伦理学家米歇尔·梅尔(Michelle Meyer)在一封邮件中说:“需要有人监管,但最佳的监管主体不可能是在分离识别和重新鉴定技术方面通常缺少项目专业知识的道德审查委员会。”
即使在熟悉大数据威力的网络研究者中,态度也不一而同。马里兰大学(Michelle Meyer)的信息技术研究员凯蒂·希尔顿(Katie Shilton)采访了20名在线数据研究人员后发现,对待像忽视服务条款和取得知情同意书方面的道德问题,受访者的“分歧相当大”。令人奇怪的是,研究人员还说,道德审查委员会从来不质疑自己工作存在道德问题——但审查人员和同僚们质疑过。网络研究者协会和互联网数据分析应用中心等各种团体发布了指导方针,而那些真正有权力的人——那些机构审查委员会成员——才勉强跟上步伐。
在非学术界,像微软那样的公司开始制定自己的道德审查流程。2015年12月,未来隐私论坛的芬奇组织了一个叫做“在道德审查委员会之外”的研讨会来思考非联邦基金资助的研究如何进行道德审查流程。毕竟,像脸谱网、 约会网站、“阅后即焚”照片应用(Snapchat)和网飞(Netflix)这样的现代科技公司坐拥一堆20世纪的社会学家想象不到的数据。
当然,公司任何时候都在拿我们做实验,不管是网址A 或B的测试标题还是杂货店改变付款排队外形。但当这些公司聘请更多具有博士项目的统计专家时,学术界看到了缩小差别和使用数据来丰富公众知识的机会。也许通过这些合作能形成不断更新的道德指导方针。或许这只是一时的混乱。
原文标题:Scientists Are Just as Confused About the Ethics of Big-Data Research as You