人工智能大数据伦理问题的研究

2019-11-22严卫钱振江周立凡肖乐

科技风 2019年28期

严卫钱振江周立凡肖乐

摘要：在斯诺登事件后，人工智能大数据伦理背景下，对伦理问题进行深入研究。以人工智能大数据伦理问题需要跨学科的对话为主线，通过计算机技术及其在监视社会中的应用关系来探讨切实可行的出路。最后在教学和研究中提出价值和方向引导，呼吁相关人士采取行动。

关键词：人工智能;大数据;伦理;算法

党的十九大提出了推动互联网、大数据、人工智能的发展，政府将加快国家数据治理平台建设，重点发展大数据技术，实现“弯道超车”。[1]尽管以大数据为基础，以人工智能为引擎的新科技时代的到来势不可挡。但自从斯诺登事件曝光后，大数据的伦理问题成为焦点。这种问题涉及包括计算机科学、计算语言学和数字人文学科在内的大数据及其分析。首先，要考量研究者自己的研究和教学实践，并对所从事的工作的伦理层面负责。明确指出，应更关注的是这涉及到的数据采集，因为今天的大多数数据科学家（包括许多计算机专业学生）他们工作中的一部分与数据处理有关。目前的焦点主要体现在“计算机科学家应该在人工智能开发和使用的法律和道德方面发挥什么作用？”针对这个问题科学家们普遍认为这是一项长期的研究工作。人们有理由担心：斯诺登事件说明工业间谍情报机构的监测活动和国家保护自己免受经济监测以求生存的现状。这也会促使学生意识到数据监控的后果，促使教学人员将研究和教学重点放在开发和部署新工具和伦理技术上，这将是一项充满挑战的教学任务。

1 斯诺登事件启发

2013年5月，爱德华·斯诺登飞往香港会见了格伦·沃尔德和劳拉·普瓦特拉斯等记者，让他们得以接触有关大规模数据的数千份机密文件。从那时起，《卫报》等众多媒体机构就一直在研究他们能够接触到的文件，并对这些文件进行编辑和报道，以了解他们所披露的有关信号情报基础设施的情况。其中，至少包括：（1）威瑞森等电话公司被迫与美国国家安全局秘密共享数百万美国用户的电话记录;（2）美国国家安全局和联邦调查局直接从Facebook、谷歌、微软和苹果等科技媒体巨头那里获取电子邮件内容，并在程序中进行数据挖掘;（3）英国政府通讯总部正在窃听与美国国家安全局共享的光纤电缆以及全球通讯;（4）美国国家安全局每天收集数以亿计的短信，包括地理位置信息和金融交易信息等。

这就产生了一个问题：“面对这种情况，应该怎么做？”这些发现表明，大量资源正用于收集公民通讯、储存和开采。不仅美国公司销售监控设备，世界各地的公司也纷纷涉足这一行业，并向非民主制度的政府销售监控设备。信号情报已经成为一项大生意。这些从事数据挖掘和知识表示等相关领域研究和教学的人必须承认，日常工作中可能直接或间接地被用于非法或不可接受的目的。我们必须反思，我们的研究和教学是否助长了非法政府和商业窃听。斯诺登事件印证了一个事实，网络监测已经持续了很久。长期以来，部分政府和大公司等对数据可疑使用、直接滥用并导致数据泄露;全球计算机科学部门、商学院及相关机构对“大数据”的研究稳步增长;社会科学和人文学科专家探索了研究大型文学、历史和哲学语料库的技术等。然而，除了偶尔的新闻报道，大多数人没有关注这些进展。这些通常被视为不值得广泛民主讨论的案例。斯诺登事件曝光后，泄密核心的人，在世界范围成功地引发了一场激烈的、持久的公开辩论。公众对这些问题的关注也为科学家提供了更多参与的契机和作出贡献的机会。

2 以职业为背景的全面思考

相关人工智能研究人员要对自己设计创造并引入的一项技术负责，但当这项技术被用于监视无辜的人，侵犯他们的隐私和其他基本权利时，研究人员可能会漠视个体数据。面对这种情况，研究人员应该跳出专业壁垒，打开视野，从解释技术、算法和它们背后的统计方法的角度去思考，并认识它们的局限性、误解和应用推理中的缺陷。可以称之为“全面思考”。

相关研究人员可能会意识到，在分析文本语料库如海量电子邮件或人口普查数据时，在某种程度上做的数据分析与情报机构拦截和分析通信非常相似（而且使用的方法和工具基本上相同）。研究人员习惯于挖掘人们的个人生活，调整他们的行为以适应理论视角，有时还会通过研究结果作用于他们的生活。研究人员应该如何判断对错，这就需要从不同的文化角度仔细分析文本和其他材料，使用不同的语言并建立交流的语境。

人工智能大数据的伦理学思考总是在政治和经济的背景下进行的。伦理学者可以帮助其他科学家不落入寻常陷阱：自愿性无知（“我只是一个科学家，道德不是我的领域”）、愤世嫉俗（“如果我不做这篇文章或这类研究无论如何都会有人做”）、辞职（“无论如何我不能改变任何事情”）、可滥用的行动主义（“我可以调整我的算法，使它不做这件违背伦理的事情，所以现在我已经贡献了我的一份善，否则可以像以前一样继续下去”）。[2]

学者有更多谈论道德的自由。但是必须认识到，在实际情况中由于工作的限制等原因，有时候学者并没有所谓的自由。

3 以科学为主导的立场

3.1 客观对待技术

在会议上展示的监控。是否有些国家利用这种技术压制政治言论，用于非正义用途？可能是的。但是，谁能说这项技术完全没有用于造福人类？这种争论在生产监视技术的IT公司中普遍存在，直到最近，这项技术的双重用途才被正视。

学术计算机科学家也经常提出类似的观点，但较难以可引用的形式找到它们。其中原因各不相同，但其中肯定包括自我实现的预言，即“只是做科学”的计算机科学家通常不会就“不关他们的事”的伦理问题公开发表意见。反而，关于技术的不同用途的思考通常留给计算机专业以外的学者。有幸接触到这些权威观点，即数据分析监管也是一项政治、法律和社会任务。[3-4]然而，大数据离不开计算机方面的专业知識，而计算性设计决策具有真实的影响，因此不可能将技术和研究决策视为中立。此问题上需要谨慎，不赞成没有经过深思熟虑的学术分工。

3.2 数据挖掘和歧视

根据事物的某些特征或属性进行区分是人类认知和行为的一个基本特征。人们对其他人采取差别对待，允许一些人而非所有人投票，对他们采用特定的法律，给他们贷款或者剥夺他们与这些权利和决定相关的特权。这种不可接受的差别被称为“非法歧视”。

数据挖掘的应用可能会在不经意间导致歧视。例如在2016年，谷歌公司的图像识别软件通过数据挖掘技术误将黑人识别为“黑猩猩”的事件。[5]通过修改算法，可以避免这种歧视的结果，使其不返回基于特定属性的区分。[6]创建“区分感知数据挖掘”和“公平感知数据挖掘”，并提出了一些方法来应对难以检测的问题，比如间接歧视（通过看似无害但实际上相关的属性）。这些方法非常重要，因为它们不仅可以阻止不必要的推论及其应用，并且允许一个透明的、结构化的、可量化的社会讨论。即愿意放弃多少“预测准确性”，进而支持多少“增加的公平性”。修改算法是一个有价值和迫切需要的关键点，但更重要的是，计算机科学家也要意识这种方法的局限性。

3.3 从科技研究中汲取营养

文学、历史、社会学和哲学等显然会为我们提供很多职责等方面的内容，一些有价值的信息包括：关于大数据的隐私、伦理和社会问题的文献越来越多。新技术会带来意想不到的道德挑战，这不足为奇。对于大数据技术，也是如此，危险不在于技术的发展，而在于一旦脱离研究者，技术用途的不可控。[7]

现在人们对大数据提出了各种各样的主张。一些技术系统似乎更符合特定的政治环境。核能，甚至核武器，都需要一定程度的集中控制才能安全管理。对此提出的观点是：需要关注技术本身的政治性并且用一种对话的方式给予以关注，使人们不被阻碍地做出选择，就要在技术学科和人文学科之间进行一定程度的跨学科讨论。

4 价值和方向引导

可以进入对话，并鼓励其他人把对话带到实验室和教室。例如，我们不知道美国国家安全局和合作伙伴开发的监控系统是否合规，对话是一种思考的方式，通过对话，我们既可以思考方法，也可以思考目的，而不是目的本身。

4.1 教学探索

课堂是讨论人工智能大数据伦理的重要场所之一。我们这些讲授知识表示、数据挖掘、文本分析和计算语言学课程的人，在讲授相关技术的同时，同学生探讨了有关知识技术的伦理。下面是一些我们已经取得一些成功的方法。

（1）介绍涉及伦理和社会问题的学术读物，如维克托·迈尔-舍恩伯格和肯尼思·库克耶主编的《大数据时代》以及李伦主编的《人工智能与大数据伦理》。或者可以将相关新闻读物融入课程，如开展我们为什么需要算法伦理的讨论？

（2）角色扮演，情景呈现。隐私和大数据课程扮演 “隐私顾问”的角色，为其他学生正在做的项目提供咨询。“隐私顾问”与项目团队讨论隐私问题。

（3）学生们学习隐私影响评估和认证业务泄露并进行相关资料的精读诸如斯诺顿事件、加拿大的通信安全机构一直监视巴西矿山和能源等。

（4）阅读幻灯片鼓励学生思考泄露信息的价值问题，以及学生能从这些材料中推断出多少内容。

毫无疑问，让学生参与对话的方式还有很多，教学重要的不是告诉学生如何遵守伦理，而是教会学生如何参与公共领域的对话，这是参与式民主的一个基本组成部分。不仅要训练学生擅长做，而且希望他们能够参与讨论并提供对策建议。

4.2 反思自我，评价他人

由于技术没有边界，现在的焦点是伦理问题。即便出于研究的目的，在未经允许的情况下跟踪和记录一个人生活的各个方面，不仅侵犯他人隐私，而且可能带来风险。面对这个问题，应该设身处地，假设自己是被侵犯隐私的人，并从当事人的角度去思考。研究人员也应该扪心自问，会不会允许同样的事情发生在自己身上。

目前，在数字人文学科中，有许多数字化的工作正在全世界范围内通过日记和私人通信等方式进行，尽管这些工作可能具有侵入性，但对我们理解历史具有不可估量的价值。因此，研究人员有责任决定哪些数据和软件支持在伦理上“正确”使用，以及如何使用。做这个决定的一个关键点，就是设身处地的思考：如果我是研究对象，我可以接受哪些内容？

5 结论

论述表明，人工智能大数据伦理分析的理论关键是建立一个多视角的体系，在这里没有纯技术上的解决方案。这是一个涉及众多利益，利益又以更多的方式相互影响的问题。因此，不能指望找到一种模式来解决有关分析思路分析方法的问题。相反，必须承认这是一个伦理问题，伦理问题需要不断的辩论，且没有固定答案。我们要有“解决方案主义”的心态和“算法规则”的心态，避免“离开伦理谈伦理”。而作为科学家，正处于特殊的关键位置，应该利用对知识建模和深度学习等先进技术，使人工智能大数据伦理问题变得透明公开。[8]

参考文献：

[1]柳亦博.人工智能阴影下：政府大数据治理中的伦理困境[J].行政论坛，2018，25（03）：97-103.

[2]Berendt B，Marco Büchler，Rockwell G.Is it Research or is it Spying？ Thinking-Through Ethics in Big Data AI and Other Knowledge Sciences[J].KI –Künstliche Intelligenz，2015，29（2）：223-232.2015，29（2）：223-232.

[3]马治国，徐济宽.人工智能发展的潜在风险及法律防控监管[J].北京工业大学学报（社会科学版），2018，18（06）：65-71.

[4]张爱军，秦小琪.人工智能与政治伦理[J].自然辩证法研究，2018，34（04）：47-52.

[5]陈伟光，袁静.人工智能全球治理：基于治理主体、结构和机制的分析[J].国际观察，2018（04）：23-37.

[6]王禄生.司法大数据与人工智能技术应用的风险及伦理规制[J].法商研究，2019，36（02）：101-112.

[7]Big Data ethics Zwitter，Andrej，Public Trust and Public Law Big Data & Society，2014，1（2）：1-6.

[8]Ethics of artificial intelligence Russell，S Nature，2015-28，521（7553）：415-416.

基金项目：1.本文系“2019年江苏省计算机学会‘计算机伦理与职业修养专项课题”（JSCS2019ZX012）的研究成果;2.本文系“2016年国家自然科学基金青年基金”（项目编号：41501461）的研究成果;3.本文系“江苏省高校‘青蓝工程优秀青年骨干教师培养对象项目”（2017）的研究成果;4.本文系“江苏省高校‘青蓝工程中青年学术带头人培养对象项目”（2019）的研究成果;5.本文系“江苏省教育科学‘十三五规划课题”（No.B-b/2016/01/34）的研究成果;6.本文系“江苏省现代教育技术研究2019年度课题”（2019-R-70263）的研究成果;7.本文系“常熟理工学院2018年度高等教育研究项目（GJ1807）”的研究成果;8.本文系“常熟理工学院2018年度高等教育研究项目（GJ1808）”的研究成果

作者简介：严卫（1980-），男，江苏常熟人，硕士，常熟理工学院助理研究员，实验师，主要研究方向为人工智能伦理、高等教育管理;钱振江（1982-），男，江苏常熟人，博士，常熟理工学院计算机科学与工程學院副院长，副教授，主要研究方向为计算机工程教育;周立凡（1984-），男，江苏常熟人，博士，常熟理工学院讲师，主要研究方向为深度学习;肖乐（1981-），女，江苏常熟人，硕士，常熟理工学院副教授，主要研究方向为人工智能。