智慧数据的法律挑战

2020-05-18陶亮

知与行 2020年1期

陶亮

[摘要]随着人工智能技术的发展，数据的收集、保存、使用和表达大都需要借助智能技术，使得当前数据与传统少量而孤立的数据形成了巨大差异，呈现出“智慧化”。但人与原始数据之间的距离亦被越来越多的智能设备不断扩宽，数据存在着偶然错误、智能算法缺陷，或是人为而导致其导出结果不符合实际情况却被人所相信的情形，即产生“数据陷阱”问题。随着数据发展到第五阶段，即智慧数据阶段，数据陷阱问题进一步突出。然而一方面人们在观念上普遍迷信数据，缺乏对数据陷阱问题的重视，并且，这不仅体现在人们的日常生活中，我国学界涉及数据陷阱的研究成果对比国外而言亦明显过少;另一方面，对数据管理和数据表达的规范亦有所不足，对其的完善建议局限于对传统中心化管理模式和平台责任归责模式的借鉴。对此，首先需要审慎看待数据，破除数据迷信;其次，突出对数据陷阱问题的研究，使得对于数据陷阱的规制性立法更加具有针对性;再次，逐步转变数据管理模式，依据区块链等新的数据库对数据管理做出积极的法律思考;最后，引进和创造新的法学基本概念，借以解释和发展新的数据表达制度。

[关键词]数据陷阱;人工智能;区块链

[中图分类号]D90 [文献标志码]A [文章编号]1000-8284（2020）01-0045-06

近几年，人工智能引起了人们普遍的关注，特别是2016年AlphaGo击败世界围棋冠军、职业九段棋手李世石之后，可谓是一石惊起千层浪，无论是学界还是日常生活中，人工智能都成为热门话题。并且，随着人工智能技术的发展，“智慧互联网”“智慧社会”被越来越多的人所提及和研究。同时，数据领域也正发生着向“智慧数据”的转型，数据的收集、保存和使用都借助了智能技术。可以说，当代数据与传统少量而孤立的数据形成了巨大差异，呈现出“智慧化”。但智慧数据所带来的是否都是对人类有利之事？事实上，伴随着人工智能的发展，人们将自己的权利越来越多的“让渡”了出去，过于放心地将对数据的收集、处理交托给了机器，这使得人与原始数据之间的距离被越来越多的智能设备所不断扩宽。在这样的背景之下，数据存在着或偶然或智能算法缺陷或人为导致其丧失客观性，或导出结果不符合实际情况却被人所相信的情形，即产生“数据陷阱”问题，对此，亟须给与足够的重视并思考问题的解决之策。

一、数据陷阱的历史沿革

对于数据陷阱，目前学界还没有统一的定义，但大体上的涵义即是指人们对数据过于信任所可能导致的风险和危机。其中，“数据”从字面上来说，由“数”和“据”两部分所构成。所谓“数”，即“数字”，对事物大小、数量等进行计量;而“据”，即“根据”，也可以说是计量之语境、单位。因此，仅从字面上而言，所谓“数据”，即为有根据的数字，是具体事物与数字符号的结合体，使得数字在特定的语境之下表达出超乎符号本身的涵义。[1]

追溯历史，数据陷阱问题在数据的伊始及初始阶段是没有意义的，问题具有讨论意义乃是基于数据发展到了一定程度。笔者认为，“数据”从古至今的发展可以分为五个阶段。第一阶段即为“数觉”。在古时人们就可以意识到事物的大小、多少。这种对世界自发进行朦胧认知的能力便为“数觉”，甚至根据调查，“数觉”也并非人类所独有，[2]第二阶段即人们运用“数”“量”等具象化“数觉”之阶段。此時人们可以对事物大小、数量作简单表达，这也意味着人们对世界从自发的朦胧印象到自觉的简单观察归纳。第三阶段即为近代的“数据”，或称为“小数据”。不同于“数”“量”等对世界的简单表达，近代的“小数据”已经具备所谓的“根据”，换句话说，其具备“语境意义”，而不是简单的符号。按照黄欣荣教授对数据的划分，其属于第二次数据变革的产物，即从生活数据转变为科学数据。[3]此三个阶段即为笔者所谓数据的起源和初级阶段。

数据陷阱于第四阶段，即现代的“大数据”阶段方才具备讨论价值。在此阶段，“大数据”与哪怕是第三阶段的数据，也即是近代意义上的“小数据”，都有着极大的差异，这种差异也不仅仅是体现在“量”上的“大”与“小”，更多的是一种质的变化，这种质变反映在获取数据的速度、成本，以及数据所具备的经济效益、多样性等各个方面。进入大数据时代，表示以往的那种有目的的、大多需要依靠主动收集才能取得少量数据的时代已经成为过去式，数据已经更多来源于随时随刻，看似无意义，却随时可能变废为宝的采集。

第五阶段的数据才可谓“智慧数据”，即当代人工智能背景之下的大数据，其不仅仅具有现代大数据的所有特性，同时由于人工智能技术的不断发展，大量因为庞大、冗杂而在以往无法计算和利用的数据变得能够被调动处理起来，但也是随着人工智能技术的发展，产生了“算法黑箱”等人与数据之间的壁垒，使得人与初始数据的接触机会被空前降低。此时，“数据陷阱”问题被空前放大，并且这种放大的进程并不会因为智能技术的发展而消减，相反，智能技术越是发达，数据越显智慧，人与初始数据之间的距离就越容易被拉大，数据的采集、分类、统计、计算等过程就越是难以被把控和监督，数据的客观性就越是存疑，数据陷阱问题也会愈加突出。因此，对数据的收集、保存、使用和表达等方面均需更好地加以规范。而现有的规范方式，则可按照其对数据陷阱的作用方面，大致分为两类：一是对数据管理的规范，即规范数据的收集、存放，保证数据源的安全，并对数据的使用进行规范;二是对数据表达进行规范，对不当表达数据的行为进行归责。但针对这两个方面所用的方法多是借鉴于图书馆管理模式等传统管理模式，以及传统商业广场的平台责任制度，而随着“区块链”等新的去中心化数据库以及淘宝等互联网购物平台的崛起，过去的研究范式作用正不断降低，很多新的问题在法律上已然很难得到十分合理的解释与解决。

二、数据陷阱法律规制的现实困境

向智慧数据转型使得我们比以往任何时候都要更容易获得和分析庞大的数据，这些数据也不会仅仅对企业发挥作用。实际上，各种代表着“民意”和“专家意见”的数据对于我国法律和政策的制定都有着很大的影响，但这些数据是否与被采集者的真实意思一致？数据统计分类的模型是否足够保证输出结果客观？面向智慧数据的转型，人与初始数据之间的壁垒越加坚固，导致数据陷阱问题日益成为当今智慧数据时代下的巨大隐患，需要被充分认识和解决。

（一）人们观念上普遍存在对数据的迷信

在智慧数据阶段，人们对数据的需要已经遍布包括经济、政治、环境和健康事业的各个社会发展层面。[4]甚至在一定程度上，人们已经对数据产生了迷信的心理。但数据的就是科学的？数据的就是客观的？并不尽然。例如，谷歌曾对2011到2012年美国的流感病毒趋势进行大数据预测，结果却和实际相差甚大。[5]

并且，目前我国人们在观念上普遍存在的对数据迷信的现象，不仅是体现在人们的日常生活中，在学界亦有着一定的表现，这点可以在学界研究的重心上得到一定的印证。以中国知网作为检索数据库，在高级检索选定检索范围为“全文”，并输入检索词汇“数据陷阱”，发表时间为“从2000到2018”（包括2018年所发表的期刊，下同），仅仅找到了61条结果。而同样的条件之下，选定检索词汇为“数据”，共可找到9 214 297条结果之巨，并且总体呈现快速增长的态势。在中文文献中发表时间“从2000到2018”的文献增长了约5.4倍;发表时间为“从2015到2018”也增长了约66%。再以中文社会科学引文索引为检索数据库，在高级检索中设定为检索“所有字段”，并输入“数据陷阱”，限定学科类别为“法学”，发文年代选定“从2000至2018”，非精确检索，甚至找不到一篇论文。而在同样条件之下，更改“所有字段”栏为“数据”，则找到有505条结果之多，其中仅2018年就有64篇，可见我国学界近年来对于“数据”本体或者工具性的价值已经相当重视，并且这种重视程度大体是呈现上升姿态的，而对于“数据陷阱”问题却少有提及，存在一定程度上的忽视。

反观国外，由William S. Hein & Co.，Inc.公司出品HeinOnlion法学期刊全文数据库被美国所有法学院所订购，颇享盛名，可以作为检索数据库以供研究。在Advanced Search中选定“Full Text”一栏为“Date Trap”，Date栏为“2000to2018”，共找到30 298条结果之多。在同样条件下，更改Full Text一栏为“Data”，则可找到1 103 615条结果。可以说国外涉及“数据陷阱”（Date Trap）的理论研究成果已经占据了涉及“数据”研究成果的一定比例，这表示国外学者在重视“数据”本体或者工具价值的同时，对“数据陷阱”问题同样有着相当程度上的重视。

对比国内外关于“数据陷阱”的研究成果总量，可以发现，相比于国外对数据陷阱所表示的重视态度，国内对于数据陷阱的理论研究过于匮乏。当然，本文这种对“数据陷阱”理论研究现状的调查方法可能有所遗漏，但这至少从侧面反映了两种可能，即第一，目前我国学界对面向智慧数据转型下的“数据陷阱”问题还没有做出及时的了解;第二，学界对于数据陷阱问题已经有所了解，但是没有引起足够的关注，或者至少没有认为这个问题值得做出一定的理论思考。然而不论是哪种可能，结合当前学界对数据或数据型研究的重视，无疑都反映出目前我国存在对数据有利之处的过度放大，和对数据背后陷阱一定程度上的无视。这说明，在科学研究向数据密集型发生着转变的当下，对比我国对数据的狂热态度，以及国外对数据陷阱的重视程度，我国在一定程度上，人们存在着一定的“数据迷信”心理，即过于信任数据而导致缺乏对其背后“陷阱”的关注，这种现象是我国关于数据陷阱立法实践工作的一大阻碍。

（二）实践中对数据陷阱法律规制不足

正如前文所言，当前我国对数据陷阱规制的立法依旧有着明显的不足，并主要体现在两个方面。首先是在数据管理方面，对数据源的保护以及对数据使用的规范并不完善;其次是在数据表达方面，对于故意或者过失造成的数据表达错误还未建立完备的规制体系。并且，在智慧数据的大背景之下，如果依旧完全以传统管理模式或者归责模式对其进行规制，将面临诸多问题无法解决的尴尬境地。

1.数据管理立法上尚不完善。首先，在数据源保护性立法上，随着互联网与智能技术的发展，法律滞后的缺陷使得对数据源的保护性立法始终“慢一步”。就当下而言，对数据源主要的污染风险可以分为两类，一类即数据管理方造成的污染;另一类即为来自非管理方的污染。这些规制的不足使得对数据源的污染行为，既有被民法、行业规范规制，也有被刑法所规制的情况，关键点在于对污染行为本身的法律界定，但滞后的法律难以提供十分准确的法律判断根据。需要说明的是，非管理方对数据源的污染行为并非一定伴有恶意，比如谷歌运用大数据预测流感乃是基于地区内人们对“流感”之类词汇的搜索，但现实中很多人搜索“流感”并不是因为身边发生了流感，而是对谷歌的此番作为感到好奇等原因。其次，在数据使用上，立法规制也并不完善。数据使用的第一个问题，就是谁有权使用什么数据，而目前学界依旧对数据的权利界定和归属问题存在较大争议，相关立法也有待进一步完善。事实上，哪怕只是数据权利的界定和归属也并不是个容易一概而论的问题，比如科研领域数据权利的界定和归属、网络聊天之中数据权利的界定和归属，甚至是各个数据库之间数据权利的界定和归属等，很难归纳出同一个适用标准。

对此，目前一般以图书馆等传统数据收集、存放、使用模式作为数据管理问题思考之视角。例如陈祖琴、蒋勋、苏新宁2015年发表于《情报杂志》的《图书馆视角下的大数据资源共建共享》;周晓燕、宰冰欣2016年发表于《图书馆情报知识》的《澳大利亞高校科研数据保存政策分析》;邢文明、华小琴2018年发表于《知识管理论坛》的《澳大利亚高校科研数据政策内容分析》，都是基于图书馆管理等传统模式对当下数据的管理进行思考。这些研究成果虽是以不同的角度进行研究，并最终对问题的解决提出了新的解决方法，但无可否认的是，这些研究都是基于传统管理模式，即传统的数据收集、存放、使用模式，在这种模式之下，认为数据的管理具有中心化机构，也即是一个类似于图书馆或者科研机构对数据进行管理，再借由一个专门的数据调度平台对数据的使用进行赋权和调度。然而事实上，区块链等新兴“去中心化”数据库出现，无疑对此类传统管理模式形成了巨大的冲击。