全球大数据法学研究现状、热点与前沿
2023-10-25王齐齐
王齐齐
[中共中央党校(国家行政学院)政法部,北京 100091]
自人类进入信息社会,物理空间中一切事物几乎都被数据记录并加以保存,大数据时代已经到来。大数据在社会实践中的价值日益彰显,成为全球范围内广泛关注的重要研究议题。随着大数据研究文献的积累,通过定量方法对大数据某一特定领域的研究成果进行梳理的文献开始涌现,如有研究者总结了健康医疗大数据的相关开发与研究案例[1],也有文献梳理了大数据在社会保障领域的研究脉络和最新进展[2]。检索国内外相关成果,尚未有研究者对大数据法学研究的状况进行梳理分析。大数据是新资源、新工具和新应用的综合体,是通过处理海量数据来认识世界和改造世界的人类应用活动[3],这必然会对社会中不同主体的权利义务关系以及整个社会秩序价值带来影响。因此有必要对全球法学领域的大数据研究文献进行梳理与总结,揭示大数据法学研究的脉络、现状以及热点前沿,以总结目前的研究成果与经验,并为未来相关研究和实践提供借鉴。
一、全球大数据法学研究现状
大数据的概念起源于1980 年著名的未来学家阿尔文·托夫勒的《第三次浪潮》[4]一书。但是,基于理念超前性与技术落后性的矛盾,大数据概念在当时并没有引起广泛关注和传播。直至进入21 世纪,在数据收集、处理和分析技术进一步发展与应用的基础上,大数据才开始引发研究者的广泛关注。2013 年,被国内研究者和从业者称为“大数据元年”[5]。因此,本文对全球大数据法学研究文献的选取,设置起止时间为2013—2021 年。
(一)数据来源与研究方法
为体现数据库的全面性和代表性,国内文献的检索以中国知网数据库(以下简称CNKI 数据库)为文献来源。对于国外文献的检索,则以Web of Science(以下简称WOS)数据库为文献来源。对于CNKI 数据库文献的选取,选择高级检索的方式在CNKI 数据库进行主题检索,将期刊来源类别设定为“CSSCI”,主题词设定为“大数据”,文献分类目录设置为“法理、法史、宪法、行政法及地方法制、民商法、刑法、经济法、诉讼法与司法制度、国际法”,检索后共获得1482 篇文献。通过阅读相关文献的摘要排除偏差文献86篇,得到可供分析的CSSCI 文献1396 篇。对于WOS 数据库文献的选取,选择Web of Science Core Collection(核心数据库)进行高级检索,将TS(主题)设置为“Big data”、SU(研究领域)设置为“Law”,并将Document Types(文献类型)设置为“Article”进行检索,排除误差文献后得到可供分析的文献987 篇。
将CNKI 数据库中的1396 篇文献和WOS 数据库中的987 篇文献,全部选择后分别导入CiteSpace 软件。CiteSpace 软件是陈超美教授使用Java 语言开发的能够分析科学文献中潜在知识的信息可视化软件[6]。运用CiteSpace 软件对国内外文献分别采用相同的算法进行运算,同时辅以Excel 软件作为辅助性工具协助处理部分数据,以定性和定量相结合的方式,梳理并分析全球大数据法学研究的基本脉络,深入剖析大数据法学研究领域当前的研究现状和未来走向。
(二)研究整体趋势分析
发文量是衡量某一研究领域在特定时间段内整体趋势的重要指标。将CNKI 数据库和WOS 核心数据库中检索得出的文献,按发表年份排序并制作成曲线图(图1),可以直观地判断出全球大数据法学研究趋势的整体变化。自“大数据元年”起,全球大数据法学研究发文量呈现出逐年上升状态,且近几年的上升趋势较之以往更为明显。著名专家普赖斯曾指出,在某一研究领域相关文献的增长一般分为四个阶段:在某一新型学科诞生阶段,文献产出不稳定;在该学科快速发展阶段,文献数量会出现剧增;在该学科日趋成熟阶段,文献数量的增长会趋于缓慢;在学科的完备阶段,文献数量会不断减少,或表现出不规律的震荡之势[7]。基于2013—2021 年间全球大数据法学研究呈现出的趋势可以判断,全球大数据法学研究已经迈过大发展阶段,并开始走向成熟阶段①。在大数据法学研究日趋成熟的阶段,既要重视对过往大数据法学研究成果的梳理,以总结研究的经验与不足,又要挖掘大数据法学研究的空白,以充分扩展该研究领域的边界。
图1 全球大数据法学研究年度发文量图
(三)主要研究力量及研究重点分析
就全球大数据法学的主要研究者而言,通过分别对CNKI 数据库和WOS 数据库的文献进行统计(见表1)可以看出,国内法学领域大数据研究发文量最多的几位研究者包括陈兵(18 篇)、丁晓东(9 篇)、季卫东(8 篇)等。国外法学领域大数据研究发文量最多的几位研究者包括Bart van der Sloot(6 篇)、Alessandro Mantelero(5 篇)、Andrew Guthrie Ferguson(5 篇)等。
表1 国内外主要研究者统计表
通过分析主要研究者的代表性文献可以得知,研究者主要的关注点在于大数据时代的权利、义务与责任。如季卫东[8]提出完善数据财产权的实体规范,进而将之提升至基本权利的高度、强调数字人权的保障,是一项很重要并具有迫切性的立法课题。Alessandro Mantelero[9]关注大数据下的个人信息(数据)保护,并提出大数据时代下由于数据处理的复杂性以及数据处理的难度越来越大,消费者知情同意的能力受到了限制。Bart Custers[10]从大数据利益和个人数据保护平衡的视角审视了大数据时代的个人数据保护,认为传统的个人数据保护原则限制了大数据的使用,可能对大数据发展不利,只有正确进行数据重用才能兼顾大数据时代的个人隐私权利与社会经济进步。Bart van der Sloot 等[11]着眼于大数据整体的分析与使用,并提出想要从大数据分析和使用中受益,必须开发一个框架为基本权利增加新的保护层,并加强监督制度以防止错误和恶意使用。
关注大数据法学研究的高被引文献,一方面可以探究高被引文献的学术水平及实际价值,另一方面它们也是关注该研究领域的知识源流。将CNKI 数据库以及WOS 数据库中主题为大数据的法学高被引文献进行梳理排列,得出国内外研究领域被引量位于前10 的文献(如表2 所示)。通过对这些文献进行分析可以看出,国内外法学领域的大数据研究具有不同的知识源流。具体而言,国内具有较高影响力的文献关注的是大数据背景下的个人信息(数据)和数据权属问题,而国外具有较高影响力文献更多聚焦大数据的社会影响以及大数据“源代码”问题。
表2 国内外高被引文献统计表
在国内的高被引文献中,研究者对大数据时代下个人信息(数据)的保护采取了两条不同的路径,即新保护道路和新权利道路。新保护道路立足于个人信息保护的新时代特色,认为数据挖掘、智能分析、追溯集成等大数据时代技术给传统信息时代确立的个人信息保护规则带来了新的挑战,因此改善大数据时代的个人信息保护尤为迫切[12]。有研究者以个人信息使用为出发点,提出根据具体场景中的风险评估采取差异化保障措施,将信息处理前的静态合规遵循转变为信息使用中的动态风险控制。这样可以在提升个人信息保护实效性的同时大幅减轻企业负担,达到助力数据开发与数据保护的双赢[13],这是由于大数据时代的个人信息保护法需要衡量更多的利益关系[14]。另一条路径则是提出在大数据时代设立新的数据权利。有研究者从体系上入手,提出在区分个人信息和数据资产的基础上,进行两个阶段的权利建构[15]。另有研究者从大数据时代的数据广泛使用着手,认为大数据时代的个人数据权利涉及自然人的民事权益保护与数据企业的数据活动自由关系的协调[16]。新保护派和新权利派虽然对大数据时代个人信息(数据)等权利的保护路径不同,但是两者都认识到法律权利有特定的时代背景。在数据已经成为国家“新石油”的大数据时代,不论采用何种方式保护个人信息(数据),都必须立足于大数据时代的个人信息(数据)保护的基本目标,即实现个人信息(数据)保护与大数据运用之间的平衡。
在国外的高被引文献中,研究者一方面关注大数据给公共决策带来的负面影响,认为大数据并非是毫无瑕疵和毫无偏见的[17]。具体来说,大数据在决策过程中并不能消除人为偏见,对数据挖掘的盲目依赖会使弱势群体无法充分参与到社会当中去。同时在社会中运用大数据对个人进行排名和评价时,大数据的决策可能会对人格进行侮辱。想要发挥大数据的真正价值,首先,正当程序的法律传统应该为大数据评分系统提供基本的保障;其次,监管机构应该能够对评分系统进行测试,以确保公平性和准确性;最后,个人应该被给予有意义的机会来挑战基于错误分类的不利决定。如果没有上述的程序保障措施,系统可能会将带有偏见和武断的数据洗白为具有强烈污名性的“分数”[18]。另一方面,也有研究者追本溯源至大数据的算法与“源代码”的关系。大数据决策所依据的“数据源”常是不完美的,这使得大数据算法继承了之前决策者的偏见[19]。更为重要的是,大数据算法往往是不透明的和缺乏监督的,大数据产生的错误几乎总是因算法使用而具有一种非故意的突发属性,因此很难确定大数据问题的根源。如何使大数据决策过程的问责机制和法律标准跟上技术步伐是目前管理大数据决策的关键[20]。
二、全球大数据法学研究热点
在文献计量学中,关键词常常作为衡量某一学术领域研究热点的重要指标。将CiteSpace 软件时间切片设为1、TopN 阈值设为50 后,运用CiteSpace 软件分别对国内外文献进行关键词分析,分别得到全球大数据法学研究的关键词图谱。将这些图谱及其包含数据进行对比,进一步分析大数据法学研究的热点问题。
(一)研究的关键词共现分析
在CiteSpace 软件中将节点设置为Keyword(关键词),在可视化界面将Threshold 值设置为20(图中显示出现次数大于及等于20 的关键词),对国内外研究关键词进行共现分析,分别得出国内外研究关键词共现图谱(见图2)。
图2 国内外研究关键词共现图
图2显示了国内外研究的主要关键词及相互间的关系。为进一步探究大数据法学研究关键词的权重,把关键词频次及其中心性进行统计后以表格的形式展现(见表3)。一般情况下,某一特定关键词的中心性越强,它在CiteSpace 共现分析网络结构中的位置就越重要,即可推导出它在这一研究领域的关键词结构演变中发挥着不可或缺的功能与作用。
表3 国内外研究关键词统计表
通过对表3 的观察可知,大数据法学研究的关键词频次与其中心性几乎均呈正向相关关系,这是因为法学领域的大数据研究具有较高的同质性。结合关键词词频和中心性可以看出,国内外研究主题均包含大数据(Big Data)、隐私权(Privacy)、个人信息保护(Data Protection)、人工智能(Artificial Intelligence)等内容。不同之处在于,国外研究者更关注大数据为民主(Democracy)和政治(Politics)带来的影响,这和高被引文献体现出的国内外研究差异具有一致性。
另外,虽然国内外法学领域的大数据研究在目前仍然处于上升期,但国内外研究的关键词发展阶段均较早,许多关键词如隐私权(Privacy)、个人信息保护(Data Protection)等在研究的初始阶段已经高频出现。这说明在研究的早期,国内外研究者们均已抓住大数据给传统法学研究带来的新议题,研究者将大数据与传统的隐私或个人信息等法学问题相结合。而最近高频出现的研究热点仅有人工智能(Artificial Intelligence)这一主题。这也符合大数据领域技术的发展状况。对于研究社会行为规范和人类权利义务关系的法学而言,目前只有由大数据产生的人工智能这一主题属于全新的社会现象。
(二)研究的关键词聚类分析
大数据是一个不断发展的研究领域,关于这一主题的法学研究已经相当多元化。为进一步探究全球大数据法学研究的主题分类,运用CiteSpace 软件对国内外研究的关键词进行聚类分析,聚类的计算方法选为LLR,得出共10 个聚类的国内研究聚类图谱以及共8 个聚类的国外研究聚类图谱(见图3)。这10 个国内研究聚类以及8个国外研究聚类均可分为3大类(见表4),即大数据下的个人权利保护研究、商业利用规则研究、公共治理路径研究。
表4 国内外研究关键词聚类分类表
图3 国内外研究关键词聚类图
国内个人权利保护研究包括聚类#1 个人信息、聚类#3 隐私权、聚类#6 隐私保护、聚类#7 数据隐私。在大数据时代,保障个人信息安全的着力点应聚焦于让数据使用者承担责任[21]。大数据时代公民隐私权也溢出传统“私域”向“公域”延伸,公私法“整合”保护模式成为“大数据时代”公民个人信息隐私法律保护发展的应然选择[22]。国外个人权利保护研究聚类群包括聚类#0 Personality(个性)、聚类#1 Digital Identity(数字身份)。数据挖掘可以识别个人的特定人格特征,而这些个性反过来又可以预测特定法律权利的偏好[23]。另外,数字身份这种技术上的转变虽对社会治理非常有利,但给个人隐私的保护带来了问题。大数据对于个人权利来说是典型的“技术双刃剑”,一方面大数据技术为个人生活便利提供了技术支撑,另一方面大数据技术也为传统的个人权利保护带来了新的挑战。
国内商业利用规则研究包括聚类#4 大数据时代、聚类#5 企业数据、聚类#9 保护。大数据时代下,企业数据的商业价值越发突显。企业数据不仅仅是企业的财产,更蕴含着自然人的人格与财产价值、企业的商业利益价值、社会的公共利益价值以及国家利益价值[24]。现有的专利法或著作权法的知识产权范式并不是对大数据进行保护的最佳选择,解决数据公开与知识产权保护之间的冲突,是大数据资源得到更为充分的利用的关键问题[25]。国外商业利用的规则包括聚类#7 Antitrust(反垄断)。随着大数据的收集和整合,企业可能将大数据用于创建、巩固和扩大他们在市场中的地位[26]。尤其是当企业利用大数据预测每个消费者能够支付的最高价格,并以此来颠覆当前财富分配时,反垄断法尚未给出规制的最佳答案。同时,由于各国对待数据的权属态度不同,数据垄断在国际执法中也会受到阻力[27]。如欧盟将数据保护与基本权利联系在一起,而美国将数据视为一种资产;欧盟利用竞争政策促进个人自由,美国反垄断政策注重经济效率,欧盟和美国在互联网数据监管方面存在分歧。大数据时代下,数据的商业利用不同于以前的传统民商法律关系,由于时代赋予数据新的特性,数据商业利用必须立足时代背景,树立数据商业利用新规则。
国内公共治理路径包括聚类#0 大数据、聚类#2 司法大数据、聚类#8 算法歧视。大数据不仅涉及个人保护、商业利用,更可以用于国家和社会的治理之中以提高治理水平与治理能力。如我国基于数据驱动的社会信用体系属于数字技术公共基础设施,它在矫正监控资本主义逐利偏差的同时,还生成了与法律强制下行政管理方式相并行的算法行政。算法行政作为全新的权力工具,导致数字社会治理机制的范式发生了转化,这对法治国家的传统法律原则提出挑战[28]。国外公共治理路径包括聚类#2 Information、聚类#3 National Governance、聚类#4 Social Media、聚类#5 Post-democracy、聚类#6 Impact。随着Facebook 平台利用大数据影响美国选举丑闻的爆出,国外研究者对大数据社交媒体对政治的影响尤为关注[29]。政治活动以及社会公共活动由传统方式走向新的数据化方式是不可避免的,大数据运行机制也改变了政治影响社会的机制。然而,即使在新的数据范式背景下,政治和公共活动的性质仍然是不变的,数据治理必须立足于政治和公共活动的本质进行。
三、全球大数据法学研究前沿
在关键词共现和聚类的分析基础上,进一步进行关键词突变分析可以观测全球大数据法学研究的前沿与未来趋势。运用CiteSpace 软件对国内外文献的关键词进行突变探测(Burst Detection),提取出某一研究时间段内频次增长率极高的关键词(Keywords)并显示起(Begin)止(End)时间,这些关键词可以称之为突变词。研究突变词的目的,在于发现当前乃至今后一段时间该研究领域的前沿问题。经分析,共得出7 个国内研究突变词及3 个国外研究突变词(见图4)。图4中,7 个国内突变词已经有6 个停止突变,3 个国外突变词中已经有2 个停止突变,说明它们目前已经不是研究的热点问题。当下国内外仍处于高度关注中的突变词均为人工智能(Artificial Intelligence)。
图4 国内外研究关键词突变图
人工智能(Artificial Intelligence)是全球大数据法学研究关注的前沿问题。就人工智能研究的具体内容和未来走向而言,首先,人工智能已经受到大数据法学研究者的瞩目。目前国内人工智能法学研究主要集中于以下几个方面:其一是探讨人工智能对以人为基础的法律秩序和法律制度的挑战[30];其二是探讨人工智能的法律主体资格问题[31];其三是探讨人工智能对部门法的影响[32];其四是探讨人工智能在立法、司法实践领域的运用[33]。以人工智能在司法领域的运用为例,通过人工智能与法官审判工作的深度融合以促进司法改革整体效能的提高是不可阻挡的趋势[34]。在国外的人工智能法学研究中,研究者的关注点同样着落在人工智能对法律体系的影响,如数字化信息以及人工智能算法导致国家或私人生活等法律概念具有新含义[35];具体部门法视域下的人工智能问题,如以人工智能为主的共享经济对现有竞争法的挑战[36];人工智能的具体运用问题,如探讨人工智能的算法决策模式是否能改善刑事司法[37]等。
其次,国内人工智能法学研究存在理论与实践脱节的鸿沟问题。虽然国内学术界对人工智能的重视程度超过不少国家,但这种学术热情并未能在法治实践领域得到有效运用,例如中国司法系统斥巨资力推的大数据及法律人工智能技术在司法实践中的运用效果并不理想[38]。这种“冷与热”源于大数据法治运用准备条件的不足,包括法律数据的不充分性以及法律人工智能的技术瓶颈。人工智能在司法实践中的运用正是目前国内人工智能法学研究的缩影,如何弥合研究与实践的“冷与热”应是人工智能法学研究不可回避的问题。
最后,人工智能技术对国际法律秩序的负面性影响已经引发部分研究者担忧。有研究者提出,在未来十年内,人工智能可能会对全球事务产生破坏性影响[39]。这种“全球破坏性”的人工智能对国际法的形式、功能和可行性的影响包括:“法律发展”(补丁)、“合法置换”(替代)、“合法破坏”(侵蚀)。人工智能的发展目前处于各国“孤岛式”的探索过程中,人工智能必然伴随着科技进步而迈入国际运用领域。因此,探究人工智能对现行国际规则的挑战及确立人工智能时代的国际规则已是我国研究者需要面对的现实课题。
四、结语
通过选取CNKI 数据库和WOS 数据库中主题为“大数据(Big Data)”的法学文献为数据来源,运用文献计量学理论和可视化方法,对2013—2021 年全球大数据法学研究的历程、热点和前沿进行定量与定性研究,得出以下结论。
第一,法学研究者对大数据,尤其是对大数据为人类权利义务关系、社会秩序与正义带来的变化密切关注。目前,全球大数据法学研究已经开始走向成熟阶段,因此既要重视对过往大数据法学研究成果的梳理,以总结过往研究的经验与不足,又要挖掘该领域的研究空白,以充分扩展大数据法学研究的边界。在未来的研究中,尤其是探究人工智能、区块链等新技术与新社会现象时,应多吸收借鉴其他学科大数据研究得出的研究成果、模型架构及基础理论,以计算机科学等自然科学对大数据的研究成果为基石,以社会学等社会学科对大数据的研究成果为帮衬,立足法学学科基本属性,进行大数据法学的学科交叉研究。
第二,从高被引文献和主要研究力量等体现出的知识源流来看,数据在促进社会生产力发展的同时,也会对现有社会秩序带来挑战。全球研究者对大数据负面影响的着眼点也有所不同。国内研究更关注大数据背景下的个人信息(数据)保护和数据权属问题,国外研究多聚焦于大数据的社会影响以及大数据“源代码”问题。在认识大数据资源、技术、应用综合体的初期,人类把它视为一种即将改变未来的新力量,希望通过数据的跨界、融合、开放、共享创造更多价值。但是,大数据并非全然沿着人类预设的理想化轨道向前发展,收集、使用、流通数据往往引发各种社会问题,如个人数据安全、算法歧视、数据霸权等,大数据产生了新的社会风险,大数据风险促使人类对它进行理性审视与全面评估。
第三,从大数据法学研究的热点分析可知,全球大数据法学研究主题均包含大数据下的个人权利保护、商业利用规制以及公共治理路径。大数据技术为个人生活便利提供了技术支撑的同时,也为个人权利保护带来了新的挑战;数据商业利用必须充分认识数据的性质,树立数据商业利用的新规则;大数据运行机制改变了政治影响社会的机制,但数据治理仍须立足于政治和公共活动的本质进行。不论是个人权利保护,还是商业利用规则,抑或公共治理规定,其中可以肯定的共通之处在于,传统信息社会中确立的规范信息或者少量数据法律问题的规则在面对大数据时代的法律问题时已显现出力不从心,对原有法律规范的修修补补也不足以抑制大数据带来的风险。目前人类已经身处大数据时代的浪潮之中,法律也应该顺势改变以应对大数据时代的要求,人类社会需要全新的数据法律制度规范来面对大数据风险。
第四,展望研究趋势,人工智能这一主题是全球大数据法学研究的未来问题和方向②。目前,研究者已经关注到人工智能对法律制度整体性的影响、人工智能的法律主体资格问题、人工智能对部门法的影响以及人工智能在实践领域的运用等问题。对于人工智能这种尚未形成全球统一规则的新鲜事物,国内研究者应加强对人工智能的“未来法治”研究,在推动人工智能实践运用的基础上构建相关规则体系,既要弥合研究领域与实践领域的“冷热裂缝”,思考中国人工智能法学的发展路径,又要在学习国际人工智能研究的新成果和新规则基础上,提高中国在国际人工智能领域的话语权。