数据挖掘技术及其法律问题研究
2019-01-09赵泽君蒋丽华
赵泽君,蒋丽华
(西南政法大学 法学院,重庆 401120)
现代社会的不断信息化和计算机硬件的不断升级,人类拥有了大量的数据,而随着数据库技术的成熟和普及,人类积累的数据正以指数方式增长。在1982年,趋势大师John Naisbitt就在其著作《大趋势》(Megatrends)中提到:“人类正被信息淹没,却饥渴于知识。”[1](P16~17)面对浩如烟海的信息,从这些信息中获取真正有用的知识已越来越难,数据挖掘技术(Data mining technology)在此背景下兴起并获得快速发展。数据挖掘技术可以帮助人们从海量信息中提取知识,但这些信息可能涉及到公民的隐私,由此可能引发一系列法律问题,但当前涉及这一交叉领域的研究仍较为匮乏。本文在对数据挖掘技术理论和应用进行梳理的基础上,对数据挖掘技术应用过程中产生的法律问题进行分析与讨论,以期为我国数据挖掘技术的发展与应用提供一定的理论与实践参考。
一、数据挖掘技术的理论概览
电子科技的迅速发展产生了大量的数据,这些数据具有广泛的利用价值。在浩瀚如烟的数据面前需要一种完成将其转换为有用信息和知识的技术,数据挖掘技术由此兴起。数据挖掘是从海量数据中提取有意义的新的关系、趋势和模式的过程。总体来说,数据挖掘技术是一门新兴的跨领域交叉性学科,从技术层面看,其涉及统计学、数据库系统、模式识别和高性能计算等多个领域。作为一种知识发现的手段,数据挖掘使用数据库技术进行数据存储,使用机器学习技术进行数据分析。但数据挖掘技术的应用并不仅囿于自然科学领域的范畴,从社会学层面讲,其在应用过程中涉及一系列的法律问题。由数据挖掘技术获取的信息和知识应用广泛,在商业、智慧校园、医疗及司法领域发挥着重要作用。
在进行数据挖掘之前需要进行数据集成、清洗、简约和转换等数据处理,为进行精准的数据挖掘服务。数据输入错误、用户掩盖信息、技术或保密导致数据不完整都会影响用于数据挖掘的数据质量。和普通信息检索相比,数据挖掘获取的信息具有间接性和抽象性。常用的数据挖掘技术包括决策树、遗传算法、神网络、机器学习、数据仓库、关联规则、贝叶斯网络、可视化技术等。朴素贝叶斯算法、逻辑回归算法、K-最近邻算法、支持向量机算法和决策树算法等是数据挖掘技术常用的算法。数据挖掘主要通过对数据的总结、分类、聚类、关联等方式进行分析。
由于数据挖掘发现隐藏的模式,是数据库中知识发现(knowledge discovery in database, KDD)的关键步骤,因此很多人认为二者是等同的。[2](P4)此外,数据仓库(data warehouse)是整个数据挖掘技术的基础。在20世纪80年代,数据仓库的概念由W.H.Inmon在《建立数据仓库》(Building the Data Warehouse)[3](P31~145)一书中给出,随后又有了更为精确的定义。一般认为数据仓库是在企业管理和决策中面向主题的、集成的、时变的以及非易失的数据集合。数据仓库对企业内部的业务数据进行整合、加工和分析,因而异于其他数据库应用。传统的数据库管理系统(database management system, DBMS)的主要任务是联机事务处理(on-line transaction processing, OLTP),而数据仓库则是称为联机分析处理(on-line analytical processing, OLAP),主要在数据分析和决策方面提供服务。关系数据库之父E. F.Codd最早在1993年提出OLAP概念。[4](P87~89)Codd认为,传统的OLTP已不能满足终端用户对数据库查询分析的需要,结构化查询语言(structured query language, SQL)也同样无法胜任,为了得出可供决策参考的统计分析数据, Codd提出了多维数据库和多维分析的概念,进行联机分析处理(OLAP)。
事实上,总的来说,通过联机分析处理(OLAP)得到供决策参考的统计分析数据正是数据挖掘技术在较浅层次上的应用;而在深层次上,数据挖掘技术则是要从数据库中发现和提取前所未有的、隐含的知识。
图1 数据挖掘——数据库中知识发现的核心步骤
二、数据挖掘技术的应用窥视
数据挖掘技术的兴起,源于实际中的强烈需求。(cross-industry standard process for data mining, CRISP-DM),由SPSS、NCR和Daimler Chrysler三家公司在1996年制定的数据挖掘的交叉产业标准过程是数据挖掘业界流行的通用标准之一,此标准不是把数据挖掘仅仅局限在研究领域,它强调的是数据挖掘在商业中的应用、解决商业中存在的问题。事实上,数据挖掘技术在电子商务、保险、银行、交通、零售等商业领域都有着重要应用,例如客户群体划分、交叉销售、客户流失性分析、客户生命周期管理、客户关系管理、欺诈发现等等。[5](P94~95)
美国Firstar银行使用Marksman这一数据挖掘工具,通过客户的消费模式来预测何时应为客户提供何种产品;Bass Export作为世界最大的啤酒进出口商之一,通过使用IBM的Intelligent Miner,基于海外市场的交易过程中产生的众多订单,很好的解决了如何了解客户的消费习惯机器对品牌的爱好问题。除此之外,对用户信息的数据进行挖掘是当前研究得较多、应用也十分广泛的领域。通过对用户的个人信息进行数据分析与挖掘,可以得出关于用户兴趣的挖掘报告。在电子商务网站,对于每天产生的上百万次的游览与在线交易记录,可将此生成大量的记录文件和登记表,进而对这些数据进行分析和挖掘。根据由此得出的用户兴趣的挖掘报告可以全面了解客户的喜好、购买模式、购买习惯等,这将对企业的盈利产生重要影响。
从商家的角度,数据分析有助于建构适合的模型,便于商家在此模型的基础上展开商业活动达到利益的最大化。除此之外,数据挖掘技术在其他领域也逐渐得到应用。如数据挖掘技术在智慧校园中可为学生的学习评价提供支持,更好的运用云平台共享学习资源。通过对教学资源和学生学习信息等大量数据进行整理,也有助于改进教师的课堂授课模式。在图书馆管理过程中,数据分析平台可以清晰的展现进馆人数和时间、借阅图书种类和数量等内容,对此进行的数据分析有助于各大图书馆进行管理上的优化。在数字化图书馆中应用数据挖掘技术,有利于为用户提供个性化的服务。[6](P84~86)在医疗健康领域,数据挖掘技术在辅助完成医疗任务、对医疗资源进行合理的管理等方面发挥了重要作用,已成为医疗大数据产业发展的核心需求之一。[7](P114)在司法领域,数据挖掘技术日益广泛应用于公安机关情报研判工作。一方面用于收集犯罪证据侦破案件,另一方面通过对未来犯罪的预测进行提前预防和打击。
数据挖掘技术虽然优点众多,但就此技术应用来讲,仍存在一些实践难题。在进行数据挖掘之前需要进行变量的选择和分析,在海量的数据中如何考量隐含的变化趋势,如何进行互联网中的数据挖掘以及对建构的模型采取何种标准进行评价等问题。[8](P124)需意识到,数据挖掘只是一种建构模型的方式,作为一种强大的分析工具,仍旧需要管理人员进行操作并通过现实生活对建构的模型进行验证。这也说明对数据挖掘理论与算法的研究任务繁重且无止境。
然而,通过利用大量的诸如网页游览记录、购物记录、病史、信用记录等私人信息进行数据分析和挖掘,可以得到许多有用的模式和知识,但却可能对个人的隐私和信息安全构成威胁,从而使得数据挖掘这一行为面临一些法律问题。
三、数据挖掘技术面临的法律挑战及应对措施
数据挖掘技术的精准适用建立在对数据进行完整收集的基础之上。此技术的普及加大了个人信息保护的难度,由数据挖掘所得的数据在司法实践中也面临能否作为证据使用及应归为何种证据种类的争议。针对数据挖掘技术面临的上述挑战,应完善司法救济措施增强对个人信息权的保护,在证据层面将由数据挖掘所得的数据定性为电子数据证据并完善其审查规则。
(一)数据挖掘技术与个人信息保护的冲突与应对
数据挖掘技术的广泛使用加剧了个人信息保护的难度。自媒体时代个人信息保护面临更加严峻的挑战,个人信息泄露事件频发也促使《民法总则》第111条的出台。虽然“个人信息”是一种法益或是民事权利仍存有争议,但对其应受法律保护已达成共识。[9](P34~45)数据挖掘技术以个人信息收集为基础,如何平衡收集信息完整性与合法性是这一技术面临的难题。
精准的数据分析建立在完整的数据收集基础之上。然而,现有立法对于信息安全的规定并不能有效约束数据挖掘技术的规范性。一方面,数据收集者并不完全确定信息的使用途径,即使提前向被采集者进行声明,被采集者也难以了解信息的利用的模式和可能产生的后果。[10](P772~774)另一方面,虽然采用数据分割和加密等技术手段可以有效预测和防止隐私泄露的风险,[11](P154~160)但在商业利益的驱动下仍无法避免数据加工者和其他主体侵犯个人信息权的行为。
数据挖掘技术以人们看不见的方式进行,即使当事人怀疑个人信息被侵犯也难以证明侵权行为的存在并获得赔偿。面对数据挖掘技术对个人信息保护形成的冲击,除完善数据挖掘技术之外,笔者认为在立法层面应改变我国现有的个人信息侵权案件的证明要件。根据《侵权责任法》对一般侵权责任构成要件的规定,需证明加害行为、损害后果、因果关系和过错四个要件。对于任何一个要件证明不能原告将承担不利的后果。要加大个人信息的保护力度,笔者认为有必要对个人信息侵权案件设置不同于一般侵权行为的独立的法律构成要件,原告仅需证明加害行为、损害后果以及两者之间存在因果关系三个要件,即对于个人信息侵权案件责任的认定采取无过错责任原则。
(二)挖掘数据作为证据使用的困境与解决
通过数据挖掘技术获得的数据在诉讼中存在是否与案件存在关联性进而能够作为证据使用的争议。通过挖掘技术所得数据存储于特定电子系统中,根据三大诉讼法对于证据种类的划分,此种数据作为证据使用时应为电子数据证据。但严格来说,仍面临与电子数据客观属性相冲突的难题。对此,应通过完善电子数据的审查规则予以解决。
1.能否作为事实认定中的证据之争议
证据,一般而言是指用于法官确定判决之基础的依据。[12](P370)对于通过数据挖掘所得的数据能否作为认定案件事实的证据,学术界对此存在争议。有观点认为大数据分析预测能为案件事实认定过程提供背景知识,但不能独立作为证据使用。[13](P64)数据挖掘作为量化分析的手段,无法挖掘出普适规律解释所有个体行为。也有观点认为大数据可以作为证据使用,纳入电子数据这一既有的法定证据种类范畴。[14](P56)
笔者认为大数据可以对已经发生的事实进行证明。也就是说,大数据的另一个发展方向是作为事实认定的证据。[15](P63~64)但通过数据挖掘所得的数据不同于一般的在案件发生过程中形成的证据,与电子数据证据的客观性存在一定的冲突。
2.与电子数据客观性(真实性)的冲突及解决
电子数据是指借助现代信息技术或电子设备形成的一切证据,或者以电子形式表现出来的能够证明案件事实的一切证据。[16](P162)对于保存在特定系统中的电子数据,使用时直接从系统中调出即可。通过数据挖掘获得的电子数据往往脱离其上下文情境,从而导致电子数据线索被错误的解读。运用数据挖掘技术分析得到的“预测”在某种程度上也具有主观性。且数据挖掘中的电子数据往往以数据流的形式存在,对数据的利用以对数据流的有效掌控为前提,所得数据往往随着时空变化发生改变。[17] (P111~119)
对于电子数据进行评价,与传统证据一样应做客观性、合法性和关联性方面的审查。证据的客观性要求作为证据方法的载体未经加工、变造或呈现证据的过程不受扭曲、干扰,[18](P70)对于电子数据的审查和适用应遵循此客观性标准。然而,通过数据挖掘技术获得的电子数据建立在对基础数据的加工分析之上,与电子数据证据予以采纳的客观性要求存在一定的非调和性。
针对挖掘所得数据作为证据使用时与电子数据客观性的冲突,笔者认为可通过完善电子数据的审查方式予以解决。对于电子数据客观性的审查主要涉及真实性的审查,可从电子数据载体的真实性、电子数据的真实性以及电子数据内容的真实性三个层面展开。[19](P121)对于电子数据载体的真实性着重审查保存挖掘数据的载体的同一性和完整性;对于电子数据真实性着重审查数据挖掘基础数据是否与原始数据保持一致,是否存在被删改的情况;对于电子数据内容的真实性着重审查挖掘数据与其他证据所包含的信息能否相互印证。
四、结语
数据挖掘技术作为一种新兴的信息技术,目前已成为计算机和情报学研究的热点之一。因可提供个性化的服务并对整体趋势进行预测,数据挖掘技术无论是在经济领域还是司法领域均具有广阔的适用空间。然而,此技术在法律层面也面临一些挑战,但并未得到研究人员的广泛关注。从技术和法律两个层面对数据挖掘技术进行整体性的探讨和分析任重而道远。