APP下载

算法时代传统隐私理论之困境与出路

2021-03-24张慧

重庆社会科学 2021年2期
关键词:个性化推荐隐私数据

张慧

摘 要:《中华人民共和国民法典》明确规定隐私与个人信息的保护范畴相互交叉,隐私的本质是私密性。在算法时代,衡量“数据是否符合私密性标准”的价值立场应从人格尊严和人格自由转换到人格独立,理论基础应从领域论和信息自主决定原则转换到思想自主决定层面。隐私范围的界定模式应由“内外限制”转变为“动静结合”。个性化推荐中的数据性质宜认定为隐私,因为从静态的角度,其符合个人性、人格性、隐蔽性等“个性化”标准,且形式上多元,不局限于信息的形式。从动态的角度,若未获得用户的允许,个性化推荐算法,包括基于内容的推荐、协同过滤推荐和基于知识的推荐等,计算判别用户喜好的行为,既干扰了用户的私有领域,又窥探了用户的人格图像。其行为结果符合隐私的“主体性”标准。

关键词:个性化推荐;算法;数据;隐私

[中图分类号] D923     [文章编号] 1673-0186(2021)002-0125-012

[文献标识码] A         [DOI編码] 10.19631/j.cnki.css.2021.002.010

个性化推荐是一种基于机器推荐方式来预测用户的评分或偏好的信息过滤行为,最早于1995年应用在美国的导航系统中。我国是从2009年开始,将其广泛应用在淘宝等电子商务网站上,向潜在消费者推荐满足其需求的产品和服务。发展到今天,几乎每个网站都采用个性化推荐技术以优化客户服务。其技术功能是解决信息过载和长尾问题,弥补信息平台在提供针对性意见建议和服务等方面的缺陷,从而更好地满足用户个性化检索和匹配需求。要实现这一功能,信息平台不得不利用用户的网络行为数据去挖掘用户的个人喜好。时至今日,小到衣物的选择、新闻的获取,大到股票等商业交易的完成,人们越来越多的选择由信息平台的个性化推荐完成。由此引发了学界对个性化推荐场景中隐私权保护的担忧,百度隐私案更是一度成为讨论热点[1-3]。该案的焦点是,百度网站通过cookie所收集使用的用户数据是否构成了个人隐私。一审判决认为构成个人隐私,而二审判决认为不构成个人隐私,并最终否认了百度侵权。学者们也基本上支持二审的认定标准和结果。由于该案判决时,我国民法规范未明确规定隐私的概念,隐私和个人信息的保护范畴模糊不清,这直接影响了个性化推荐中关于数据法律性质的界定标准。

本质上,个性化推荐服务由一系列程序构成,程序由算法和数据组成[4],数据是信息的载体,而算法是将数据从一种形式转化成另一种形式的一套方法、规则,用户在网络上的行为信息实际上是承载于这些数据之上的。可以说,个性化推荐都是由数据和算法共同描述,缺一不可。要判断个性化推荐服务是否构成隐私侵权的法定要件,最核心的是要探讨其本质,即算法的执行——加工处理数据的行为是否符合侵犯隐私权的构成要件。而隐私权是对隐私的权益,若无法确定个性化推荐中数据的法律性质,则难以进一步研究算法侵权的请求权基础和责任机制。

此外,百度隐私案涉及的数据使用情形仅仅是推荐技术应用的“冰山一角”,基于cookie的个性化推荐仅仅为众多推荐技术之一。推荐系统种类众多,学术界从领域、实时性、推荐内容等方面进行了不同的分类:从领域上分为垂直推荐和全网推荐;从实时性上分为实时推荐和离线推荐;从推荐内容上分为新闻推荐、电子商务推荐和娱乐推荐。百度使用的推荐仅是全网、实时推荐,因此,该案对隐私问题的相关认定,是否能完全适用于所有个性化推荐的场景,亦值得反思。

欣慰的是,我国《民法典》就隐私和个人信息作出了明确规定,隐私和个人信息的联系与区别实现了立法层面的确定化和清晰化。那么,在《民法典》出台的背景下,个性化推荐中用户数据的法律性质应如何认识呢?该问题诚值梳理和思考,以辟理论和司法实践中的混淆之态。

一、隐私范畴的立法修正与保护困境

“隐私权”这个概念为美国舶来品,指对隐私的权益。在《民法典》出台前,我国关于隐私的规定散见于《民法总则》第110条、《侵权责任法》第2条等条文,这些规定均未直接明确隐私的内涵,进而导致了隐私与个人信息的边界难以区分。

(一)隐私与个人信息的关系

就如何处理隐私与个人信息的关系这一问题,学界主要提出了广义说、狭义说和折中说三种观点。这些观点的共性在于,都认为隐私包括私密领域、私生活安宁和私生活秘密,隐私的核心在于个人的私密性不受他人干扰、刺探和公开;分歧在于,个人信息是分别归属于隐私或个人信息两个范畴进行保护,还是与隐私存在交叉。

1.广义说

对隐私作广义解释,隐私包括个人信息。如王泽鉴认为,隐私包括私人生活、私人信息、私人空间及个人生活安宁等方面,其必须仅与特定人的人身存在密切利益联系,且该特定人不愿被他人知悉。

其核心范畴有两点:一是包括个人生活私密领域。即个人生活不受他人侵扰,私人有权享有完全自我的私密空间,且决定是否向他人公开或完全自处,因此亦可称为空间隐私;二是包括信息自主,即个人可以决定私人信息是否及如何向他人公开,因此又被称为信息隐私。相应地,隐私权亦包括信息自主权[5],采纳该观点的,如美国等[6]。而德国立法上起初并无隐私权的规定,仅通过一般人格权来保护涉及隐私的权益,之后为应对信息技术的发展,逐渐将该权益的保护范围从领域私密扩展到信息自主[5]。

2.狭义说

对隐私作狭义解释,隐私不包括个人信息,两者是相互独立、并列的范畴。如王利明认为,隐私和个人信息存在差别,应明确二者的区别[7]。

一方面,隐私强调的是信息或行为的私密性。即使某信息或者行为与权利主体的身份不直接相关,但只要与公共利益无关,且该权利人不愿意公开披露,就能被认定为隐私。而个人信息更强调信息的主体身份,无论是单个信息或与其他信息相结合,都需确定有可以被识别出的身份。

另一方面,除了信息这种方式,隐私还包括私人行为、私生活空间等无记载媒介的存在方式。因此,隐私权仅包括两方面:一是独处的生活状态或私人事务;二是私生活秘密不受他人的非法披露[7]。侵害隐私权即为侵害个人保有私密性的权利,如非法的披露和骚扰。典型的案件类型有“录像带案”“安装摄像头偷窥案”等[5]。

3.折中说

即隐私与个人信息相互交叉。如张新宝认为,私人信息一旦被高度公开,则不再受隐私权保护。而未公开披露,且具有私人属性的敏感信息,仍应被认定为隐私[8]。

根据《民法典》第1032条第2款和第1034条第3款,我国已通过立法的形式,明确将个人信息作为独立的民事权益进行保护,且采纳了折中说,即隐私与个人信息的保护范畴相互交叉。用户就个人资料找寻请求权规范基础进行权利救济时,究竟是只能通过隐私权或个人信息,还是既可通过隐私权,也可通过个人信息进行,最重要的是判断该个人资料是否具有隐私的私密性特征。

(二)传统认定模式在算法时代的局限性

为避免隐私权的保护范围过广,学者提出了“控制论”和“合理期待理论”两种学说,分别从内外两个视角对“私密性”予以限定。具体而言,在隐私内部,通过控制论,强调了自我对隐私需具有控制力,且是绝对的控制力。若某信息或空间领域具有公共性,便不属于隐私。而当某信息符合“控制论”的内部要求时,还需进一步探讨其是否符合外部要求。外部要求指“合理期待理论”,即民法规范将其作为隐私加以保护,必须为一般第三人普遍同意[9]。但无论是“控制论”的内部说还是“合理期待理论”的外部说,都无法有效回应算法中的隐私范围应如何界定这一问题。

首先,用户输入算法中的个人资料,不都属于“应被绝对保护与控制”的自我领域,因此对初始输入的个人资料无法完全通过隐私权加以保护。但算法的反复计算、描画功能,可能使资料的组合变成真实或者接近真实的人格图像,那么该学习和计算的结果,是否仍属于个人控制的私密领域,受个人控制呢?若该资料的组合结果不属于私密性领域,不受个人控制,那么在算法时代,个人信息一旦被输入,则意味着用户放弃了对该信息所拥有的“控制力”。隨着算法的功能日益强大,拥有的个人信息也日益庞大,那么个人的私密领域则逐渐被算法控制,个人也逐渐失去控制自身权利的法律依据,这将不利于人格权的保护。而若资料的组合结果属于私密性领域,受个人控制,应如何处理其和初始输入的数据之间的关系呢?显然,“控制论”难以回答。

其次,算法的发展是不可逆转的技术趋势和商业趋势。当用户勾选表示同意算法运行的选项时,是否体现为同意算法对自我信息的加工和处理?如果依一般人的合理期待,体现为同意,那么在算法时代,个人资料一旦被输入,则意味着用户丧失了对自我信息的决定权。久而久之,不再是我们控制自我,而是算法控制了我们[10]。若人失去了“人格独立”,又何谈“人格尊严和人格自由”呢?如果依一般人的合理期待,这无法体现为同意,由此导致的权利义务边界不清晰,也难以为算法技术的发展提供有效的法律保障。

(三)隐私保护在分析视角上的转变

在传统物理空间的语境下,隐私所预设的权利范围一般由“领域论”予以解释,即人区别于动物,应保有自我私密的空间领域,享有安宁。该理论是以人性的尊严为本质内容,强调每个人都对自己的领域享有法律承认的绝对保护[5]。

随着信息和网络技术的发展,个人资料被新型技术不断收集、储存、使用与传送的情形出现。“领域论”无法解释“自我对个人资料的绝对控制与社会公益需要之间的矛盾关系”,因此逐渐被“信息自主决定原则”所替代[5],即个人可以自行决定与本人相关的生活事实在何种范围、何种程度公开。相较于“领域论”首次体现“人非动物”的基本立场,弘扬的价值是“人格尊严”,“信息自主决定原则”更关注的是“人格自由”,即自然人面对未知的周遭尤其是公权力时,其所享有的自由空间是否具有边界。换言之,“信息自主决定原则”是在信息时代对“领域论”绝对性的修正。

发展到算法时代,要清晰界定隐私的范围,不得不处理的必要矛盾转变为“个人资料保护与算法深度计算学习功能之间的关系”,这也是算法中数据性质界定的关键所在。要处理好这一矛盾,隐私权所保护的价值重心应由“人格尊严和人格自由”转变为“人格独立”,强调对人之“自主思想的个性化”的尊重和宣示。

在计算机世界中,算法是动态的,而数据是静态的,数据是算法的填充[11]。由于矛盾关系和价值立场的转变,算法时代要确定隐私的保护范围可分别从静态存储的数据和动态运行的算法行为两个层面着手分析。

在“静”的层面,算法中的个人资料要符合隐私“私密性”的基础特征,需满足“个性化”标准,包括:一是个人性,个人资料需与个人相关;二是人格性,反映个人的思想特征;三是隐蔽性,未期待该个人资料挪作他用。

从“动”的层面分析,算法中的个人资料要符合隐私的“私密性”特征,需满足“主体性”标准,即这些个人资料能够被组合起来,对应到某用户,描绘成人格图像,并且仍属于用户个人的私有领域。

概言之,在算法时代,隐私权的保护范围应从“内外限制”的界定模式,转换为“动静组合”的界定模式。

二、个性化推荐中数据结构的静态分析

基于“动静组合”的分析视角,要确定个性化推荐中的数据是否构成隐私,首先应从静态层面分析数据的物理特征和法律性质。算法不是建立在单独、割裂的数据之上,而是依靠数据结构来实现,数据结构即数据元素的关系。因此,要研究数据的静态特征,实际上应研究算法的数据结构。具体而言,数据按照结构格式分为结构化数据、半结构化数据和非结构化数据[12]。

(一)数据的存储方式

结构化数据较容易理解,简而言之就是数据库,也称作行数据。数据通常建立在一张表上进行对应,比如一些物品(item)按照名称、种类、颜色等属性被记录下来,因此可以通过一定的数据格式与长度规范读取某一条记录的属性值。而非结构化数据相对而言,在形式和格式上就丰富很多,一般以文本、图形、图像、音频、视频等复杂对象表现出来。不同于一条记录对应某个属性的结构化数据,非结构化数据需要通过比较复杂的分析才能理解数据含义,比如对这些物品的感觉的描述[13]。

半结构化数据是结构化的数据,但是又不同于一般的结构化数据。因为其结构变化很大,很难建立一张表与之对应。比如建立一个人员信息库时,针对某一个人的信息可以建立一张表,但每个人的信息项不尽相同,因此一张表难以对应所有人的信息,这时候就需要进行半结构化数据处理。基于以上数据分类,算法对数据的管理一般采用结构化数据管理和非结构化数据管理两种方式,以便于合适地存储数据。

从算法的角度,个性化推荐包括基于内容的推荐(Content-based Recommendation,简称CB)、协同过滤推荐(Collaborative Filtering Recommendation,简称CF)、基于知识的推荐(Knowledge-based Recommendation,简称KB)和组合推荐这四种方式。组合推荐是指使用了两种以上的推荐算法,此处不再作单独介绍。

每种推荐算法使用的数据结构不尽相同。具体而言,在基于内容的推荐算法中,物品的特征属性作为结构化数据来存储,用户过往有关物品的所有行为数据都会被收集[14]。这种推荐算法的运行,本质上要求用户在检索过程中不断填表,其对用户信息的处理是“不加掩饰”的,直接对表中数据进行加工甚至是原原本本的使用。

在协同过滤推荐中,用户信息主要作为非结构化的数据进行存储,最常见的是音乐推荐和电影推荐。首先推荐系统假定一个前提,偏好类似物品的用户具有相同喜好的可能性更大。在该前提下,系统计算出当前用户的“朋友圈”。用户在这个过程中是被动的,系统却是主动的。这种推荐方式并不需要用户直接“填表”,也不会对用户选择的内容直接进行引用,更多的是学习全体用户的行为模式[15]。被系统引用的数据是基于大量用户的历史偏好数据,当前用户不需要手动创建物品的特征属性,其个人意愿的表达是“后置”的。

在基于知识的推荐和基于内容的推荐中,用户信息都是作为结构化的数据进行存储。不同的是,基于知识的推荐完全是由系统掌握主动,用户只是被带入设定好的情境[16]。用户虽然针对物品有比较精确的意愿表达,但是用户不需要在这种表达里泄露与算法推荐结果无关的个人信息。同时,系统也不需要遍寻其他用户的行为数据。

(二)数据的个性化特征

首先,个性化推荐中的数据信息无法用个人信息的概念完全涵盖。协同过滤推荐中使用的非结构化数据,包括影片、图片,不限于信息的形态,不符合个人信息的形式特征。基于内容的推荐和基于知识的推荐,虽然都是数据化的表格,但内容指向的通常不是电话号码、住址等非人格性的信息,而是直接关系着个人的喜好。

其次,在个性化推荐中,用户的数据信息确实与传统的隐私具有一些区别。一是不可控制性。数据信息难以被肉眼看见,如何被利用也难以察觉。其存在空间由线下的、自己身体可控制的物理空间移转到线上的、被数据库存储的、自己不可控制的网络空间。二是虚拟性。算法记录的数据信息对应着特定的网络地址,这些网络地址是用户在算法世界的身份,或者称为识别码。换言之,与个性化推荐算法交互的对象形式上是虚拟的用户。

但这些数据信息本质上仍没有突破隐私的界限。一是个人性,与个人直接相关。虽然网络用户形式上是虚拟的,但每个网络用户对应的是真实的个人,相应地,网络用户留下的信息也是与该网络用户息息相关的、专属于该用户个人的信息,具有真实性。随着自主算法逐步走向无监督趋势,算法不断学习挖掘用户的数据信息时,甚至不需要用户主动提供真实身份,就可以精准识别到真实的个人。二是内容的人格性。王泽鉴在“借书案”中指出,某甲在图书馆借阅的书目信息,由于可以窥探到本人的思想、信仰、性向、嗜好、研究工作等信息,从而组构成人格图像,因此应认定为隐私,图书馆未经允许不可将借阅信息告知他人[5]。相应地,个性化推荐算法依赖的数据信息也都刻画了用户的个性化喜好,算法可以通过不断学习这些数据,描绘出用户的人格图像,因此也具有人格性。三是隐蔽性。“隐私权的核心要义在于,尊重每个人拥有相当程度的内在自我,并可以在该范围内完全隐蔽并独处。”[5]即使在个性化推荐中,与用户交互的对象也仅仅是算法,而不是不特定的、公开的其他人。而且根据《民法典》第1194条,网络用户既然不能因为其虚拟性而否认其“侵权责任主体”的法律地位,当然也不能因为虚拟性否认其“权利主体”的法律地位。因此,即使存在方式由线下转移到了线上,个性化推荐中的数据信息,依旧符合静态层面隐私的基本特征。

三、个性化推荐中算法运行的动态分析

个性化推荐不仅依靠静态存储的数据结构,还必须通过动态的执行过程才能完成。因此,有必要在静态分析的基础上,进一步探究算法的动态运行机制,方能确定算法数据的法律性质,从而保证研究结论的可靠性。

(一)算法的执行过程

由于基于内容的推荐、协同过滤推荐和基于知识的推荐等推荐算法的运行机制存在差异,需逐一分析其执行过程,从而总体判定算法在收集、存储和利用数据的过程中,涉及的用户数据是否和隐私发生关联。

1.基于内容的推荐

基于内容的推荐是对信息检索系统的改进。其运行过程是,在用户主动检索自己感兴趣内容的基础上,系统对用户选择的对象进行特征值提取,在此过程中不断学习研究用户的兴趣,最后通过特征值匹配来向用户进行推荐[17]。比如,现实生活中的淘宝平台,其推荐主要是依靠用户频繁检索来实现。

这种算法的原理和机制是:第一,输入物品,系统抽取每个物品的特征属性即物品的内容来表示此物品,记录在用户的行为日志中;第二,利用用户的行为日志来获取该用户所浏览、收藏、评价、分享的所有物品,根据用户对这些物品喜欢与否的特征数据,来学习出此用户的内容偏好;第三,比较得到的用户内容偏好与候选物品的特征,将相关度最大的一组物品输出到推荐结果中。

2.协同过滤推荐

协同过滤推荐主要是研究人与人之间的关系,本着用户参与和用户贡献的宗旨应运而生,目前已成为最热门的推荐技术。它是通过大量分析所有用户的访问、浏览、操作等行为,找到与当前用户兴趣爱好最相似的一群人,计算出每个对象对用户的效用值大小,最后利用数学模型选出最合适的对象向用户进行推荐。这類似于日常生活中,我们通常会根据好朋友的推荐来决定自己的购买行为。

协同过滤推荐算法的原理和机制稍微复杂一些,模型简单化处理就是:第一,系统对多个用户的偏好进行计算,发现A用户偏好item1、item2,B用户偏好item3,C用户偏好item1、item2、item4;第二,系统通过计算每个物品(item)对用户的效用值大小,断定A用户和C用户偏好更相似一些,同时C用户多一个偏好item4,则系统推断A用户喜欢item4的可能性很大,便将item4作为输出结果推荐给A用户[18]。

3.基于知识的推荐

当系统能够很清晰地获取所推荐用户过去的偏好数据时,可以采用基于内容的推荐(CB)方法;当系统有条件获取大量用户的偏好信息时,可以采用协同过滤推荐(CF)方法。但是,当面对一些特定物品,诸如汽车、房屋、消费类电子产品等涉及“单次”购买的物品时,前面两种推荐方法往往会失灵,就需要用到基于知识的推荐(KB)来满足特殊化的要求。这种方法并非通过用户访问系统的行为数据来进行推荐,而是采用一定的规则,完成一套动作,最后向用户推荐比较合适的对象。

这种推荐算法的原理和机制是“逆向化”的信息检索过程,它不是让用户直接检索,而是推荐系统预定一组具有相关性和递进式的“填空题”,用户每完成一次填空,就将用户检索过程中输入的参数反馈给推荐系统。系统采用会话式的窗口,向用户连续发出问句:用户喜欢哪个国家的物品?喜欢这个国家什么类型的物品?喜欢看这个国家这种类型哪个年代的物品……系统根据用户连续作出的选择动作,自行分析用户喜好,向用户推荐合适的物品。

(二)执行结果的主体性特征

综上,个性化推荐算法的主要运行机制是,在分析社交网络的基础上,重点研究用户的行为,用计算的方式判别用户的个性化喜好,并完成推荐。要实现该任务,不得不依赖的路径就是对每个用户的网络行为进行跟踪、汇总,而为了保证个性化推荐的精准度,就是要掌握最符合该用户的数据信息。因此,可以将个性化推荐算法的行为过程概括为两个步骤:第一步是收集信息,并判别喜好,可称为“挖掘行为”[19];第二步,根据判别的喜好,向用户推荐信息,可称为“推荐行为”。

隐私权的应有之义,就是保有个人的私密性。从动态层面来看,隐私权包括私有空间的不被干扰和人格图像的不被窥探。因此,若算法进行个性化推荐时,执行结果干扰了私有空间、窥探了人格图像,则该结果就符合了隐私的“主体性”标准。

1.干扰私有空间

即使在算法时代,人们仍应拥有个人的空间。而这个私人空间的大小、开放与否,仍由人自己来决定,而不是被算法决定。无论用户是主动键入,还是按算法提供的栏目被动进行选择,其存留下的信息应是静止不动的。用户的数据信息反映着用户此时或过去的喜好,此时,若用户要将这些能反映个人喜好的隐私封存,像写进了日记本里不再被人察觉一样,算法“未经同意”的挖掘行为便构成了对个人私有空间的干扰。

而且用户受算法引导所存留信息的行为,不同于在博客、微博等公开互联网平台上的留言行为。因为后者是明示的公开行为,其面向的就是不特定的第三人。一经公开,便意味着放弃了私有空间。此时第三人将该信息进行传播,便不属于对私有空间的干扰。而前者是否具有公开性,需分别观察推荐行为和挖掘行为。

推荐行为建立在挖掘行为基础之上,不同意挖掘当然无法推荐。因此,认定个性化推荐的算法的执行是否干扰了个人的私有空间,关键在于判断用户作为主体,是否“同意”算法的“挖掘行为”。但用户同意算法“挖掘”信息不等于同意算法“公开”信息,同意只是对本次算法“挖掘行为”的豁免,本质上并未改变数据信息的私有性。此时算法将收集到的信息披露给第三方,仍是对私有空间的干扰。

2.窥探人格图像

个性化推荐算法,特别是基于内容的推荐,需要不断挖掘用户的过去。每一次个性化推荐,都建立在该用户过去所有的数据基础上。如果算法没有被施加限制或者獲得授权,那么算法的每一个推荐行为,都在窥探用户的过去。而用户每根据算法的指示完成一次选择,都再次构成了用户的数据信息,成了算法下一次挖掘的对象。算法通过挖掘行为所收集计算判别的用户喜好,若未获得用户的允许,实际上就构成了用户“被窥视的人格图像”。

侵害隐私行为的始点从什么时候开始计算呢?是从第一次收集用户的数据开始,还是从挖掘数据开始?理论上,应认定为从挖掘数据开始,也就是算法未经授权便开始学习用户的喜好开始。因为数据的信息被算法收集,是用户使用计算机程序所必须遗留下来的。单纯地记录数据不认为是对隐私的侵犯,而用户所享有的删除这些数据的权利,也不是隐私权受到侵犯后产生的救济性或防御性权利,而完全是基于用户在网络空间所享有的对个人数据信息的控制权,有权处分个人数据信息。

四、百度隐私案的再思考

百度隐私案的案情是,原告朱某起诉被告百度公司,未经其知情同意,记录并跟踪其搜索的“减肥”“丰胸”“流产”等关键词,并向其推送相关广告。这暴露了个人的兴趣爱好、生活学习工作等特点,侵害了隐私权,主张损害赔偿。

(一)回避了个性化推荐所使用的算法技术

该案的矛盾焦点集中在,百度网站的个性化推荐所收集并使用的数据信息是否构成了个人隐私。针对该矛盾焦点,被告百度网站的应对策略是,从“个性化推荐的技术原理——cookie技术”角度出发,辩称cookie技术具有合法性,不涉及隐私侵权。而一二审判决也均围绕该技术本身在争论,cookie技术的运行机制是否存在侵害隐私权行为。实际上,这是百度公司利用其技术优势,避重就轻,“巧妙”利用cookie技术的中立性,“完美”回避了算法技术中难以解释的争议性问题。

因为,cookie技术是一种存储方式,cookie本质是一小段文本信息,存储于本地的客户端而非网络的服务器端。当用户通过浏览器访问某个页面时,就会发送这段文本信息。而个性化推荐作为计算机技术,本质上是由一系列程序构成,程序又由算法和数据结构组成[4],百度网站对用户数据信息的存储,采用的是客户端和服务端相结合、本地存储与网络存储的方式。即使用户删除了或者禁用了浏览器的cookie,但是百度网站仍然可以通过算法的运行机制,实现用户信息在服务器端或者网络端的存储。

换言之,百度网站之所以能够针对用户完成个性化推荐,依靠的不仅仅是cookie技术,而主要是算法。判断百度网站是否侵犯隐私权,不应仅判断cookie技术,还应重点研究隐藏在网站程序之后的算法。

(二)混淆了个性化推荐中隐私的判断标准

百度公司之所以将问题关键聚焦在cookie技术,是因为其可以结合网络数据信息的特点,提出三个具体化标准,以表明cookie技术收集的信息不符合“隐私”的定义。标准一是构成隐私的网络数据信息应直接且明确对应到某网络用户的真实身份,即可直观地识别出个人身份。标准二是用户主动登录的网络平台不视为私有领域。标准三是用户拥有“使用或禁用cookie技术”的选择权和知情权,未禁用cookie技术而留下的数据信息不是隐私。这三个标准看似有力地支持了百度公司未侵犯用户隐私权的主张,实则隐藏多个含混之处。

1.混淆了可识别与已识别

标准一虽然使用了“个人信息的可识别性”的表述方式,但混淆了“可识别”与“已识别”的关系。按照百度公司所主张的“身份可识别性”标准,因个性化推荐算法使用的数据信息通常只能对应到用户的“虚拟身份”,无法构成隐私。显然,其所依据的标准是“已识别”标准:在认定数据信息是否符合隐私的“主体性”特征时,仍采取静态的判断视角,未对数据的组合行为和组合结果作进一步分析。

实际上,只要进行个性化推荐,算法就必须运用到个人的数据。互联网的后台,每天进行这样一种操作:填由各种特征属性界定的表,用户的网络行为都记录在里面。该操作的功能与摄像头类似,既负责跟踪又实时汇总。而且这些表格非常条理,并不散乱。根据这些表格,算法可以不断丰富对该用户的信息描述。

若按照百度公司静态的“已识别”标准,认为数据无法与个人真实身份相对应,则意味着,只要算法不登记用户的真实身份,“表面上”无法将用户的数据与用户的真实身份相对应,就可以不断记录、跟踪和检索用户的网络信息,甚至不需要经过用户的允许。其可能产生的权利保护漏洞是:是否构成隐私不再取决于用户对个人私密性的保留与否,而是取决于某算法程序是否直接登记了用户的身份信息。

2.混淆了互联网与非私有领域

按照标准二关于“私有领域”的界定,如果认为用户主动登录的网站不再是私有领域,那么将至少产生两种法律和社会后果。其一,即使输入的是应受法律保护的私密信息,也只能被认定为“公开性的信息”,不构成隐私。换言之,无论是任何信息,都不得通过我国现行民法规范获得隐私权保护的法律救济。其二,随着算法技术的发展及人机互动的日益频繁,人们将逐渐丧失了“私密性的私有领域”,成为透明的裸体人。这将不可避免造成人格权保护和技术发展的矛盾对立。

3.混淆了cookie信息与数据库信息

知情同意标准反映的是信息自主决定原则,即采集、编辑、利用个人的数据信息必须让当事人知情并得到其同意[20]。按照标准三,用户所享有的“允许使用或禁用cookie技术”的选择权和知情权,并不等于“允许或禁止算法收集、使用、利用用户数据”的选择权和知情权。因为cookie技术存储的数据是物理存在的静态信息,主要存储在用户自身控制的硬盘[21],而算法掌握的用户网络行为信息存储在后台的数据库中。用户即使禁用了cookie技术,也只是删除了自己可以控制的信息,而算法控制的、存在网络服务器上的信息并没有删除。概言之,标准三混淆了cookie信息与数据库信息,也就是混淆了用户知情同意的对象。

以上,虽然二审判决认为不构成个人隐私,并最终否认了百度侵权,但判决理由围绕cookie而非算法本身展开,该案尚难为“个性化推荐算法是否侵犯隐私权”的争议提供指导性方向。而且,百度隐私案中对隐私的界定标准仍偏重于静态可控的视角,不适用于个性化推荐算法的动态运行场景。

五、结语

个性化推荐基于用户个人的喜好数据,有针对性地提供推荐服务,体现了技术发展带来的便利和快捷,但“存在即合理”的同时,仍需进一步反思“存在是否合法”。以上论述证明了,虽然算法技术已融入每一个智能手机用户的日常工作和生活中,但其对隐私权也存在着一定程度的威胁。互联网技术的发展和进化远超出规则制定并实施的速度。能否在互联网技术发展的同时,更新和完善相关的法律规则,是对每一个法律共同体成员的考验和挑战。在该过程中,始终要坚持的基本价值是人格自由、人格尊严、人格独立不受侵犯和妥协,这不仅是民法典制定人格权编的重大内涵,也是法律人在应对快速发展的网络技术时所应坚持的重要理念。

参考文献

[1]  李谦.人格、隐私与数据:商业实践及其限度——兼评中国cookie隐私权纠纷第一案[J].中國法律评论,2017(2):122-138.

[2]  黄伟峰.个人信息保护与信息利用的平衡——以朱某诉北京百度网讯科技公司隐私权案为例的探讨[J].法律适用(司法案例),2017(12):37-43.

[3]  李艳霞,龙维.个性化推荐行为法律规制路径的选择——基于中国Cookie隐私权纠纷第一案的思考[C]//胡云腾.法院改革与民商事审判问题研究——全国法院第29届学术讨论会获奖论文集(下).北京:人民法院出版社,2018:1191-1197.

[4]  李爱君.人工智能法律行为论[J].政法论坛,2019(3):176-183.

[5]  王泽鉴.人格权法:法释义学、比较法、案例研究[M].北京:北京大学出版社,2013:178-209.

[6]  张里安,韩旭至.大数据时代下个人信息权的私法属性[J].法学论坛,2016(3):119-129.

[7]  王利明.论个人信息权的法律保护——以个人信息权与隐私权的界分为中心[J].现代法学,2013(4):62-72.

[8]  張新宝.从隐私到个人信息:利益再衡量的理论与制度安排[J].中国法学,2015(3):38-59.

[9]  张民安,宋志斌.隐私合理期待分论——网络时代、新科技时代和人际关系时代的隐私合理期待[M].广州:中山大学出版社,2015:7.

[10]  克里斯托弗·斯坦纳.算法帝国[M].李筱莹,译.北京:人民邮电出版社,2014:5.

[11]  张凌寒.算法规制的迭代与革新[J].法学论坛,2019(2):16-26.

[12]  谢华成,陈向东.面向云存储的非结构化数据存取[J].计算机应用,2012(7):1924-1928+1942.

[13]  李慧,颜显森.数据库技术发展的新方向——非结构化数据库[J].情报理论与实践,2001(4):287-288+261.

[14]  杨博,赵鹏飞.推荐算法综述[J].山西大学学报(自然科学版),2011(3):337-350.

[15]  黄正.协同过滤推荐算法综述[J].价值工程,2012(21):226-228.

[16]  艾磊,赵辉.基于知识的推荐系统用户交互模型研究[J].软件导刊,2015(3):15-17.

[17]  王晓佳.机器学习的个性化推荐算法[J].电子技术与软件工程,2019(15):113-114.

[18]  刘勇,李永杰.基于协同过滤推荐算法的微信小程序智能助手[J].计算机系统应用,2019(5):71-76.

[19]  王光宏,蒋平.数据挖掘综述[J].同济大学学报(自然科学版),2004(2):246-252.

[20]  彭礼堂,饶传平.网络隐私权的属性:从传统人格权到资讯自决权[J].法学评论,2006(1):57-62.

[21]  钟子云.Cookie机制分析及其安全问题对策[J].桂林航天工业高等专科学校学报,2001(1):10-13.

The Dilemma and Outlet of Traditional Privacy Theory in the Algorithmic Era:

Based on Personalized Recommendation

Zhang Hui

(School of Guanghua Law, Zhejiang University, Hangzhou, Zhejiang  310008)

Abstract:The Civil Code of China clearly stipulates that the protection categories of privacy and personal information cross each other, and the essence of privacy is personal secret. In the age of algorithm, the value standpoint of measuring whether data conforms to the standard of privacy should be transformed from personal dignity and personal freedom to personal independence. The theoretical basis should be transformed from the domain theory and the principle of information autonomy to the level of thought autonomy. The definition mode of privacy should be changed from "internal and external restriction" to "dynamic and static combination". Data in personalized recommendation should be regarded as privacy. First of all, from the static point of view, it conforms to the personalized characteristics of individual, personality and concealment, and is diversified in form, not limited to the form of information. Secondly, from the perspective of dynamic, personalized recommendation algorithm, including content-based recommendation, collaborative filtering recommendation, or knowledge-based recommendation, collects and calculates the user preferences without the permission of the user, interfering with the user's private domain and peeping into the users personality image. The execution result of the algorithm conforms to the “subjectivity" characteristic of privacy.

Key Words:Personalized recommendation; Algorithm; Data; Privacy

猜你喜欢

个性化推荐隐私数据
数据安全事件频发 “隐私”何处安放?
基于链式存储结构的协同过滤推荐算法设计与实现
新形势下个人信息隐私保护研究
个性化推荐系统关键算法探讨
基于协同过滤算法的个性化图书推荐系统研究
室内窗帘装饰性探析
浅议隐私权的边界
公路工程试验检测存在的问题及措施
一种借助数据处理构建的智能食堂管理系统
浅谈计量自动化系统实现预购电管理应用