APP下载

爬虫技术与个人信息的保护

2020-08-23王晨雨

河南科技 2020年12期
关键词:隐私保护个人信息

王晨雨

摘要:互联网时代,数据就是资源,就是话语权。近年来,网络爬虫技术被广泛应用于互联网数据的获取,国内也出现了不少非法收集、利用个人信息的案例,监管部门亦在完善立法、加强监管。无论如何技术革新,都应严守依法合规的边界,做到个人信息安全,不得侵害个人隐私。本文从爬虫技术的概念入手,在对现有案例分析的基础上对爬取数据行为进行了法律界定,并提出爬虫技术下个人信息保护的对策。

关键词:爬虫技术;数据抓取;个人信息;隐私保护

中图分类号:TP391.3文献标识码:A 文章编号:1003-5168(2020)12-0154-04

1 背景介绍

近年来,随着互联网技术、大数据、云计算、人工智能的迅速发展,各行各业的竞争实质上变成了大数据的竞争,谁掌握了数据就掌握了主动权。如何有效地从互联网上获取所需要的信息已经成为众多互联网企业竞争研究的新方向。在大数据风控行业中,网络爬虫技术被广泛的应用。网络爬虫,是一种用来自动挖掘互联网信息的网络机器人,通过遍历网络内容,按照指定规则下载所需要的内容。本质上就是实现高效、自动的读取、搜集网络信息。网络爬虫应用的场景很多,所有的搜索引擎都会用到该技术,网站可以通过爬虫技术自动更新网站内容,爬虫技术还可以被用来抓取网络公开信息,建立专业的数据库,例如外汇数据库、商户信息数据库等[1]。

越来越多的企业甚至个人利用爬虫技术更加便捷精确的从网站上获取数据这时就可能会出现恶意用户会利用爬虫技术对服务器进行攻击,为了维护互联网的秩序,保护用户的数据隐私,防止数据被过度的爬取,就会出现各种各样的反爬技术,运用Robots协议、自动内容访问协议、网络爬虫检测、加固Web站点等手段限制爬虫的访问权限[2]。robots协议以其简单高效的优点被国内外普遍采用。信息提供者可以在自己的站点设置robots协议,用来告知爬虫控制者哪些信息是我不希望被爬取的。Robots协议是国际公认的互联网领域内通行标准,但其性质在法律上并没有明确的规定[3]。

2 爬取数据行为的法律界定

在现实运用中,爬虫控制者为避免网站设置的反爬虫程序,可能会采取伪装措施。这样爬虫控制者不仅面临爬虫技术获取数据本身的风险,而且还可能面临着爬虫技术搜集到一些受到法律保护的个人信息,而游走在违法违规的边缘。违规使用,买卖爬虫得来的数据,则是导致数据泄露、隐私泄露等一系列问题的根源。

2.1 获取到的信息受到著作权法的保护

在网络大数据中,存在着很多独创性的数据,例如:文章、图片、个人评论等,就数据保存本身而论,根据著作权法的角度来阐述,数据抓取行为本质上是对信息的复制,因此这些行为有可能构成对著作权人的复制权的侵犯。当然,我国对临时复制行为是持宽容的态度。但如果爬虫控制者在自己的网站上获取信息并公开传播抓取到的信息,则可能进一步侵犯著作权人在互联网上传播信息的信息传播权。

数据爬虫侵犯他人著作权,首先要判断爬取的数据是否直接构成他人具有《著作权法》保护的独创性作品,退而求其次,被爬取的数据是否直接构成汇编作品,这两个请求权基础是被爬虫数据企业主张的依据[4]。例如:在美亚长城影视文化(北京)有限公司与精伦电子股份有限公司侵犯影视作品信息网络传播权纠纷中精伦电子股份有限公司主要通过相关主体和技术从互联网上抓取影视链接地址,并由其提供播放器进行播放。法院认为:精伦电子向其用户提供搜索、链接服务,让其用户获取涉案影视作品的行为是否构成侵权是本案双方当事人争议的主要焦点。精伦电子盈利的点是第三方网站提供的影视内容,精伦电子链接他人版权作品提供给自己的用户,应该取得著作权人及相关专利人的许可并支付相应对价,但是精伦公司没有取得许可也没有支付对价,法院认为,精伦电子让用户获取涉案影视作品的行为主观上具有过错,构成侵权。

在知识产权方面,在我国的司法实践中,数据会变能否享有著作权,主要看該作品是否具备著作权法上的独创性。在大众点评网诉爱帮网一案中,一审法院认为,大众点评网中针对餐馆介绍的语言以及所引用的图片和对餐馆点评内容构成的整体可以视为汇编作品,原告作为网站的经营者,对上述内容享有著作权,但在二审中被法院驳回,二审法院认为大众点评网只是对网友的反馈信息按照时间的顺序排列,不能视为具有独创性。同时,本案现有证据无法证明上诉人对用户点评内容进行了选择。故二审法院没有支持。数据抓取方式侵犯汇编作品著作权的主张,后来大众点评另行提起不正当竞争诉讼,获得法院支持[5]。

2.2 获取到的信息属于商业机密

虽然网络上公开的信息很难构成商业秘密,但由于网络上的数据可以通过设置权限使一部分用户可以接触,因此网络上的信息任然可能具备商业秘密要求的秘密性和保密性,构成商业秘密的可能。根据《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该信息,则构成对他人商业秘密的披露和使用,同样构成权利人对商业秘密的侵犯[6]。

2.3 获取到的数据构成不正当竞争

在大众点评诉百度不正当竞争案件、新浪微博诉脉脉不正当竞争案件、深圳市谷米科技有限公司诉武汉元光科技有限公司不正当竞争案中,在这些案件中法院最终都认定为被告构成不正当竞争,原因是被告未经原告许可,使用爬虫技术抓取并且利用从原告网站中获取的数据牟利,这种行为不仅违反了诚实信用原则,破坏了互联网市场的竞争秩序,并且侵犯原告的利益,损害其竞争优势,从而构成不正当竞争。

本文认为上述案件之所以能够胜诉其共性在于原告网站中的主要优势来源于平台的信息和数据,而这些信息和数据是由其用户产生的。这种模式被称为UGC模式,在这种模式下,未经网站或者用户的同意,在自己的产品中使用用户在网站上发布信息的,很容易会构成不正当竞争。

2.4 爬虫抓取的信息属于用户的个人信息

《网络安全法》第四十四条任何个人好人组织不得窃取或者以其他区非法方式获取个人信息。因此,如果爬虫控制者在抓取用户个人信息时没有经过对方的同意,那么这个行为就很容易被定性为非法收集个人信息的行为。

近日51信用卡利用爬虫技术非法获取用户信息被杭州市公安局立案侦查。51信用卡如同很多网贷公司一样,委托外包公司进行追债,在外包公司暴力追债的过程中,51公司通过爬虫技术获取个人通讯录、地址等敏感信息。在对网络爬虫技术侵犯公民个人隐私案件中,首先要确定的是抓取的信息是否属于公民的个人信息,其次是爬虫技术抓取信息的行为是否违反国家关于个人信息保护的法律法规,最后还要注意这种非法获取的行为是否达刑法中要求的“情节严重”或“情节特别严重”的标准。

3 爬虫技术与个人信息保护

3.1 欧盟推出FDPR

随着经济全球化和互联网行业的快速发展,保护数据隐私的问题不可避免的成为了一个全球性的问题。对此欧洲的反应比较激烈,在欧住的文化中一直都比较重视保护个人的隐私。早在2018年,欧盟就推出并实施了《通用数据保护条例》(GORP)。该条例可以称得上是世界上最为严格的数据隐私保护条例,是因根据该条例,开出的罚单可以说是天价了,犯罪的成本增加了,人们就更加谨慎了。该条例更严格的是它不仅约束欧盟的成员及公司,而且只要你的客户或者用户中有欧盟国家的公民,并且你需要获取利用他们的数据,就会受到GORP的管辖。此外,不仅对抓取信息的一方有天价的罚单,对于那些因为自己没有保护好数据而导致数据泄露的,处以1 000万欧元或一年以上全球营业额的2%,两者取其高;自主泄露用户数据的,处于最高2 000万欧元或者企业上一年全球营业额收入的4%,两者取其高[8]。

該条例自推出以来就饱受争议,有人认为这会阻碍科技的创新。一直关注GOPR的中国互联网协会研究中心秘书长、北京师范大学刑事法律科学研究院沈括教授认为该条例的出台有其复杂的原因,不仅仅是对数据隐私的保护,而是深层次融合了国际政治博弈、产业经济竞争以及社会文化扩张等诸多元素的复杂综合体。麒麟合盛网络技术有限公司作为中国互联网“出海”最具代表性的公司,全球用户超过14亿,覆盖全球200多个国家和地区,其重要业务在欧洲市场。该条例的出台对该公司的发展非常大。据该公司的法务总监吴映京在中国经济周刊中表示,该公司成立了专门针对GDPR的研究团队。根据美国专业机构的数据调查,在美国,68%的国企预计将花费100万到1 000万美元来满足GDPR的要求。这从侧面反映了,初创公司进入欧洲市场的一个门槛就是是否能达到GDPR合规工作投入额外的资源和成本。

该条例实行一年多以来,真正满足人们幻想的天价罚单只有三张,可见对巨额罚单还是比较审慎的,这主要针对大型企业的数据泄露事件,应该说在实践层面,该条例达到了创新和保护隐私的某种平衡。

3.2 中国的数据保护红线

目前,在世界范围都掀起了一股保护数据隐私立法的热潮,欧盟GOPR的推出在数据隐私保护方面取得了显著的成绩,韩国、俄罗斯、日本等国也都纷纷设立了类似于GOPR的隐私保护法,美国各州已经陆续开始落实数据隐私保护法规,推出了一系列保护数据隐私的方法,比如有人提出数据就是财产这个模型,这样一来,数据就可以出售,可以获得对价。手机别人的信息需要支付财产,用户本身也会有收入。在美国的联邦层面却没有设立数据隐私保护法案,出于对各个州的利益考虑,短期内出台数据隐私保护法案的可能性不大。

我国的数据红线应该划在哪里?自从在我国2017年6月起施行的《网络安全法》,2018年5月生效《个人信息安全规范》以来,已经有了很多关于隐私保护的法规,例如《个人信息保护法(草案)》《网络安全审查办法(征求意见稿)》《APP违规违法收集使用个人信息行为认定方法(征求意见稿)》《网络安全漏洞管理规定(征求意见稿)》等,吴映京表示,从现有的法规来看,国内对数据隐私的保护并不比欧洲弱,我国虽然没有设置天价的罚单,但侵权者面临基于我们国情的处罚,甚至还有可能承担刑事责任。

数据就像是未来的“石油”,数据的搜集在跟人们带来便利的同时也会产生数据隐私问题,因此对数据的利用以及收集的方法都必须遵循正当、必要且合法的原则。这要求政府制定出合理的、可执行的法律法规,企业和人民共同去遵守和执行。我国现在还正处于摸着石头过河的阶段,数据使用的尺度需要三方共同去寻找和把握。目前无论是国外和天价罚单还是国内的各项法规的制定,不能片面的评价哪个是最好的,这需要结合本国的实际情情况来分析,但是归根结底就是在于明确社会、企业和用户在隐私保护中的责任,平衡好三者的利益。这三者应该是相互促进,互惠互利的关系,并不是非此即彼的敌对关系。要通过制度的设计,技术的创新甚至是教育的推进来积极的解决这些问题。

司法部副部长赵大成指出,互联网的普及会越来越广泛,数据的应用也会越来越深入,数据的价值也会越来越大。虽然数据隐私保护问题依然严峻,但是在治理过程中不能因噎废食,要抓住大数据时代的机遇,迎接挑战,广泛凝聚依法治理的共识,共同推进全球数据治理朝着更加平稳有效的方向发展[8]。

3.3 爬虫问题最终需要技术来解决

在当下的时代,技术日新月异,欧洲实施了如此严苛的数据保护条例尚且还被质疑会阻碍科技的创新,“只要市场存在,即使监管再严格,也总会有人会因为利益去铤而走险”,北京大学市场与网络经济研究中心陈永伟研究员这样认为。他认为仅仅依靠法律是很难从根本上解决,技术问题仍然需要技术来解决。陈永伟说“比如获得图灵奖的、清华大学姚期智教授的“多方安全计算(MPC)”才可能是彻底解决这个问题的路径,通过技术手段实现,保护和用户的数据隐私,又能够获得有价值的数据挖掘”[5]。

事实上无论是商业模式的需要还是科学技术的进步,这都是一把双刃剑,他们都是数据隐私的加害者,也是数据信息的守护者。因此我们可以通过鼓励企业技术创新甚至是商业模式创新,大力发展区块链技术以及多方安全计算技术,来达成个人信息保护与数据利用的动态平衡。

3.4 侵权频发,“技术中立”值得思考

“爬虫技术本身是中性的,关键在于是否合规使用爬虫数据”中关村大数据联盟秘书长陈新河在接受《中国新闻周刊》采访时表示,如果通过爬虫抓取网络公开信息或授权信息,并不违规,但如果抓取的是未公开、未授权的个人敏感信息,并且违规存留、使用、买卖这些隐私数据,就属于违规行为。

“爬虫”从法律角度而言,是一种通过特殊途径和渠道获取信息的一种手段,其本身作为一种网络技术手段,被广泛的应用到网络系统中,并不存在天然的违法性。只是其使用的手段和目的决定了其是否会产生违法的行为和后果。随着信息技术的迅速发展,全球数据呈现出爆发增长、海量聚集的特点,对经济的发展和民众的生活都产生了重大的影响。

也有人持不同的意见。在51信用卡案中,爬虫技术在其中起到什么作用,程序员又扮演什么角色?随着越来越多的网站建立起信息的壁垒,反爬虫技术几乎成为每一个网站必备的保护措施。在这种情况下爬虫程序员只能通过一些手段来获取数据,反爬虫程序和爬虫程序就一直在相互比拼,在实际中爬虫程序很有开“外挂”的可能性。比较温和的方法是先伪装成该网站的用户,绕过反爬虫程序,更加厉害的就是直接攻击该网络的保护措施,到达获取数据的目的。

在这种情况下爬虫技术就没有中立性可言,开挂的爬蟲程序只是获取数据的一种手段,其目的非常明确,就是欺骗、绕过、攻击、破解网站的保护措施,这时程序员的行为就具有了违法性。我国刑法对于此类的单位犯罪一般采取双罚制,既处罚单位也处罚直接负责的主管人员和直接责任人员。对于那些开了外挂的爬虫程序的编写者程序员来说,没人比他们更了解该爬虫程序能爬到什么东西以及带来的后果是什么,存在犯罪的主观恶意,而且程序员起到关键的作用。这就是在51信用卡案件中程序员会被批捕的原因。

3.5 对企业和程序员提出的建议

法律具有一定的滞后性,虽然现在爬虫技术还游离在法律的边缘,但随着爬虫技术的发展,其所带来的利益和伤害都会原来越大,法律必将会将其纳入到其调整的范围,在法律正式生效之前程序员与公司应该如何规范自己的行为?

对于数据交易来说数据的提供方和使用方双方都有责任。数据的提供方可能存在数据的过度采集、非法采集等问题。数据使用方的主要问题就是非法使用、转卖,很多公司在花钱买了数据之后,为了降低成本就会将数据转卖,这里面的问题比较严重。

这就要求网站搜集个人信息应当按照网络安全法规定及有关个人信息保护规定本着合法、正当、必要原则,不应该强制要求用户授权;向他人提供信息的,应当取得信息主体的同意;委托他人处理本企业数据的,确保他人具备维护数据安全的能力,委托合同中确定好双方关于数据合规的权利与义务。对于程序员而言,要时刻有职业警惕性,明确自己做出的爬虫程序抓取的对象是否合法,具体来说是否涉及用户的个人信息,如社交信息、财产信息、通信信息等,是否涉及被抓取用户的商业机密,更重要的一点是明确与被抓取的对象是否存在竞争关系。最后作为程序员要严格要遵守公司对于软件开发的规定。

对于公司负责任人而言建议严格管理和贯彻公司内部软件开发流程和规范,引入外部法律顾问定期对公司内部进行培训,更重要的一点是,建立完善公司内部授权机制,明确管理层与项目开发人员对产品开发流程的权限范围,以便发生问题时,及时找到相对应的责任人。

4 结语

在数字经济时代,打破数据壁垒,实现资源共享是符合发展的要求的,是推动我国数字经济发展的必由之路。所以保障数据的安全和合法的权益就显得更为重要,这需要立法、司法、执法、联合起来应对新技术带来的挑战,寻求技术创新与社会公平自由竞争秩序之间的一种平衡。

参考文献:

[1] 李慧敏,孙佳亮.论爬虫抓取数据行为的法律边界[J].电子知识产权,2018(12):58-67.

[2] 刘鹏.利用网络爬虫技术获取他人数据行为的法律性质分析[J].信息安全研究,2019,5(06):548-552.

[3] 蔡恩泽.网络小爬虫莫堕落成小扒手[N].证券时报,2019-10-24(A03).

[4] 曾泓竣,曾千容.探析数据爬取中的相关知识产权问题[J].法制博览,2019(17):225.

[5] 孙冰.“爬虫”背后的灰色大生意/个人数据隐私保卫战[J].中国经济周刊,2019-10-31.

[6] 祝建军.利用爬虫技术盗用他人数据构成不正当竞争[N].人民法院报,2019-05-23(007).

[7] 曹阳.我国对违反“爬虫协议”行为的法律规制研究[J].江苏社会科学,2019(03):159-167.

[8] 丁晓东.数据到底属于谁?——从网络爬虫看平台数据权属与数据保护[J].华东政法大学学报,2019,22(05):69-83.

猜你喜欢

隐私保护个人信息
个人信息保护实务大全(上)
保护死者个人信息 维权要不留死角
敏感个人信息保护:我国《个人信息保护法》的重要内容
浅论非法使用个人信息的刑法规制
主题语境九:个人信息(1)
刊评调查
基于层次和节点功率控制的源位置隐私保护策略研究
关联规则隐藏算法综述
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施