网络爬虫获取个人信息行为的法律规制研究

2021-08-23文铭刘博

湖南行政学院学报 2021年4期

文铭刘博

摘要：网络爬虫是依据一定算法运行程序对万维网进行所需数据的提取技术。爬虫技术虽然给人们生活带来了极大便利，但也存在恶意掠夺资源的行为，严重搅乱了互联网社会网络秩序，也侵犯了公民的隐私。不正当的爬取信息行为，给企业、政府造成极大的资源浪费，同时也威胁到公民的信息安全。所以在数据时代，我们亟需明确技术发展边界，确定数据性质和访问秩序，并运用法律来捍卫正当使用信息、数据的权利。当前应从立法建议、政府规制和商业保护三个维度对恶意爬取行为进行规制，结合技术发展前景和网络爬虫配置信息资源背景，在不损害公民权益和公共利益基础上，保卫公民的隐私安全，力求发挥法律预测和规范作用，达到法律保障科技和谐进步的目的。

关键词：网络爬虫;个人信息;隐私权;反不正当竞争;技术中立

中图分类号：D9 文献标志码：A 文章编号：1009-3605（2021）04-0043-10

引言

虽然大众不了解网络爬虫，但这一技术早已应用在日常生活中，如搜索引擎、出行抢票、购物比价等软件，这些都是利用网络爬虫得以实现。而换取这种便利的代价便是个人信息更容易被企业以及不法分子获取。通过搜索记录、平台点赞和喜好关注等行为，可以轻易获取用户网络痕迹以及个人偏好，使得公民隐私暴露在互联网中，从而被企业用于诸如广告精准推送等商业获利行为，甚至更有不法分子还将爬取到的信息进行贩卖、实行欺诈等。

现在规制爬虫技术主要依赖于道德协议——Robots协议，这是当今社会为实现爬取方和被爬取方技术沟通而设定在互联网内通用的一种信息程序。Robots协议提示网络机器人哪些网页不应被抓取，而哪些网页可以抓取[1]。在如今信息就是財富的时代，互联网企业利用公民对于网络的依赖，通过采集、挖掘等途径利用网络爬虫技术获取个人信息，并将信息转化为企业自身数据性财产。如淘宝苏安徽美景（参见杭州铁路运输法院（2017）浙8601民初4034号民事判决书）和大众点评诉百度地图（参见上海知识产权法院（2016）沪73民终242号民事判决书）等案件，说明了企业利用网络爬虫采集信息，进而分析市场近期发展趋势、竞争对手动态和获取盈利线索。信息分析和采集能力都是发展的决胜关键，但信息不像传统财产一样具有可视性，而以无形、可共享及可传输为主要形式[2]，所以，在面对“隐形”不法侵害时，应以有力的法律武器捍卫自身权益。

一、网络爬虫技术概述

（一）网络爬虫的诞生

网络爬虫（web crawler）是指按照一定的规则，自动地抓取万维网信息的程序或者脚本[3]。但在互联网早期并不提供搜索信息的服务，互联网仅是一个大型的文件传输协议（FTP）的“汇集地”，使用互联网用户仅能通过各个网站（汇集点）中的导航来寻找自己所需要的文件或信息。随着技术不断发展，网络端口越来越多，互联网中大型数量级网页层出不穷，因其内含种类丰富（包含各种文本资料、图片、视频和音频等），网页变成了向公众开放的数据汇集地。大量网页的公开使得人们无法在海量分散的信息中精准找到自己需要的信息，而当时网站为了增加用户的访问，并非都会给用户提供下载信息的链接，手动检索效率极其低下并乏味。为了方便用户查找互联网上分散的信息和数据，技术人员创建了一个自动抓取程序，它可以通过你的关键词来检索全网分布的信息并抓取互联网上所有与之有关的网页，并将这些网页上的信息复制到后台数据库中制成搜索“书签”，这就是早期爬虫的网络搜索引擎——JumpStation[4]。当时因为技术发展所限，早期的网络爬虫能检索的网页规模十分有限，仅能抓取和复制万维网特定公开的数据，比如政府公开信息、企业部分开放数据等。

（二）网络爬虫的作用

伴随着科学技术进步，互联网得以飞速发展，人们越来越频繁和网络发生互动。而且每一次用户进行“网上冲浪”时都会不可避免地使用爬虫技术来获取自己需要的信息。当我们需要从网页上获得非结构型量化数据时就要利用爬虫技术，而单一的爬虫技术不可能精准抓取网页数据，现实发展的需要使得今天的爬虫技术是多种技术融合的产物。

1.爬虫技术构成网络搜索引擎系统。利用聚焦爬虫技术可以最大效率地发现与之搜索关键词或主题关联度最高的网页，而通用爬虫可以给人们提供搜索入口，如创建快照或快捷链接等。利用爬虫技术搜索系统可以更加高效快捷地为用户提供精确的内容。

2.建立大型信息数据库。爬虫技术获取信息的关键在于必须拥有大型信息数据库。建立信息数据库可以帮助企业分析网络用户的爱好、行为以及了解到竞争对手的近期动态;也可以帮助政府收集公民或行业信息，以便制定合理政策并分析行业发展趋势;学者也可以利用爬虫收集的数据和信息进行合理的学术研究等。

（三）网络爬虫运行机制

网络爬虫整体爬取流程简言之是用户通过网络发起爬取信息Request（浏览器发送消息给网址所在的服务器，这个过程就叫做HTPP Request），当网络服务器中的爬虫系统检查到用户的请求时，为了Response（其内容便是所要获取的页面内容，类型可能是HTML，Json字符串，二进制数据如图片或者视频等类型）用户的请求，爬虫利用数据信息库所储备的信息在内部进行数据检索并解析信息，最后将解析后的信息保存在数据库内，同时将解析后汇总的信息输出给发起Request的用户。

二、网络爬虫应用中存在的问题

（一）网络爬虫的应用

在日常生活里爬虫技术不仅应用在搜索系统中，还应用于很多领域。

1.舆情监测。通过对网络上散布于各种介质中如搜索引擎、新闻网页、微视频、博客、论坛帖子、电子报刊、微信等相关舆情信息，利用大数据采集并筛选，从而有效准确地发现民众发表关于社会的舆论情况，帮助政府或企业及时采取应对措施并将负面舆论的危害减到最小。

2.比价、抢票类APP。大数据家维克托·迈尔舍恩伯格曾经说过：世界的本质是数据。如今信息冗杂、平台众多，针对用户想在众多电商中挑选到最高性价比商品的心理，便催生出比价APP——返利网、拼多多等。这些APP利用爬虫技术监控各大电商平台的商品价格设置系统爬取数据进行汇总，并对商品种类、价格、型号、配置等数据采集，然后再实现数据的整合、分析并反馈给用户，出行类抢票APP亦然。各大电商平台对于比价爬虫深恶痛绝，因为其导致平台工作量大大增加，但却没有给平台带来任何流量和经济效益。同时，电商平台还不能设置过于复杂验证码来防止爬虫侵扰，因为一旦验证码过于复杂就会损失大量真实客户，所以通常采取手动拉取滑块到指定位置等验证方式来减少一些低级爬虫侵扰，但对于采用pytesser、PIL技术的爬虫系统则可以轻易破解“滑块”这类验证码。

3.虚拟货币套利。因为时差和汇率的变动，而虚拟货币是跨境交易，所以受时差、汇率、费率以及国家政策影响，不同交易平台的售价是有差异的，虚拟货币的投资者为了使其自身利益获得最大化，可以利用爬虫技术设置运行程序自动监测不同平台虚拟货币的价格变动，以期在最佳价格及时抛出虚拟货币从而赚取丰盈差价。

4.储备信息、知识等资料。网络爬虫扫描、分析和保存信息，帮助识别和提取数据以供分析，汇总来自不同来源的信息，如通过知网、万方等学术网站检索关键词来获取学术报告、文献、期刊;通过小说网站下载电子小说;通过音频网站收听有声小说、广播剧等都是爬虫技术的应用。

（二）网络爬虫应用中存在的问题

现如今互联网中早已经爬满了“爬虫”，而且越是与用户利益和信息相关的地方，就是“爬虫”越喜欢的地方。但这些爬虫善恶不同、心思各异。而抢占公共资源、爬取用户隐私、商业秘密的“坏爬虫”，则应该进行规制。

1.抢占公共资源。因为恶意爬虫违背了Robots协议，爬取大量信息、甚至攻击企业网站，使得网站不能正常运行，严重会造成大量人力财力的浪费。如抢票软件应用中，当爬虫利用虚假客源但却用真实的身份信息成功抢票时，便已破坏了社会公平秩序并且消耗了大量的网络资源，且不产生有效收益，造成社会资源的浪费。

2.网络安全问题。（1）个人信息泄露。部分政府职能部门或企业机构为了减少民众的奔波之苦，如缴纳社保、公积金查询、企业信息核查在互联网或APP上就可以完成。但这些个人和商业秘密信息都存在被不法机构利用爬虫技术获取的风险。甚至爬虫技术还可以进行更高级别的密码破解。虽然随着反爬虫技术不断发展，简单爬虫并不能破解包含动态验证码等密码程序，但若利用其他机构服务或设置破解、识别复杂验证码的算法让爬虫进行学习，爬虫识别后自动输入验证码则可继续爬取数据[6]。（2）过度爬取信息。金融贷款机构等平台，利用爬虫绕过反爬虫设置或主动爬取超过软件使用目的范围的信息，甚至侵害企业法益。访问地理位置、人脸照片、通讯录访问等非必要信息。信息获取之后，商家有的收为己用，有的则进行非法贩卖交易。不仅侵害了商业秘密还损害了个人财产利益[7]，甚至是违反了不正当竞争的规定。（3）平台不正当竞争。用户或运营方在协议中也鲜少提及个人信息是否会被用在公司的商业化运营中，是否个人信息会被企业用于商业输出等细节，而目前现状则是，没有下限采集、抓取用户信息，如金融平台保存的用户个人身份号码、家庭详细住址;交流平台储存的用户偏好;电商平台留存的银行卡信息和消费限度等个人信息，也是企业的商业秘密。平台利用用户习惯吸引更多的用户从而掌握更多的信息，而平台利用滚雪球式的网络效应将掌握的数据视为竞争中的核心资产，从而在残酷竞争的网络时代获得有利地位和详尽的信息。微博诉脉脉（参见北京知识产权法院（2016）京73、淘宝苏民终588号民事判决书）案中利用爬虫技术抓取微博网站中的高价值信息和用户数据，脉脉将爬虫技术转化成其利益输送的工具。数据协议仅是个人与运营方双方之间的协议，缺乏平台之间“搭便车”的监管，对于协议是否公平，是否合规，不仅需要反爬虫技术进行实时监控，还需要第三方机构或政府部门进行监督审查。

3.“数据壁垒”。互联网公司凭借早期的发展积累了大量用户并且掌握众多用户信息，拥有庞大的个人信息数据库。但对大公司掌握的数据不能共享，使得新兴的互联网公司为了快速取得市场，则利用爬虫技术设定爬取某些公司网站源代码程序，从而窃取商业秘密。或者利用第三方机构程序来监控部分企业网站变化，爬取用户信息变为已用。因为现在网络信息、资源的不平衡形成的“数据壁垒”使得利用爬虫技术获取不当利益的行为日益增多，这需要政府来保障行业资源平衡分配从而给予小企业生存空间，但更应该从法律源头杜绝爬虫技术非法爬取信息破坏行业竞争秩序。

三、国内外关于爬虫爬取个人信息的法律规定

（一）域外的法律规定

通过表一可以看出，目前针对爬虫技术仅有美国设置专项法律条文进行规制，而其余国家则是从保护个人信息角度出发间接进行规制。美国趋向于利用其网络技术审核、检测系统保障爬虫技术发展，并且以明确的法律归责条款，减低运营机构入罪标准。而日本和欧盟则要求对于采集到的信息进行“匿名化”处理来保障信息安全，从而减少爬虫爬取个人信息的危害。德国采取默示使用原则，认为不及时采取措施就是允许，对爬虫发展采取极大宽容的规定。比利时则相反，采取授权使用原则。可见全世界针对爬虫爬取信息的法律规定并无统一规制标准，但却都一致认为，爬虫仅为行为人为达到其目的而采用一种技术手段而已，各国都并不限制爬虫技术的发展。同时，各国都在通过加强自身数据控制力、重视自身網络空间安全建设和减少自身数据泄露发生等维度来完善自身信息安全的保护。

（二）国内的法律规定

我国目前并无具体法律对网络爬虫进行规制，但是相关法律中某些条文从个人信息保护、网络运营者权责以及市场运行秩序等多个维度进行了规定，从而限制“恶意爬虫”的行为。（见表2）

我国针对网络爬虫获取信息的法律规定分散。现行法律并未对爬虫性质和爬虫抓取信息的行为进行性质界定和技术识别，而是采取统一罪名认定，这导致针对爬虫的罪责处罚范围较大：仅依据数量和结果造成严重后果时才认定犯罪，显得过于片面和死板。同时，我国现在关于网络安全的立法较为单薄且并未针对数据权属进行专项规定，使得法律难以界定爬虫获取信息侵害的不同法益。另外，现在数据种类众多，但是我国法律并未规定明确的“数据权”，使得关于确定爬虫爬取信息罪责更是难上加难。我国法律应该逐步建立个人信息的全面保护，对数据爬取的违法行为进行全覆盖，才能有效保护不同法益。

四、网络爬虫爬取个人信息的法律规制建议

爬虫技术是我国科技网络发展的重要技术，完善法律规范更应使其成为科技发展的坚强保障。若当网络用户的权益受到爬虫侵害时，仅有Robots协议并不能完全规制爬虫非法获取信息的行为，所以树立明确的行业标准，建立健全法律规制刻不容缓，坚决做到有法可依，保卫公民的合法权益。

（一）加强顶层设计，完善立法保障

在网络时代数据即金钱，而技术则是决定互联网发展方向和前景的关键因素。法律不应限制科技的发展，更应鼓励技术创新。不过，也要考虑适度原则，若过度保护技术则可能会导致行业垄断、数据资源不平衡等问题。法律应寻求技术发展和保护用户权益之间的平衡点。

1.坚持技术中立发展的方向。从法律角度看，技术本身无错，谈何规制技术使用？关键在于持有、利用技术的人是从何种心思、目的来应用它。所以，应从技术利用者的目的、行为判断是否与法律规定相冲突，确定其是要承担相应的法律责任还是应认定为合理使用。若其行为破坏社会正常运行秩序，不利于市场正常竞争，侵扰个人合法权益等则认定为恶意利用技术行为，应受到法律强制力的制裁。确定技术行为的重要性在于，这是判断是否构成犯罪的标准之一。另外，法律也应明确技术使用方应注意的义务，使得提供技术方在法律的框架内实现技术创新。

2.建立综合法律治理体系。我国需要建立健全网络时代法律体系：明确网络数据的权利属性、确定电子信息法益。建立以网络安全为主导，综合民事、刑事、行政等法律融合的治理体系，完善我国网络安全的刑事责任、民事责任和民事赔偿制度。实现公民权益和技术发展的和谐。做到在一定范围内法律既保护信息流通，又保全网络用户的合法权益，从而依法鼓励技术不断创新。用法律来维持网络空间发展秩序，自由不应以失去自由代价。

3.界定恶意爬虫罪行性质。网络商业环境的错综复杂和行业更新换代频率日益加快，使得更加难以定性爬虫爬取信息行为性质。由于我国目前的法律规定难以对恶意爬虫爬取个人信息进行准确的罪行认定，就会造成一些不法分子难以被法律惩戒，或者处罚过于轻微难以达到教育目的。爬取方可能利用法律漏洞，从而给自身披上“合法外套”来获取个人隐私信息、政府重要数据、商业秘密等，但不同种类的信息危害社会、法律秩序的程度不同，其行为侵害的法益也不同。建议立法者应从法律层面界定不同爬虫行为的危害程度来确立不同罪名，实现有效规制恶意爬虫。

（二）强化政府职能，营造法治环境

1.创造和谐的发展环境。政府在面对新技术发展背景下，应摆脱“一刀切”规制方法，采取有限度的自由发展策略激励企业进行技术创新，维护企业的经济效益。同时，针对利用技术进行破坏市场合理竞争秩序的行为进行严厉打击，开展专项打击网络违法犯罪、贩卖个人信息的“黑灰”产业活动，给企业创造一个安定有序的发展环境。

2.加强政府监督职能。政府应定期检测网络行业的技术设备、安全设施系统，确立访问数据规则界限，以保障公民信息安全。同時也应建立第三方监测系统，监测企业不法利用爬虫技术行为。一经发现则及时采取措施中止爬取信息的行为，并对相关企业进行警告，造成严重的后果的应采取强制措施，造成不可逆损害的应对其进行相应经济惩罚。

3.打破数据壁垒。现在互联网企业不可能依靠单一爬虫技术来支持运营，而是应用多种爬虫模式收集、整合各类数据，并结合自身信息库进行有效运营。因为数据具有不可取代性，对于商家来说若稀缺性的数据不能及时获取就会失去大量商机。为了避免陷入垄断危机，立法者应引入“必要设施理论”，使稀缺数据持有人承担开放数据义务，力促打破数据壁垒，实现资源共享，促进企业和互联网技术和谐有序发展，维护三方的权益。

4.公共信息增值开发。政府公开信息是共享的，但是这些信息分布零散且冗杂，不易直接使用。政府可将这些共享信息进行增值开发，减少社会资源分配不均问题的产生。采取“谁使用谁付费”的原则，向数据使用者收费。有利于减少数据拥堵的发生，同时还可以减轻政府对信息增值和信息个性化加工支出的费用，并有利于矫正爬虫行为的负外部效应。

（三）强化行业责任，减少不正当竞争

爬虫爬取信息而穷尽网页资源（如图3）。现互联网行业制定自律公约——《互联网搜索引擎服务自律公约》（下文简称公约），其作为行业公约限制恶意爬虫的作用十分有限，因为爬虫获取信息并不仅限于搜索引擎而已经扩展到其他互联网的领域，则《公约》显得心有余而力不足了。所以应从源头进行规制，限制其访问源，并设置严格的反爬虫措施来防范爬虫的侵扰。

1.保障网络空间安全。（1）严格把控信息。源头黑客技术、恶意窃取信息技术屡禁不止，为了从根本上保护信息安全，最重要的是从源头截断一切可能入侵的行径。对源头数据进行技术加密，并对数据本身进行加密处理。即使信息在传输、储存、整合的过程中被爬虫爬取了信息，只要没有掌握数据加密的运算程序，就不可能破解数据所包含的信息。应使信息加密成为行业必备的保护信息的手段之一，保卫网络空间的安全。（2）限制爬虫访问源。在信息日益膨胀的时代，要愈加重视信息的保护。设置有效的技术手段防止爬虫爬取用户信息，如网页反作弊措施。而针对网络中公民公开的信息，平台应坚持适度使用原则，尊重用户意愿，打破“行业壁垒”，坚持数据共享理念，实现有序发展。（3）构建专业反爬虫平台。因为爬虫变化多端，所以反爬虫技术需要复杂的技术支持和专业团队及时更新系统，费时又费力。建议行业应统一构建专业的反爬虫平台，可以实时监控爬虫技术的变化，提高各企业应对恶意爬虫的反应速度，同时减少各企业应对恶意爬虫的经济成本，有利于各行业的应对策略迅速发挥作用。

2.搭建产权保护平台。大企业应承担相应社会责任，推行网络运营平台、技术服务的信用评分系统，以身作则接受全社会的监督。杜绝深度链接和加框链接等不正当截取信息的行为，以诚实信用原则作为行为的依据，维护用户、平台双方利益。尊重用户意愿，行业应分化“搭便车”和侵权权益，建立数据使用、流通的平台，应不断调整获取信息的规则，避免日新月异的发展中格式化和机器化。搭建产权保护平台也应充分调动用户的积极性，发挥用户和舆论的监督作用。

3.落实平台监督管理责任。各行业应树立自身主体意识，落实举报监督核查体系，确保监督工作的可操作性。行业应积极促使行业规范和相关法律法规的有机结合和无缝对接。平台应采取多种渠道监督，如网络监测、运算程序重点排查、及时纠错等形式，定期梳理平台的信息，防止爬虫抓取信息，有利于企业保护自身商业数据，提升平台发展前景。平台应定期允许第三方机构检测爬虫爬取信息行为是否违反行业秩序或法律规定，尽到平台管理责任，保证商家合法运营。同时也促使商家用高质量的服务赢得用户，保持良性网络行业的发展。

结语

爬虫技术不应为人类的不正当使用行为“背锅”。我们应从数据用途和使用渠道来规避其侵害产权，但物竞天择，正当竞争造成的损害是有益于进步的，也会激励创新，而恶意利用网络爬虫技术则破坏了市场秩序，它窃取用户信息、企业商业秘密等行为打破了用户、运营者和作者三方的平衡。我们应发挥爬虫技术的中立性，实现互联网塑造融合开放共享的理念，保护用户权益，推动网络的繁荣发展，促使技术和法律和谐发展。我们应发挥法律的预测作用，不断调整法律使之适应社会的快速发展，否则在未来，网络世界可能面临着无所不在的信息安全隐患问题。

参考文献：

[1]李帅.网络爬虫行为对数据资产确权的影响[J].财经法学，2020（1）：25-34.

[2]刘金瑞.数据财产保护的权利进路初探[J].中国信息安全，2017（12）：37-39.

[3]杨定中，赵刚，王泰.网络爬虫在 Web 信息搜索与数据挖掘中应用[J].计算机工程与设计，2009（24）：5658-5662.

[4]Kimmel-Smith-S.Robot-generated databases on the World Wide Web[J].Database，1996，19（1）：N /A.

[5]騰讯云鼎实验室发布《2018上半年互联网恶意爬虫分析》[EB/OL].（2018-09-12）[2020-08-01]https：//cloud.tencent.com/developer/article/1336209.

[6]张晔，孙光光，徐洪云，等.国外科技网站反爬虫研究及数据获取对策研究[J].竞争情报，2020（1）：24-28.

[7]王燃.论网络开放平台数据利益分配规则[J].电子知识产权，2020（8）：45-55.

[8]刘晓春. 数据抓取的边界在哪里？[N].人民法院报，2020-03-19（07）.

责任编辑：周育平