隐私窃取及其防范：基于人工智能技术的思考

2020-11-04单美静

犯罪研究 2020年5期

单美静

一、引言

当前，网络数据已经成为国家重要战略资源和新生产要素，对经济发展、国家治理、社会管理、人民生活都产生了重大影响。然而，一旦发生数据滥用则会产生巨大的危害，如基础设施数据汇露事关国家安全、数据违规流转危害行业安全、数据泄露侵害公民隐私等。因此，数据的重要性显而易见。同时，数据也是人工智能（Artificial Intelligence，简称AI）的三大核心驱动力和生产力之一。目前，人工智能广泛应用于公开数据的深度挖掘，集中在采集、管理、分析数据、挖掘信息与事实之间的关联性分析等。实际上，人工智能也同时应用于多渠道信息数据的收集与分析工作，例如，军事情报数据的收集与分析、社交媒体信息数据的收集与分析、网络舆情信息数据的收集与分析等。总之，数据的地位日益提升，数据的安全性也受到重视，尤其是个人隐私数据。

个人隐私是指公民个人生活中不愿告人或不便告人的信息，且该信息与其他人及社会利益无关。隐私权是公民享有的私人生活安宁与私人信息依法受到保护，不被他人非法侵扰、知悉、搜集、利用和公开等的一种人格权。〔1〕张新宝：《隐私权的法律保护》（第二版），群众出版社2004年版，第10页。2021年1月1日将施行的《中华人共和国民法典》第1032 条规定，自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。因此，盗取他人隐私进行非法传播属于违法犯罪行为。

近年来，世界各国都在向大数据的开放、共享“转型升级”，在此过程中隐私泄露、隐私破坏、隐私侵犯甚至隐私窃取等数据安全问题日益突出。在我国，数据安全与个人隐私关系密切，同样也面临严重挑战。科技公司、通信服务商、电商平台等信息技术服务类行业，银行、证券、理财、保险等金融行业以及医疗卫生、交通运输、教育求职等重要行业涉及个人隐私数据窃取频发，国内多家企业的上亿用户的简历、智能家居的用户信息等大规模隐私数据也遭遇窃取。随着人工智能技术的不断发展，一些不法分子利用最新的技术手段进行非公开隐私数据的获取与犯罪。作为一把双刃剑，人工智能技术到底如何被用于隐私数据的窃取，又是如何应用于防范隐私窃取，是亟待研究和讨论的课题。

二、人工智能背景下的隐私窃取

人工智能技术作为犯罪手段，常被不法分子用于窃取隐私的违法犯罪活动。在此过程中，面对不同种类的隐私，所使用的技术手段不尽相同。

（一）隐私分类

2016年，欧盟发布的《一般数据保护条例》将个人数据定义为“与已识别或可识别的自然人有关的任何数据”，其范围包括但不限于“自然人的姓名、家庭住址、电子信息、身份证件号码、位置信息、IP 地址、浏览记录IP、手机识别码、医院或医生持有的数据等信息”。根据隐私所面向的对象和包含内容对隐私进行分类如下（详见图1）。〔2〕韩博文：《可穿戴设备数据隐私保护技术的研究》，北京交通大学2018年硕士学位论文。

图1 隐私数据的分类

1.面向数据的隐私在面向数据的隐私中，数据融合是指传感器网络在聚合节点通过数据融合或者压缩等方法来减少冗余信息、降低网络的信息量、提高网络的通信效率的过程。数据融合的隐私主要是在数据融合、传输等过程中隐含了用户的隐私信息。数据查询的隐私主要是通过高资源节点采集底层传感器数据完成查询，并将查询结果发送给基站。数据发布的隐私主要是数据的发布可能是动态的，且针对同一用户数据来源众多、总量巨大，隐含一定的隐私信息。数据挖掘的隐私主要是在大数据环境下，由于数据存在多源性和动态性等特点，即使经过匿名处理，然而通过关联分析、聚合分析、分类等算法和技术，依然可以分析出用户的隐私信息。数据共享的隐私主要是在大数据环境下，共享数据及属性给用户的过程当中涉及的隐私信息。

2.面向环境的隐私

在面向环境的隐私信息中，用户的位置信息、身份信息、路由信息和时序信息等，都可能成为人工智能机器学习算法数据集中的一条。这样一条条数据，积累足够多时即可构成数据训练集，人工智能算法就会从中学习、构建模型、训练认知能力，进一步会了解甚至刻画出完整的人物形象、属性以及社交网络等隐私信息。

（二）隐私窃取

随着互联网的网络行为更加便利化、多元化，互联网的众多服务应用建立在知悉用户相关信息的前提下进行。那么，此过程不可避免地需要一些用户的个人数据。众多开放式信息数据的呈现，将导致用户隐私泄露以及为不法分子进行隐私窃取带来了极大便利。〔3〕俞艺涵等：《互联网环境下隐私安全风险评估体系构建》，载《海军工程大学学报》2020年第2期，第61页。

隐私数据在整个传输过程中，面临着各种披露、泄露、窃取的威胁，遭遇窃取的主要途径如表1所示。

表1 隐私窃取的途径

1.用户个人网络行为导致隐私被窃取

（1）用户主动泄露信息。在下载、安装、使用移动互联网应用程序（Application,简称APP）过程中或者进行网页注册时，根据页面要求主动填写的身份证号、手机号、微信号、生活状态与社交情况等个人信息；在智慧城市的各个电子监控终端留下的个人动态声像资料；线上购物时根据浏览痕迹留下的购物习惯、消费倾向、用户地址信息、银行卡号或者移动支付账号等信息。用户在使用某些特定APP 时，会打开自己移动设备上的定位功能或导航功能：在用户静止状态下如果发出查询请求，则泄漏了用户的位置数据；在用户连续移动过程中如果发出查询请求，则泄露了用户的轨迹数据。〔4〕张青云等：《位置轨迹隐私保护技术综述》，载《计算机应用研究》2020年第1期，第1页。手机中还内置了陀螺仪、罗盘、气压计等，用来定位用户的位置，可能泄露用户的位置数据。

（2）用户被动泄露信息。近年来，移动应用市场快速发展，而在移动互联网特殊而复杂的环境中，企业利用收集和使用用户下载、注册APP 的数据，为个人隐私带来了严重的安全问题与泄露风险，有意或无意中为犯罪分子的犯罪行为带来便利。国家互联网应急中心发布的《2019年我国互联网网络安全态势综述》指出，窃取用户隐私的恶意APP 成为了不可忽略的安全威胁。另外，部分APP 在下载和安装过程中，存在过度索要无关权限、恶意访问用户敏感信息等行为也是导致犯罪行为的直接或间接因素。

（3）用户错误操作。用户在日常上网过程中，不打码展示个人生活状态、个人信息、涉及肖像的图片、资料时，对于隐私信息没有加以筛选、隐藏，不实施任何隐私保护措施，导致个人隐私信息泄露或遭到窃取。

（4）用户网络设备安全存在漏洞。目前流行的智能家电，大多存在隐私窃取。例如，配备了红外功能的智能灯泡就有可能泄露用户的隐私信息。在使用过程中，黑客捕获智能灯泡发出的可见光和红外光谱，先进行解码然后通过红外不可见光将命令发送到智能灯泡上窃取数据，以威胁家庭网络中的其他已连接到网络的设备。儿童智能手表也同样存在事关隐私数据的安全漏洞，例如，接口越权漏洞可导致儿童被黑客实时监控，泄露儿童的日常行走轨迹、实时位置信息和实时环境声音等隐私信息。

2.各类不可信网络服务应用导致隐私被窃取

（1）非授权的访问。此种行为主要包括非法用户进入网络或系统进行违法操作和合法用户以未授权的方式进行操作，常用的手段包括特意绕开访问控制机制、对网络设备及资源进行非正常使用、擅自扩大权限、越权访问信息等，如常用形式有假冒、身份攻击、非法用户进入网络系统进行违法操作、合法用户以未授权方式进行操作。

（2）非法链路流量劫持。此种行为是针对骨干网等关键信息基础设施的互联网链路的网络攻击方式，利用网络链路和节点，架设服务器部署攻击程序，实现对用户的互联网数据的窃取、分析和修改，替换或嵌入有害链接，从而实现非法获利。

（3）恶意数据关联分析，过度数据挖掘。例如，从大量数据中发现主体的隐私信息、频繁出现的相互依赖关系和关联关系，挖掘关联现象等，将获得的用户隐私信息进而进行贩卖，非法获利。

（4）恶意代码植入。在开发工具中植入恶意代码，然后利用工具编写IOS 版本APP 以及Mac OS 的程序具有信息窃取行为，并具有恶意远程控制的功能，能够窃取用户终端的各种隐私信息。

（5）直接大规模隐私数据窃取。例如，部分企业或个人通过编写爬虫程序，利用人工智能技术模拟人工操作实施大量代理IP 地址、伪造设备标识、每日数百万次高频爬取等手段，绕过正规网站服务器的防护措施，窃取存放在其服务器上的用户个人信息数据。犯罪分子将不同的网站窃取来的用户隐私数据进行重新合并、排列、撞库、清洗，对于重名、噪声、缺失数据经过筛选、比对后形成了几近完整的人物属性画像。进而将非法获得并整理的用户隐私数据进行售卖，非法获利。

3.各类攻击导致隐私被窃取

（1）APP 超范围收集用户个人信息。用户在移动商店中下载APP 时，被要求必须勾选同意使用的协议。由于各种主观和客观原因，用户没有仔细阅读协议中的详细内容，或者对于协议中的条款表述不明确，对其中涉及的个人隐私与相关数据不知晓，用户在不知情的情况下，造成隐私信息被泄露。

（2）未经授权共享用户个人信息。例如，某些APP 基于部分用户授权访问的通讯录中的姓名和手机号，收集并存储用户的地理位置信息，向其推荐“可能认识的人”，并推送广告，进而侵犯了个人信息权益及隐私权。

（3）内部人员操作。由于能够直接或间接接触用户隐私数据，部分内部人员通过人工智能技术恶意窃取、泄露、售卖用户隐私数据，非法牟利。在正常工作过程中，内部人员也会由于误操作等方式调取公民个人信息非法提供给他人，最终导致隐私遭到窃取。

（4）数据备份存储。在信息时代，用户习惯在多个终端存储个人信息数据，在更新换代终端设备、丢失设备或设备损害维修等过程中，如果未能格式化清空其中的敏感数据，一旦数据遭遇泄露、窃取，则会对用户造成不可逆的损失。

三、人工智能技术背景下隐私窃取的技术防范手段

目前，针对隐私窃取的各种防范措施主要包括制定严格的法律法规、人工智能技术防范、进行自我保护的宣传、规范相关企业的伦理道德方式等。保护隐私的相关法律法规出台，必然会导致企业的数据收集、整理、分析、使用以及流通的合规成本的提高，也会导致“信息孤岛”的产生。在隐私窃取的防范工作中，引入人工智能技术是人工智能领域研究的重要课题，对于防范隐私窃取发挥了重要作用。因此，防范隐私窃取，不是完全不收集数据，而是要通过技术的手段保护隐私数据安全。

目前，用于防范隐私窃取的主要技术包括数据同态加密、分布式计算、机器学习等的混合算法、安全多方计算、差分隐私算法、联邦学习算法、雾计算等（如图2所示）。具体包括如下手段：

图2 防范隐私窃取的技术手段

1.数据同态加密

在全球数据的开放与共享过程汇总中，引发了隐私数据的安全问题。为保护隐私数据不被窃取，引入“数据同态加密”技术。在加密数据的传输过程中，该技术无需密钥进行解密就能对加密数据进行处理，而且处理过程不会泄露任何原始内容，同时，拥有密钥的用户解密后可以得到处理后的结果，极大地提高了隐私数据的安全性。

2.雾计算

计算模型将原有云计算中心的部分或全部计算任务迁移到数据源的附近执行，将介于云和终端用户之间进行的边缘计算，称为“雾计算”。因此，雾计算具有低延时、位置敏感、分布广泛等特点。通常利用云计算和雾计算相结合的多级聚合模型对隐私数据进行多层保护，主要用于智能交通领域的用户隐私数据保护。

3.安全多方计算

安全多方计算旨在解决一组互不信任的参与方之间保护隐私的协同计算问题，实现各方在不泄露本地任何数据隐私的情况下，完成数据的聚合计算，这主要用于交易过程中的用户隐私数据保护。

4.差分隐私

差分隐私是一种数学技术，例如，假设要分析数据集并计算其统计数据（如数据的平均值、方差、中位数、众数等），如果通过查看输出，我们无法分辨原始数据集中是否包含了任何个体的数据，那么这种算法就被称为差异私有。社交平台已经使用这种方法来收集聚合数据，而不需要识别特定的用户，用于保护用户社交隐私数据的安全。

5.联邦学习

联邦学习采用了分布式机器学习方法，假设用户数据不会被存储到中心服务器上，而是私密地存储在个人的终端设备上，比如手机。联邦学习在传输数据、训练模型和输出结果的过程中不需要用户数据离开个人设备，从根本上增强了用户隐私安全。

四、隐私窃取防范的实践探索

（一）隐私窃取的具体情形

1.生物特征的无意泄漏

社交网络是隐私窃取犯罪的重灾区，高清原图中包含了大量的隐私信息，包括图片本身的信息、拍摄设备的型号、拍摄日期和地理位置等。例如，在网络中传输的照片原图保留了完整的Exif 信息。一旦犯罪分子获得图片，则立刻可以定位发送者。犯罪分子通过图片中EXIF 信息，即可获取位置、手机等数据，从而分析出图片发送人的位置、轨迹等信息，如果能有更多图片进行关联计算，则可能获取发送人的更多基本情况。

生物认证最大的特点就是唯一性。每个人都有独一无二的面部特征、指纹和虹膜等，正是这种唯一性才促使生物认证的安全使用。例如，犯罪分子获取图片中的人物面部正脸肖像，可以在人脸识别系统中应用，进而通过刷脸支付等平台进行犯罪行为。如果伸手比“耶”，那么不法分子容易提取到用户的指纹特征信息，“复刻”他人的指纹，进而利用指模工具制作出指纹倒模，可在指纹识别系统中进行犯罪活动。又如，在一些社交软件中，可以发送语音信息，不法分子根据用户发送的音频进行声纹解析，进而根据其特性合成用户音色相同的声音或者把其他人的声音替换成该用户的，用于冒充用户进行电话、语音诈骗等犯罪行为。再如，如果图片是面部的特写，不法分子容易提取用户的虹膜信息，即使戴美瞳或隐形眼镜等产品都无法完全遮挡虹膜信息，在虹膜验证身份信息的系统中就可以假冒用户身份进行犯罪行为。

生物特征识别是一个信息系统，可以根据一个人的一些主要生理和行为特征对其进行识别。它基于用于数据采集的硬件系统，该系统集成了软件组件，这些软件组件允许通过算法执行数据分析并重构人的身份并对其进行识别。用户的生物信息特征不可能重新设置，如果存储大量用户的生物特征数据库被攻破或窃取，大量带有唯一性的生物特征数据被不法分子窃取利用，轻则造成个人财产损失，重则危及国家安全，具有极大的风险性。同时，还需要防范不法分子恶意将照片中获取的生物特征信息与其他个人信息进行关联分析，进行非法用途。

2.网络中隐私数据的专门爬取

国家互联网应急中心发布的《2019年我国互联网网络安全态势综述》指出，窃取用户隐私的恶意APP 成为了不可忽视的安全威胁。生活中，移动APP 为手机用户提供便利的同时，也调取和传输用户的隐私信息，违规索权比较普遍。在使用过程中，几乎所有的APP默认调用相机权限，三分之一的APP 默认调用读取联系人权限。

数据爬取技术类似一个搜索探测器，按照预先编写的算法规则，通过遍历网络内容的方式，搜集、提取所需的网页数据，然后回传给技术人员，再通过储存或重新加工，得到需要的高价值信息。数据爬取所获得的信息多种多样，不仅可以爬取互联网网站上的信息，在不同场景下还爬取用户身份、通信、出行、社交、网购、银行记录等多个维度的数据。

金融借贷类APP 为帮助市场放贷主体爬取借款人的个人隐私信息，特别是借款人的通讯信息，主要用于日后向借款人及其家人朋友催收，同时进行隐私信息贩卖。在使用过程中，由于搜集个人信息等原因，金融借贷 APP 不但能够非法窃取用户隐私，而且尝试对客户的面部图像进行静默拍摄。APP 通过非法采集各种敏感通信与网络数据，包括手机号码、通话记录、接入网络、身份证照片等，然后明文回传至目标单位的服务器上。

针对目前互联网上广泛应用的移动支付终端，不法分子设计了专门爬取移动支付终端数据的产品。只需要用移动终端扫描一下登录“二维码”，就可爬取用户的隐私数据，包括真实姓名、手机号、收货地址、近一年的购物信息，交易记录等。不法分子首先爬取用户的隐私数据，然后登陆各大运营商的系统爬取通话记录的数据，形成“个人用户报告”，报告中的内容包括通话号码、次数、时长等。爬虫产品还可以通过API 接口切入客户平台，利用一个或两个页面，植入平台借款申请流程场景中，在借款人通过页面申请借款时，直接形成风险评估。

（二）隐私窃取的防范

以上情形充分说明，无论用户的无意泄露还是不法分子的主动窃取，个人隐私数据已经遭遇泄露。随着数据挖掘技术的急剧发展，在更广泛领域的隐私数据泄露、窃取将直接带来数据权属、知识产权和商业机密保护、个人信息隐私界限、不正当竞争等方面巨大争议。

近年来，在金融、电商等各类场景的隐私数据泄露、窃取案件频发，对互联网和大数据商业业态已经产生了重大负面影响，同时引起了产业界、监管者和全社会的广泛关注。对此，有关部门发布了多部相关规范性文件以及开展了相关防范工作，具体如下：

2019年1月，中央网信办、工信部、公安部、市场监管总局等四部门在全国范围组织开展App 违法违规收集使用个人信息专项治理：重点组织专业机构对与民生密切相关的App隐私政策和个人信息收集使用情况进行评估；加强对违法违规收集使用个人信息行为进行监管和处罚；开展打击整治网络侵犯公民个人信息违法犯罪专项工作；开展自愿性App 个人信息安全认证。

2019年3月，App 专项治理工作组制定发布了《App 违法违规收集使用个人信息自评估指南》，为App 运营者自查自纠提供指引。

2019年4月，公安部网络安全保卫局、北京网络行业协会、公安部第三研究所等联合发布《互联网个人信息安全保护指南》，旨在指导个人信息持有者建立健全公民个人信息安全保护管理制度和技术措施，有效防范侵犯公民个人信息违法行为，保障网络数据安全和公民合法权利。

2019年5月，国家互联网信息办公室发布《数据安全管理办法（征求意见稿）》，不仅对网民关注的个人敏感信息收集方式、广告精准推送、App 过度索权、账户注销难等问题作出了直接回应，还对“网络运营者”的数据收集、处理使用以及数据安全监督管理等内容进行了具体规定，为保护个人隐私数据安全助力。

2019年11月，中央网信办、工信部、公安部、市场监管总局等四部门联合制定发布了《App 违法违规收集使用个人信息行为认定方法》，该办法明确界定了App 收集使用个人信息方面的违法违规行为，为App 评估和处置提供参考，同时强化了用户的知情权和决定权，但目前我国相关法律对公民个人信息范围还未作出明确的划分。

总之，为了保护公民个人隐私数据的安全，一方面需要积极推进数据安全管理和个人信息保护立法，加强数据安全防护，特别是防范隐私数据窃取，同时提高公民个人信息防护意识等。另一方面，从技术角度层面而言，还应考虑将区块链技术与人工智能技术相结合，为隐私数据保护助力。