谁动了你的隐私?
2020-09-10吴洋洋肖文杰
吴洋洋 肖文杰
2019年8月在上海举行的2019全球人工智能大会上,一块屏幕在展示人脸识别技术。
苹果的“大招”
6月22日,一年一度的苹果全球开发者大会(WWDC)刚结束,国内几家互联网大公司的数据合规部门就炸了锅。
有公司迅速组建了上百人的工作群,开始排查公司的所有应用,确认是否有条款触犯到苹果即将推出的iOS 14版本中与用户隐私相关的新规。
“隐私是基本人权,也是我们做每件事的核心。这就是为什么通过iOS 14,我们将针对数据分享给予你更多控制权,让你更加透明地知道这些数据是被如何利用的。”在计划于今年9月更新的iOS 14操作系统中,苹果将从多个层面强化对用户隐私的保护和对开发者权限的限制。
比如iOS 14将允许用户关闭自己的设备ID——IDFA(编注:全称Identifier for Advertising,中文也称“广告标识符”,用于让开发者和广告商跟踪用户行为、记录广告投放所获得的下载或购买转化次数)。只有在用户许可追踪后,开发者才能获取其IDFA,一旦用户拒绝,开发者就只能得到一串无效字符,这直接意味着每个应用将无法监测其广告投放效果。
此外,iOS 14对相册权限和地理位置权限都给出了更多选项,用户可以只将部分照片提供给App读取,而不是“查看”或“不查看”两个极端选项。地理位置上,用户如果不乐意,也可以只向开发者提供模糊位置。接下来还有麦克风和摄像头——如果有应用正在调用这两个设备权限,屏幕右上角立刻就会出现一个提示性的小黄点。
新版iOS甚至还关注到了用户剪贴板存在的隐私威胁:一旦有应用在读取用户的剪贴板,系统就会通过弹窗告知用户。
目前,在已经上线的iOS 14 beta版中出现的用户隐私相关更新,对许多App影响最大的,是剪贴板和IDFA。这两项新规不仅会影响公司的舆情,还直接影响到其广告生意。
此前,iOS上的App可以未经允许在后台扫描用户复制在剪贴板里的内容,而且这个动作要么关闭,要么永远开启。iOS 14 beta版推出后,应用只要在后台扫描了剪贴板,系统就会弹窗提示用户。有已经更新了beta版的国内用户提到,自己的手机上有数十个应用在扫描自己的剪贴板。一旦频繁收到手机系统就隐私问题安全发出的弹窗,用户显然会对那些App产生反感。
作为个人,我们是怎么被“数字化”的
静态数据(身份数据)
姓名/身份证号/手机号/家庭住址/人脸和指纹等身份信息
动态数据(行为数据)——脱敏后可被商业化
●消费行为/打开过什么网站、进入应用的时间、观看过何种内容的视频、留下过怎样的评论、中间跳转过几次、在应用内停留的时长、点击过什么广告、收藏了哪些商品、做决策的时长……
●健康行为/跑步的频率、走路的平衡水平、心跳/血压变化、进入睡眠的时间……
●金融行为/跟谁建立了关系、地理位置变化、喜欢使用的支付方式……
倾向性数据
未来的身份变化、消费意向
作为个人,我们是怎么被“数字化”的
资料来源:根据公开资料整理
然而讀取剪贴板对有的App来说又是必需功能,比如人们熟知的阿里电商App的“淘口令”——用户复制淘口令后打开淘宝App,就能自动收到该商品页的弹窗信息。这个操作可以实现,正是因为淘宝读取了用户手机的剪贴板信息,识别出用户想要搜索的具体商品页。对于这些App来说,能做的只能是尽量减少用户反感。
在有些大公司里,所有读取用户剪贴板的业务都被内部的数据合规部找了出来,并被告知:如果业务(对剪贴板)没有强依赖、强需求,你就把这个去掉。完全没有办法去掉的,需要找到新的解决方案。
“就怕有的应用自己默默地去读剪贴板,用户在完全没做任何事的情况下,手机上突然跳出这么一个提示,这是会引起用户恐慌的。”某互联网公司数据合规部门的员工说。
剪贴板读取提示还是小问题,真正的“大麻烦”是用户将有权拒绝应用追踪自己手机的IDFA。事实上,所有以在线定向广告——千人千面——为主要商业模式的互联网公司,现在全都要紧急处理这个“麻烦”。
用户在下载一款App时,iOS 14将跳出一个弹窗,上面的文案会让所有广告商感到头痛——“某某应用想要获得权限去追踪你在其他应用或网站的行为,你的数据将用来投放个性化广告。”在这个弹窗上,系统会给用户两个选择:“允许追踪”和“要求应用停止追踪”。
“一般用户看到这样的文案其实都是会不同意的,对吧?”上述从事数据合规工作的员工表示。
但用户的这个选择却对互联网公司的商业模式影响巨大。2019年,阿里巴巴的定向广告业务收入超过1000亿元,百度和腾讯的广告收入也分别达到781亿元和684亿元。
2019年,国内四大安卓系手机公司也曾对开发者关闭了查看用户设备ID的权限,不过它们给出了一个可变动ID——匿名设备标识符(OAID)——的替代方案,这个OAID可关闭,也可以被重置,用户如果愿意,可以每天都重置他在互联网上的数字身份。这尚不会动摇定向广告的根基。
眼下,即使抛开智能手机操作系统的制约,国内很多技术公司的品牌和业务,都在接受与用户隐私问题相关的拷问。
2019年3月,一位法学博士以“在用户未授权的情况下,过度读取手机通讯录”为由起诉了抖音,因其在第一次完成用手机号注册并登录抖音时,该App向他推荐了一大批“可能认识的人”,其中大部分都是他的微信好友。
同年明,一位用户起诉微信读书在没有征得其同意的情况下,就自动关注微信好友、默认开放其读书记录。
这两起诉讼同时于今年7月30日从北京互联网法院获得了支持用户一方的判决。其中,微信读书因“没有征得原告有效的同意”,被判侵害了个人信息权益。抖音则被判要将2019年2月9日前收集的用户姓名、手机号码、社交关系、地理位置等信息从服务器中删除。值得一提的是,该案法官在判决中指出,原告的姓名和手机号码属于个人信息,但不构成隐私。
在2016年出台的《中华人民共和国网络安全法》中,有9个与隐私相关的框架性原则,其中第二个原则就是“告知”,即网络运营者在收集、使用个人信息时,须“经被收集者同意”。不过,尽管法律规定了互联网应用要将获取数据的情况告知用户,还有很多令用户恐慌的隐私问题并不是收到App在前台以一份《隐私政策》所做的告知就可以解决的。
2015年,一位庞姓用户通过去哪儿网购买了一套东航往返机票,在到达目的地时,收到一条“返程航班机械故障,请联络×××进行改签”的短信,短信中明文列出了该用户的姓名、航班号以及航班起降时间。该用户联系了东航的官方电话客服,得到的回应却是“回程航班正常”。
这位用户认为那条欺诈短信的背后存在个人信息被泄露的问题,于是将去哪儿网和东方航空告上法庭,但是在一审和二审中,这位用户得到的判决都是:“没有直接证据证明其个人信息是东航或去哪儿网泄露的。”
这正是更系统性的隐私威胁所在——不断壮大的数据产业并不透明,普通用户不知道自己的数据是在哪个环节泄露或者被共享的。
“对于老百姓来说,因为不了解、不信任、没有安全感,所以才会恐慌。如果这三个东西能在企业端被很好地解决了,让用户可以知道整个行业在隐私保护问题上是怎么做的,这些企业又能带给他什么——当用户有被保护感的时候,他使用这些高科技产品才会更加轻松没有猜忌,因为用户可以信任企业,信任产品的整个流程与机制。”环球律师事务所合伙人孟洁对《第一财经》杂志说。
数据黑盒
在业务中心化的趋势下,我们的数据也被中心化地存储在大型技术公司的服务器中。
一位不愿具名的广告监测公司员工对《第一财经》杂志称,淘宝体系和微信都有“数字围墙”的概念。广告主如果在淘宝系投放了广告,结案时也只会得到用户在淘宝内的哪些平台下了单、总共单量有多少之类的统计数据,而看不到任何个体数据,哪怕是匿名的。这项规则在逻辑上有利于保护用户隐私。
数据商业化路径
《第一财经》杂志调查获悉,有大公司会针对少数一些合作够深的广告大客户,开放脱敏后的用户画像数据。宝洁就通过这种方式,用3年时间整合了全渠道数据,搭建了自己的客户管理系统(Customer Relationship Management,CRM)的进阶版——CDP(Customer Data Platform,用来解决不同渠道客户数据离散问题的客户数据管理平台)。
这些品牌以及互联网平台关注的用户数据通常包括三类——行为数据:用户通过手机端与应用产生了哪些交互行为,比如浏览过哪些页面、下载过哪些信息;交易数据:用户采购、支付、退换货的记录;用户的性别、年龄、种族、收入、教育和职业背景、个人兴趣等社会经济信息。
对于这些用户数据的用途,技术公司的公开说法,基本上只会提到是根据数据来分析用户画像,或者用于人工智能、机器学习、为用户提供更先进的服务。但涉及到他们究竟从哪些维度或者以哪些方式获取了用户数据,数据在其公司内部多个应用之间的流通路径,以及用户会被贴上哪些信息标签等问题,并没有一家互联网公司给过用户很明确的说明。
在这些头部互联网公司之外,其他长尾型的中小应用所构建的数据链条,其复杂度和不透明度也并不低。
范梦辰曾就职于一家做知识分享的公益平台,为了优化公司的App,这家公司在2019年使用过好几家第三方数据统计公司的监测和数据分析服务。
“只要把对方给的一段代码加到后台,它就能告诉你用户是从什么地方过来的,比如他是通过其他应用跳转过来,还是通过社交网络或者搜索。”范梦辰对《第一财经》杂志说。除了追踪用户来源,第三方数据监测公司提供的这种技术服务,还能追踪和记录到用户在该应用站内的行为数据,并每天为客户出具用户分析报告,帮助客户更好地制定App的优化策略。
这类监测和分析服务通常是免费的。App们如果愿意,还可以加入这些数据分析公司提供的广告服务,成为广告联盟的一部分。
Google、百度以及第三方全域数据智能服务商友盟,都提供这样的双重服务,也因此掌握了大量第三方应用的用户行为数据。友盟官网显示,截至2020年6月已累计为200万移动应用和890万家网站提供过数据服务。
广告联盟和手中掌握数亿用户规模App的头部互联网公司,瞄准的都是数字化定向广告市场。围绕广告营销,在产业链上找到位置,同时也获取了数据的公司还包括:以“帮应用做用户增长”之名出现的大数据技术公司,比如易数科技(GrowingIO);在广告主把钱投给头部流量平台或者广告联盟之后,作为第三方去监测投放效果的广告监测公司,代表公司是秒针系统。
2009年,正是宝洁带着一家第三方监测公司将SDK(Software Development Kit,软件开发工具包,一种用以追踪用户数据的代码)装到各大门户网站和视频网站的后台,由此开启了中国程序化广告——后来也被称为定向广告或者精准廣告——的序幕。
第三方初创公司忙着搭建自己的数据库的时候,技术巨头们也没有停止对数据覆盖范围的扩张。2013年,阿里巴巴收购了由Google前工程师蒋凡创办的友盟。这项收购为阿里巴巴带来了双重价值,其一是为阿里巴巴找到了一位懂数据驱动的职业经理人,其二是补充了阿里巴巴的数据维度。
中国程序化广告生态
资料来源:根据公开资料整理
“阿里自己有电商数据、金融数据,我们这边有是用户行为数据。这三方数据合起来是对用户比较完整的描述。”友盟时任首席数据官李丹枫在2016年收购缔元信和CNZZ后曾对媒体这样表示。缔元信的客户主要是大型网站,CNZZ的客户是中长尾网站,刚好也同友盟过去专注的移动端客户结构形成互补。
除了百度的百度联盟、阿里巴巴系的友盟,腾讯和字节跳动也在过去10年内分别有了各自的广告联盟——广点通和穿山甲。
匿名化后的数据共享本身是个合法的生意,而且应该鼓励数据的充分利用与有序流通。
这类的信息共享,因为从合规角度完成了去标识和匿名化的处理,共享出去的数据表述只是一个“群体画像”,也叫间接画像,这样的数据已经不再属于个人信息。例如滴滴出行的数据采集脱敏后,共享给市政平台,就可以有更多市民了解道路上哪些地方堵车、哪里不堵。公共交通部门也可以通过运营量的评估,决定是否调配车辆前去增援。
但是当数据产业通过共享变得越来越中心化,加之主流数字化营销技术工具所采用的黑盒模型,要想看清数据的流向、是否做到足够脱敏就变得更加困难。
以很多用户都曾产生过的“被监听体验”来说,出现这种情况,不排除真的是有不法应用在后台偷偷启用了你的麦克风、或者偷看了你的对话记录,但可能性更高的原因,则是你没有删除的公开cookie被爬取、A应用刚好跟B应用在同一个广告联盟下,又或者你使用了同一套账号分别登录了不同的应用,于是在新应用内的用户画像数据就被共享给了提供账号系统的应用。
数据“饥渴”
当然,回到数据生产的源头,商业公司都渴求数据。
与PC时代相比,我们在移动互联网时代已经产生了更大规模的数据。“单单一台小米手机上的传感器每秒钟能够提供的数据就有400多个维度,也就是产生400多个标签贴在一个人身上。”前述不愿具名的广告监测公司的员工说。
但不会有公司嫌获取的数据太多。你可能听说过有人将数据比喻为“新时代的石油”,它在业界的实际估值可能比这个说法还要夸张,7月1日举行的“首届小米安全与隐私宣传月”活动上,小米信息安全与隐私委员会主席崔宝秋在发言中表示“更形象的比喻是核燃料”。
从数据中攫取价值的需求一直存在,比如1950年代美国的金融业者们用统计学来处理消费信贷数据。直到进入21世纪第一个十年,业界终于发现一个数据能创造更大商业价值的领域:广告营销。
差不多同一时间,人工智能领域的机器学习技术被引入广告投放决策。这种新技术范式下,最重要的东西并不是算法。很多种子算法都是开源的,淘宝和抖音给用户推荐商品的逻辑是“买过/看过什么就继续推荐什么”,微信读书推荐新书的逻辑是“看过这本书的人还看过什么就推荐什么”,这些都跟20多年前亚马逊荐书的“最近邻算法”没什么太大不同。区别只是各家数据池里的内容不同。
2020年7月,中国国际数码互动娱乐展览会(China Joy)上,观众通过人脸识别系统入场。
既然数据是一种有用的资产,像地理位置、相册、通讯录等,“开发者其实是你只要授权了,我在后台一定拿,也不是说开发者作恶,他可能就是想更好地保证自己的服务质量,或者纯粹是工程师的惰性,他会说多拿一次肯定比少拿一次来得稳。”小米公司MIUI安全中心负责人王乐告诉《第一财经》杂志,这种心态在操作系统秩序不紧迫的时候一度很普遍。
从机器学习的视角,“系统判断的你,跟现实中的你是不是一样并不重要。因为对于系统来说,它只要达到它的目的就行。”前述不愿具名的广告监测公司员工说,哪怕消费者在现实生活中是男性、但是在购物网站上被认为是女性也没有关系,只要按照系统的“认知”推荐给用户的商品被购买了'目标就达成。
不过,在技术公司里,热衷收集数据(包括用户的个人信息)不只是业务团队的专属。这些公司本身都希望扩大自己的数据维度,以及获得持续定位到用户个人的能力。除了组建广告联盟并相互结盟,它们还开始建立属于自己的ID体系——账号系统,同时也通过商务团队的公关让更多第三方应用接受使用其账号登录。
账号是一种生命周期更长的ID信息。基于用户更换新手机的频率,智能硬件设备ID的生命周期大多只有一年;在网页中记录用户足迹的Cookie的生命周期更短,平均是28天。而且,账号更大的好处是,不需要依赖任何第三方公司,这有助于缓解互联网大公司面对“iOS 14准备给用户权限关掉苹果给出的IDFA”时所面临的窘境——起码站内流量追踪以及用户使用个人账号在其他第三方平台登录的行为数据,都可以保住。
2018年,根据运营商监测到的数据,利用手机号注册微信的用户数已经超过10亿;淘宝和支付宝的注册用户数在今年年初也分别突破8亿和7亿。
一旦出现数据安全危机,规模越大的公司,涉及的违约成本(比如舆情压力)就越高,因此大公司会更愿意主动建立权限分明的数据管理制度,并配备上百人围绕这些数据做安防和合规工作。期间既跟恶意爬虫做斗争,也时刻准备着防范純粹的黑客攻击。
与此同时,这些大公司的数据中台和法务团队也会随时面对与各垂直数据应用层的博弈。前者希望控制风险,尽可能避免出现法规和舆情上的损失;后者则代表公司对外冲锋、创造商业利益。
在双方博弈的内容中,从法律角度做到对现有法律规章的穷举并不难,各条“红线”很容易就划出来,真正的难度在于如何处理法律规章尚且模糊的灰色地带,也就是那些有争议的部分,有些公司会针对更具体争议设立高层决策机制,形成公司内部数据管理标准。
大公司的数据价值观,总体还是“立足于防守的进攻”。重心很明确,仍然在于“进攻”。而说到那些资源和能力更小202Q年7月,中国国际数码互动娱乐展览会(Ghina Joy)上,观袋通过人脸识别系统入场。的初创型公司和传统企业,“进攻”的倾向性就会更加明显。不少企业的负责人会奉行“业务先行”的观点——业务先走一步,遇到有坑了,再找公司的法务部门或者聘请外部律师紧急填坑。
信任的博弈
做用户隐私保护有时候是补漏洞的过程。以剪贴板为例,尽管小米从第10代操作系统开始会通知用户“哪些App查看了你的剪贴板”,苹果也准备在明更新的iOS 14版本中提供该功能,但它们都还没有做到告知用户“查看你剪贴板的应用究竟从你的剪贴板中看到了什么”,假如它刚好看到的是你的身份证号、手机号、银行卡号等个人隐私信息,你该怎么办?小米准备在下一轮操作系统更新中补上这一漏洞。
用户感觉自己的隐私没有得到足够保护,纯粹源于跟开发者立场不同。在开发者的便利和用户的个人隐私体验之间,合法却不一定合理的规则并不少。一个最典型的场景就是“用户协议”以及2018年基于国家法律规定而被要求以独立文件所展示的“隐私政策”。
作为服务提供方,开发者有权利也有义务让用户签署“软件服务协议”,并且要在包括索取必要的个人信息、数据共享等隐私政策上征得用户同意。用户在下载完一个App后打开该应用,迎面遇到的第一个交互弹窗,通常就是针对上述协议和隐私政策的“温馨提示”,下面只有“同意并继续”和“不同意”两个选项,不同意就无法使用软件。
在孟洁看来,App的运营者应该尊重用户自主选择是否提供其个人信息的权利,最好不要一次性让用户全部去授权,一揽子同意。较好的解决方案应该是“对于非基本业务功能(即扩展业务功能),最好能让用户进去以后,自行选择是否需要启用这些功能”。
“扩展业务的某些功能,默认应该是关闭的,等到用户需要打开时,再跳出来弹窗,让用户授权同意或者让用户滑动启用开关开启。这样能比较容易实现部分用户不同意开启时,就不会自动使用并收集用户个人信息,并且不影响用户使用App的基本功能。”孟洁说。
同样困扰用户的场景还包括广告联盟,它们都在App的用户协议中“告知”了要“共享数据”,但并没有告知它们会和哪些第三方共享数据。
一些在意品牌形象的大公司更愿意从建立信任的角度思考问题,从而给用户更多的知情权和管理权。一个例子是Google。通过算法分析用户数据产生的用户标签,Google也会同时在前台展示给用户,用户可以查看,也可以删除、关闭这些标签,通过可视化的方式减缓用户对数据“老大哥”的恐惧心理。
更多时候,流量平台对待数据的态度是经由平台秩序的建立者——操作系统厂商们——倒逼实现的。
早在今年4月,小米就在更新的最新操作系统MIUI 12版本中推出了“照明弹”功能,它类似于iOS 14的新功能,在应用程序查看用户剪贴板、在后台获取用户地理位置,或者调用麦克风、摄像头等功能时,该功能会触发“拦截网”,在前台向用户发出弹窗通知。在“手机管家”应用程序中的隐私模块,以日志形式,统计了已安装应用的操作行为——几点几分调用了用户的麦克风、几点几分查看了剪贴板等,以及有几次相关行为。用户可以在这个界面关掉他认为被滥用的权限。
这套操作系统上线后,小米发现,开发者们一上来就向用户索要最高使用权限的次数在下降。
“用户选择允许还是拒绝的比例,取决于应用场景是否合适,以及开发者申请权限时讲述的文案是否合理……我今天想搜一个手机,明天你给我推荐了一個一下降价1000块钱的,我干吗不高兴?”王乐说。在用脚投票的过程中,用户对智能推荐的态度也会经历一个从欣喜到恐惧,再到理性看待和接受的心态博弈。
对于iOS 14将在2020年9月推出的用户隐私保护动作,王乐认同其精神,但他担心苹果“恐吓式”的文案不仅令开发者们着急,也可能引起用户恐慌,带来更高的决策成本。
最有潜力解决这种困境的方案可能还是技术本身。很多公司已在开发和测试一种叫端计算的方案,即在用户的终端上完成数据存储和AI训练,不再将用户数据上传到云端的超级计算机。这套方案只是让设备在充电时或夜间训练,白天做推荐预测时并不会耗费多少CPU。
只要数据被存储在本地,用户就又回到了最古老的信任模式。
应采访对象要求,立中范梦辰为化名