大数据时代的爱与怕
2019-05-08王先郑亚红
王先 郑亚红
2015年9月,万众创业的风势正猛,一位创业者找到我,安利他正在筹备的一个项目,主营业务是为企业做员工离职预报,他坚称市场前景非常可观,问我要不要报道。阅世甚浅的我感到十分新奇,然后拒绝了他。
再次听到他的消息是在3年半之后,3月25日,号称拥有中国最大简历数据库的巧达科技被曝已被警方查封,或涉嫌多款产品在未被授权情况下抓取用户简历等信息。这家公司的法人兼大股东王成予正是当年那位创业者。
巧达科技爆雷,距离央视315晚会曝光WiFi探针盗取个人手机号码、外卖App疑似“窃听门”不过一两周时间;3月27日,北京市消协发布大数据“杀熟”调查,认为去哪儿网、飞猪旅行确实涉嫌有“杀熟”行为。有声音将近期一系列动作解读为监管部门正掀起对大数据黑产的新一轮打击。
你的姓名、年龄、身份证、收入、喜好、购买记录……这些数据的主权还在你手上吗?它们被倒卖了多少轮?到底有多值钱?有知情人士透露,以医疗数据为例,由于用户转化率高、数据获取难,一例透析病人的数据可被炒到8000元。
2018年,上海交通大学邵国松教授等人选取了中国500家有影响力的网站,对其隐私政策声明进行分析,核实其是否较好地执行了《网络安全法》相关条款。结果发现,收集个人信息的网站在所有类别网站中都占据了极高比例,其中教育类网站收集比例高达100%,商业类网站需要身份识别的也达84%。
01
公开资料显示,巧达科技成立于2014年7月,数据来源为“乔大招”,包括之前为企业做员工离职预报的“爱伙伴”在内,其旗下10多款招聘工具均为免费产品,这些产品通过爬虫等技术在网上抓取简历后投入数据库,再向企业提供相关人才信息服务。
有在线招聘头部公司人士认为这些数据过于夸张,她对《财经天下》周刊表示,这种爬虫技术会触及很多相关企业利益,所以一般公司都会设有反爬机制。
“燃财经”拿到的一份巧达数据的商务计划书则显示,该公司旗下有38个B端招聘产品、超过170万招聘者用户,自称有超过10亿份通讯录、拥有超过8亿自然人的信息,通过简历解析,可以对自然人产生包括社会关系、组织关系、家庭关系及区域位置等定位,几乎涵盖个体所有关键信息维度。巧达科技将这些数据用在招聘、电商、影视、保险、金融等行业。它们为巧达科技在2016年带来1.2亿元营收,其中净利润即达4800万元,到2017年,两项数字激增至4.11亿元和1.86亿元。
王成予曾宣称,“简历是最有价值的自然人数据。巧达数据通过大数据及人工智能技术研发的认知引擎,能够快速还原网上自然人的清晰画像,为商家提供实用的营销方案。超过170万家互联网企业和猎头公司在使用相关产品”。
巧达科技在2014年11月得到创新工场数百万美元A轮融资,2017年1月再次得到中信产业基金数千万人民币B轮融资。
至于创始者王成予本人,则由中国裁判文书网曝露了更多信息,2016年3月《北京市第三中级人民法院民事判决书》中显示,王成予在2011年5月之前的十几年里,存在多次违法犯罪记录,包括盗窃、诈骗等,其中包括2006年轰动一时的涉嫌敲诈勒索华硕公司一案。
2019年315晚会上,央视曝光“探针盒子”,当个体手机Wifi处于开启状态,就可能被探针盒子捕获,并转换获取手机号码。探针盒子不仅可以强制用户手机弹窗,冒充已连接WiFi在微信置顶界面投放无法消除的广告,甚至还能拨打骚扰电话和发送短信。这些小盒子放在商场、写字楼等公共空间内,可以在个体毫不知情的情况下搜取个人数据,甚至包括婚姻、教育、收入等信息。
2019年3月18日,美团和饿了么被曝疑似窃听用户日常对话。《IT时报》称,通过长达3个月的测验,他们发现,只要日常在对话中提到某款食品的名字,这些外卖软件总能即时推送相应商家信息,出现相关推荐概率高达60%~70%。
伴随大数据时代到来的,是信息安全这一新问题。过去几年里,从小平台到大公司,数据泄露事件频发,仅2018年就包括:圆通的10亿条快递信息在暗网上架出售;华住酒店、万豪酒店各有5亿用户信息外泄;国泰航空940万乘客数据流出;陌陌3000万用户数据泄露……
几乎按月爆发的频率、动辄上亿的量级面前,普通人兴许躲过这一劫,旋即栽在下一劫。
02
一位网络信息安全公司创始人曾向《财经天下》周刊讲述其团队习惯:全公司没有一个人使用真名收取快递及外卖;为了避免黑客撞库,他从不将同一个密码使用在两个地方。他们比大众更清楚,在互联网上,也许你早已是“裸奔”状态。
今天的流量早已不止是PV、UV这样的概念,流量有了姓氏、性别、喜好。比你更了解你自己的,可能是手机,更不用说各种实名认证的应用,轻松愉快间就让你成为都市里行走的透明人、互联网时代的楚门。
琐碎的个体信息背后,是潜在的商业价值。2015至2018年期间,由于代表著未来更多可能,大数据曾一度成为市场上时髦标签。包括国内许多创业者对外高频语述之一也是:“不要说我们是互联网公司,我们是技术驱动的大数据公司!”
平台以用户基本信息为基础,分析日常使用行为,提取个体特征,滚雪球般积累起10的N次方数据。这些数据,不但成为平台将业务进一步铺开的助推燃料,也成为换取资本青睐的筹码。
那么,在获取便利和交出隐私之间,合适的度在哪里?
业界公认的是,即便用户不重视甚至放弃数据主权,这也不能成为隐私可以被平台随意使用的理由。为了规避风险,“授权协议”无处不在。安装一款新应用,是否同意读取存储权限和联系人信息?不同意,好的,那么您将无法使用该产品;购物App送您10元无门槛代金券,是否点击领取?点击即意味着你默认接受向该平台第三方提供小额贷款协议。
平台看似充分尊重用户的自由意志,实际操作中几乎是别无选择;鲜有人会把一屏屏授权协议耐心读完,更不会注意到满坑满谷的信息陷阱。有律师向《财经天下》周刊总结,这无异于“形式上的保护和事实上的侵犯”。
掌握顶级规模数据的公司也在信息安全的对外语境上进退维谷。2018年年初,吉利汽车董事长李书福称“微信天天在看用户的聊天记录”,微信赶忙回应称纯属误解,平台不留存任何用户的聊天记录,聊天内容只存储在用户的手机、电脑等终端设置上;微信不会将用户任何聊天内容用于大数据分析。
但随后有律师表示,如果微信不留存用户聊天记录,那么则是违反了《互联网群组信息服务管理规定》,根据该规定,互联网群组信息服务提供者应当按规定留存网络日志不少于六个月。
智联招聘CEO郭盛曾对《财经天下》周刊表示,目前还没有严谨的对于数据隐私使用界限的定义。郭盛认为,数据安全问题的核心是数据主权而不是数据隐私,“你有你的主权,如果你愿意跟别人分享,这就没有问题”。
郭盛相对看好印度当下的一种模式:用户可以自行授权,并知晓自己的数据正在被谁使用,甚至可以从中获利。如果个体并不能从授权中获益,甚至自己并不知道信息已被使用,就会出现问题。
北京某律所的周律师与郭盛观点相近,不久前他曾受理过一起案例:一家共享单车公司的员工将离职,利用原公司权限查看并下载了10万多条信息,卖给了电信诈骗团伙,被追究刑事责任。
据周律师不完全统计,目前国内个人用户信息泄露三个主要来源分别是银行、移动通信公司以及房屋中介公司,“大多是内外勾结,尤其是一些小银行,内部人员出卖信息,比如办信用卡的信贷员,可以以一条信息几分钱的价格卖数据。”
遗憾的是,从2015年《网络安全法》出台至今,“侵犯公民个人信息罪”这一罪名设置相对并不算严重。周律师坦言,有人会用技术中立作为挡箭牌,从刑法的角度有时很难对其作出判断评价,“说得难听一点,中国在一个不大追究个人隐私的环境里,之所以后来加进刑法打击,导火索不在于盗卖个人信息本身,而在下游衍生出来的犯罪。”
有数据安全相关公司大致计算过信息地下黑市,认为这是几万亿的市场,“你做黑客,一个星期就买辆宝马也很正常。”一位业内相关投资人说。
2016年8月21日,学生徐玉玉因被电话诈骗9900元学费,过度伤心导致心脏骤停,抢救无效不幸离世。至此,国内数据安全才第一次被推至大众视野,该事件也成为“2017年推动法治进程十大案件”之一。
该事件后,包括“数据堂”等在内的一拨儿相关公司被查,名单一度扩大到30家,一些公司开始进行裁员。质疑纷至沓来,大量数据接口暂停,“数据驱动”风控模型上了“黑名单”,被监管层建议“谨慎使用”,大数据征信也遭到了前所未有的否定。
所有挣大钱的事情都写在了刑法里。
03
时至今日,数据安全领域仍然没有诞生巨头。某专注数字产业领域投资的人士回忆,在其10年网络安全投资生涯中,直到近两三年,那些保护个人隐私、保护企业的数据安全类型的公司,才开始真正出现。
据其观察,2017年之前,市场上可见的大数据公司“大部分都是靠偷偷卖数据赚钱”。某大数据公司CTO与他观点一致:前年在风口起来的大数据公司里,滥竽充数者众多,常以数据倒买倒卖营生,表面是高科技公司,实际上从黑市购买数据,再清洗包装售出。
有从事AI医疗创业的公司告诉《财经天下》周刊,他们要么高价在医院雇人做数据标注,要么需要和专家医生以合作科研的名义获得数据,这些数据要做脱敏,花在其他部分不可明说的钱更难以为外界所知。
2016年4月,当时欧盟议会通过了《通用数据保护条例》(简称GDPR),用于取代1995年发布的过时的数据保护指令。这项新指令更新了欧盟成员国存储和管理个人数据的方式,将个人信息的保护和监管达到了前所未有的高度,用户的基本身份信息、网络数据、医疗保健和遗传数据、生物识别数据、种族或民族数据、政治观点、性取向都成为GDPR保护的对象。
普华永道的调查结果显示,GDPR意味着68%的美国公司将花费100万到1000万美元来满足合规性要求,另有9%的企业预计要花费超过1000万美元。如果有公司不做出改变,每一单GDPR违规行为将受到高达2000万欧元的处罚,或者上一年全球年营业额的4%,以较高者为准。
条例最终在2018年5月正式实施。任何越线者——包括与欧盟各国进行交易的公司,都可能收到一份来自欧盟的巨额罚单。
普通人担心数据安全,企业对此更讳莫如深。
前不久,一家培训公司出了这样的事:一个员工将公司讲师的电话和个人信息制成图片,试图逃过审核,传递出去。倘若这这些图片真的就此流出去,被困扰的不仅是信息的所属人,还有这家培训公司:丢掉公司名誉,更重要的是核心资产就此外泄。
万幸的是,公司审计人员马上收到邮件警告,随后,公司内部安全管理平台上显示出了这条泄漏事件,揪出内鬼的是一家数据安全公司。
但只有一小部分公司会购买数据安全保护产品。“主要是大企业,包括世界500强和一些金融公司。”天空卫士市场总监王慧解释,中小企业很少会真的在意这个问题,他们会觉得做这件事要花钱,却不产生效益,只有当真的损失来临时,数据这种无形资产才会被重视起来。“大部分中小企业都是在裸奔。”王慧感慨。
曾经,在大数据生意的战场上,业内心态经历了不信任到开放的过程,越来越多的公司知道挖掘数据价值来做生意。预计到2020年,人类的总数据量将突破100ZB。
遗憾的是,大数据行业发展了,数据安全的进程越与之不成正比。
因为发展时间短,技术很新,业内做得好的数据安全公司并不多,放眼全球,目前也没有出现相关领域的巨头。 一家美国叫Altitude的公司曾引起国内投资机构的注意,这家公司使用同态加密技术,使客户无需对加密数据进行提前解密就可以执行操作,既保护了用户隐私,又不损害企业的商业利益。
即使是被看好的这项技术至今仍处于早期,并未大规模使用,“理论上很成熟,但是要将它变成一个普通的产品,还要解决很多问题,比如性能。”该投资机构负责人解释。
“这几年做数据安全的公司多了起来。关注的人多了之后,投资人需要去辨別,有的人简历会写‘从事数据安全研究十余年,就如同AI刚出现时一样。”参加过《网络安全法》第一次司法解释会的一名业内人士觉得有些无奈——实际上整个行业都是新兴的,根本不存在数据安全领域的十余年老兵。
总的来说,人工智能越热,数据安全越热;数据安全越热,相关人才越抢手。
安全行业对人才的抢夺超出外界想象。一个投资人告诉《财经天下》周刊,很多黑客圈的大牛级人物的年薪都以千万元计,即便不自主创业,也可能成为亿万富翁,“安全圈人才的稀缺可想而知,基本上都得千万级往上砸,才能挖到牛人。”
他认为这种供需市场行情是有道理的,因为某种程度上行业中曾出现过人才断层。“你找一个写JAVA的、写PPT的,满大街都是,但想找个做安全的,确实还是有难度。早些年这些大牛都是在微软这样大公司的,起点就比较高。”
毕竟,对那些以数据为主要资产的公司而言,变现道路千万条,数据安全第一条。
(应受访者要求,文中周杨、周青、王严、王琳、辛雷、张军均为化名)