打造安全的未来数据生态圈
2020-05-21方跃高铎吕星航
方跃 高铎 吕星航
中欧数字经济和智慧企业研究中心,是中欧国际工商学院于2018年成立的跨学科研究中心,旨在创造和引领智慧企业领域的管理知识和最佳实践,助力数字经济新形势下的企业转型与发展,同时促进最新研究成果和优秀企业实践的共享与推广。本刊将邀请中欧知名教授、行业领袖以及中欧校友共同探索企业数字化转型中的重要课题。
在数字经济中,数据已成为一项核心生产要素。近年来,企业不断加大对数字化产品和服务的投入,努力探索如何将其拥有的数据转化为商业价值。
仅数据本身并不能形成竞争优势。为了使数据在数字世界中具有价值,它必须准确、智能且相互连接。数据的相互连接非常重要,数据只有相互连接才能真正发挥其价值。数据的相互连接是以数据开放、流通和共享为前提条件的,所有这些只有通过安全的数据生态才能真正得以实现。
到目前为止,在数据的收集、使用、开放、流通和共享的实践过程中存在诸多问题。很多大数据依然在“裸奔”,企业稍有不慎就有可能跨越道德伦理的边界,甚至触犯法律,构建符合数字经济时代发展的未来数据生态圈已刻不容缓。
数据安全是数据生态的基础,也是创造数据价值的必要条件。本文从数据安全的角度,就如何打造未来数据生态分享一下我们的观点。我们的讨论将从四个方面展开:数据的来源、数据安全、数据规范和监管现状以及未来数据生态环境中政府、社会和企业所应承担的角色。
追溯爆炸式增长的数据源
我们每天产生多少数据?
IDC发布的《数据时代2025》白皮书显示,2018年全球产生了33ZB(1ZB=1.1万亿GB)数据,预计到2025年全球一年产生的数据将增至175ZB。根据网速测试统计公司Ookla的数据,按2019年全球宽带平均下载速度约50MB/秒计算,如果一个人要下载完175ZB数据需要9亿年。
海量数据从哪里来?
随着互联网的普及,从线下到线上活动,从PC互联网到移动互联网再到物联网(IoT),人类社会产生的可收集数据的体量呈指数级增长。数据所带来的价值使整个社会越来越重视对它的收集和运用,尤其是企业界和政府的大力投入,在过去几年中极大地加速了数据源、数据量和数据多样性及复杂性的增长。
2019年全球每天收发2 936亿封电子邮件和50亿次在线搜索;在Instagram上,用户每天要分享9 500万张照片和视频;Twitter用户每天要发送5亿条信息。根据Informa Tech LLC统计,2018年中国安装了3.5亿台摄像头,约为4.1人/台;美国则安装了7 000万台摄像头,约为4.6人/台。IHS Markit预测全球在2021年将会有10亿个监控摄像头采集数据(图1)。
数据有多种分类方式。我们可根据数据采集的角度,按维度将数据进行分类(以位置、时间、访问用户等进行标签,根据采集数据方的定义进行维度划分及收集);从应用分析角度根据数据本质进行分类(即分为结构化数据与非结构化数据。结构化数据指行数据;非结构化数据包括其他格式的文檔,比如文本、图片、音频、视频等)。
我们也可按数据按来源,将其分为三类:
(1)第一方数据,也称自由数据,指企业通过自身业务或者与用户交互中采集的企业私有数据,例如供应链运营和用户资料数据。
(2)第二方数据,即通过其他实体的直接关系连带的采集数据,比如零售业在淘宝、京东的数据。
(3)第三方数据,即外部数据,主要由公共部门或专业的数据采集公司提供,如人口普查和地理位置信息等,也可能是经过很多次转售聚合的数据集。
来自不同来源的数据在数据质量、获取费用和隐私安全方面有很大差别(表1)。
图1 全球各地区“安全”摄像头的安装数量(单位:十亿台)
数据安全问题严峻
首先,企业内部直接获取的第一方数据存在着很大的安全隐患。大数据涉及面广,而其背后潜在的高价值很容易使其成为被攻击的“靶子”,甚至成为“作恶者”的工具。外部黑客的攻击或是内部人员的盗取,往往诱惑不法分子铤而走险,攻击拥有大量数据并将数据集中存储的企业或数据公司,一次性地获取大量数据,以相对较低的成本换取巨大“收益”。
2004~2019年间,每天仅北美就有650万条数据泄露,75%是由于外部黑客造成的数据泄露,而25%是由于企业内部雇员,分布的行业主要以商业、医疗、金融、政府为主(图2)。
企业虽然为此不断投入很大的精力和资源,但近年来重大数据泄露事件依然频频发生。表2列出了2004~2019年间最大的15起数据泄露事件,很显然,在过去15年里,数据泄露的问题不仅没有得到很大改善,反而变得日益严峻。
表1 不同来源数据的特质
图2 被泄露数据的行业分布
随着社会正在加速进入数字经济时代,构建适合未来发展的数据生态已刻不容缓,欧盟关于打造未来数据生态的设想和计划值得借鉴。
欧盟近期公布《欧盟数据战略》,包括希望创建一个真正统一和规范的数字市场。在这个统一和规范的数字市场中,所有数据驱动的产品和服务都将遵守欧盟的规则和价值观,确保欧盟在新一轮数字革命中获得领先优势。
图4 德勤2018年中国移动消费者调研
同时,欧盟希望能够进一步推动公共领域的数据开放,鼓励企业和公共部门公开一些“高质量、高价值数据集”,使得大量高质量、高价值的数据可以被不同用户在多种场景下重复使用,从而更好地推动各行业的研发和创新,为社会带来更大价值。
为了推动企业分享和共用数据,欧盟委员会将探讨“采取立法行动的必要性”,强制诸如德国西门子和法国阿尔斯通等掌握大量工业数据的科技巨头同规模较小的竞争对手共享数据。
社会: 意识、参与、伦理
近年來,公众对于数据安全的意识正在逐步增强。2018年德勤在中国移动消费者调研中统计了全球用户对个人信息被使用的态度。中国的消费者非常关注个人数据是否被使用、存储及分享,“非常在意”的比例均高于全球平均水平(图4)。
随着数据生态环境不断向好,消费者将拥有更多发言权,并能更好地保护自己,成为数据生态中的重要组成部分,数字技术将继续成为这方面的重要推手。
例如,新技术将帮助消费者从生产厂家或农民那里获得更多有关所购买商品的信息,同时也帮助生产厂家或农民更快速、更全面、更深入地了解市场和消费者。这种“商品数据共享”可以激发产品和服务的创新,既给消费者带来更多选择、更好的价格,又可以给生产厂家或农民带来更大的可持续性发展机会,有助于推动数据生态的进一步发展。
当社会跨进AI 时代,研发人工智能技术时所遇到的伦理问题中有很大一部分仍没有明确的答案。由于AI 完全是关于数据的技术,数据伦理的问题变得日益突出。
数据生态对社会的可持续发展至关重要,这一点在2020年初举国上下全面抗击新型冠状病毒肺炎疫情的过程被体现得淋漓尽致。数据的即时性和可靠性不但牵动着每一个人的神经,同时也是各级政府和企业进行正确决策的重要依据。
可以预料,整个社会对数据生态的关注程度一定会随着数字经济的发展近一步加强,近期举国上下抗击新型冠状病毒肺炎疫情的经历也会激发社会参与构建未来数据生态的热情。
数据伦理对数据生态的构建十分重要,但到目前为止,尚未得到应有的重视。当社会跨进AI时代,研发人工智能技术时所遇到的伦理问题中有很大一部分仍没有明确的答案。由于AI完全是关于数据的技术,数据伦理的问题变得日益突出。
数据伦理涉及的问题很多,包括企业如何使用数据,是否和如何向客户披露数据使用情况,以及数据如何影响重要决策等。很显然,在数据伦理领域,规范和监管滞后于数据技术的发展,社会在数据伦理方面的关注和积极探讨会为政府、行业和企业制定适当的道德标准提供有价值的帮助。
企业:责任、分享、“不作恶”
企业对数据资产的保护责任和开发数据安全能力变得前所未有的重要。
企业必须做到合规,但不仅仅是被动地满足规范和监管的合规要求。企业应把数据安全视为自己不可推卸的责任,将其列为新的可持续成长的战略重点之一,以满足立法者和消费者对数据保护和隐私的更高期望。
企业必须提高数据保护和隐私的意识,把数据安全作为企业文化的重要组成部分,持续遵守法规的企业更能赢得消费者的信任,并在竞争中脱颖而出。
对以数据为主要资产的企业,不妨考虑设立数据伦理官(Data Ethicist Officer)。另外,企业需清楚地认识到威胁可能来自很多方面。
麻省理工学院斯隆(MIT Sloan)网络安全研究所主任斯图尔特·马德尼克(Stuart Madnick)教授的研究显示,绝大多数公司都是从外围防御的思维方式着手实施网络安全,其重点是阻止黑客和其他不良行为者的攻击,让攻击者无法访问其系统。企业通常不会认真考虑如何应对来自被授权访问自己系统的承包商或合作伙伴。近年来,第三方或供应链网络攻击正在成倍增加,是目前企业急需关注和解决的问题。
当谈到未来几年网络攻击的风险时,马德尼克教授表示,最危险的可能领域是新兴的“物联网”。呈爆炸式增长的各类互联网设备可以进行远程访问,无疑会带来巨大的网络安全风险。
当谈到未来几年网络攻击的风险时,马德尼克教授表示,最危险的可能领域是新兴的“物联网”。呈爆炸式增长的各类互联网设备可以进行远程访问,物联网为黑客提供了更多的访问点,这无疑会带来巨大的网络安全风险。
企业可从产品设计时就将网络安全作为重中之重,尽可能降低产品的安全隐患。但更令人不安的是,公司往往倾向于优先考虑物联网产品和服务的上市时间,而不是放慢脚步,以确保它们达到安全标准。
近年来,数据保护和隐私技术有了突飞猛进的发展,企业应积极、有效地利用好现有相关技术。
比如,差异隐私技术。最近,美国政府开展了一项数据保护和隐私技术的研究,将人口普查收集到的多达3.3亿名美国居民的数据进行匿名处理后,以汇总统计表的形式公开发布,希望对政府、社会和企业进行各种重要决策时提供决策帮助和支持。
根据法律,政府必须确保这样做不会导致任何个人信息泄露。但是,当普查数据与其他公共统计数据结合使用时,有一些技巧可以使个人“取消匿名”。因此,人口普查局向数据中注入了“噪声”。噪声可能会使某些人年轻化,而另一些人则变老,或者将一些白人标记为黑人,反之亦然,同时保持每个年龄或种族的总数相同。注入的噪声越多,去匿名化就越困难,但是过多的噪声会使数据丧失其使用价值。
差异隐私技术可通过量化噪声添加和隐私变化之间的关系,使添加噪声的过程变得更加科学、严谨。苹果和脸书已经使用该方法来收集汇总数据,如果美国政府开展的这项数据研究一切顺利,美国政府其他联邦机构可能会使用该方法,加拿大和英国等国家也在密切关注研究的进展。
第二,企业必须认识到,数据需要通过流通及共享才能发挥其价值,并创造新的发展机会。
近几年,中国的数字化实践有一个很大的误区:在政府监管下,数据能够且已经在不同企业之间流通及共享,并为企业和社会创造最大价值。但事实上,企业大多是不愿意分享自己的数据的。企业数据平台的开放策略多数是打开门,让外面的数据进来,但自己的数据不能出去。結果逐渐演变成一个非常糟糕的状况:企业形成很多内部数字“微生态”,不是一个社会意义上的大数字生态。
小型和初创公司最有意愿和动力与大型平台与企业建立数据共享关系,相比之下,大型平台和企业在数据流通与分享上大多并不积极。大部分的数据通常被大型平台和企业把持,不愿意将数据分享给其他较小的竞争者。数据流通和分享在大型平台与企业之间往往也存在不少障碍,2017年阿里菜鸟网络与顺丰的一场因数据交换问题引发的“分手”风波充分反映了国内企业间数据流通及共享的现状。
为了打破垄断,欧盟在过去的三年中给谷歌开出了近90亿美元的罚单,但也认为这种罚款对于科技巨头缺乏实质性约束。
只有企业,尤其是大型企业充分认识到数据的流通和分享对于数据生态、社会、企业自身长远发展所带来的价值,自觉承担起领头羊的责任,才能打破现状,使数据流通和分享变为现实。
最后,坚持“不作恶”的企业宗旨。
早在谷歌创立之初,“不作恶”(Dont Be Evil)就被奉为谷歌的企业箴言,也被全球很多其他企业推崇和效仿。“不作恶”表达了乌托邦式的企业愿景:未来技术将使世界变得更美好、更安全、更繁荣。
不幸的是,随着时间的推移,很多企业开始失去灵魂,为了追求高额利润,从数据保护和隐私的丧失到逐渐变成贪婪的行业垄断者,距“不作恶”这一理念越走越远。
如今,公司面临的问题是:在收集、使用、分析和共享数据时,“正确”和“错误”如何定义与区分?
例如,亚马逊向第三方卖家提供亚马逊物流(FBA)服务,该服务允许市场卖家首先将产品运送到亚马逊的仓库,然后由亚马逊负责运送给消费者。促使第三方卖家使用亚马逊物流的主要诱因是,如果这些产品符合亚马逊受欢迎的Prime计划的资格,产品更容易被消费者认可,可以被更快地发货,从而为第三方卖方赢得竞争优势。但同时,亚马逊获得了有关卖方业务的宝贵信息(例如有关制造商和产品受欢迎的程度,以及购买了产品的客户的详细信息)。因此,第三方卖家面临很大风险,亚马逊完全可以很快自己直接出售这些受欢迎的产品,并将其消费者数据输入到亚马逊的推荐系统中。
2020年1月,苹果高级副总裁、总法律顾问Kate Adams在接受澎湃新闻记者采访时表示:“过去十多年,隐私安全一直是我们的核心价值观,我们要确保技术如何被良性地使用。苹果在推出什么产品时不会首先考虑经济效益,赚多少钱,而是考虑人们需要怎么样的产品,使用产品后给他们带来什么样的影响。”
未来数据生态呼唤企业再次拾起“不作恶”理念,希望有更多企业像苹果一样,认识到“尊重数据保护和隐私安全是让世界变得更好的一种方式”。