APP下载

大数据时代呼唤数据质量治理

2019-12-18尤建新

上海质量 2019年10期
关键词:领英用户质量

◆尤建新 / 文

编者按

在9月18日举行的第21届工博会质量创新论坛上,上海市质量协会副会长、同济大学经济与管理学院尤建新教授以《大数据时代呼唤数据质量治理》为题发表演讲,通过丰富生动的案例展示了大数据引发的市场生态巨变以及数据质量治理的重要性,进而指出当前数据质量治理体系存在的缺失,以及加强数据质量治理的迫切性。本文根据现场速记整理。

之所以讨论数据质量这一话题,是因为现在已经进入到一个大数据时代。“大云平移碳AI”(大数据、云计算和云服务、平台经济、移动互联网、低碳、人工智能)不仅带来了市场生态的急剧改变,对人们的生活方式和行为也产生巨大影响,由此提出了新的挑战。那么挑战是什么呢?

比如说,现在有很多人在研究物联网。事实上,物联网早已存在,任何人只要拿着手机,无论跑到哪里都连接着互联网。从这个角度讲,我们每个人早已成为“物联网”的移动端,成为大数据的“用户”和“供应商”。

个人如此,企业也是如此,包括学校、政府等。那么,问题就来了,如何界定数据产品呢?大数据已经存在,数据在被估值、交换的过程中具备了产品的特征,但如何界定数据产品,到现在为止还没有一个统一的标准解释。如果对数据产品的概念不能统一认识,就会带来一系列问题:如何为组织进行“数据赋能”?如何规避“大云平移碳AI”下新的风险?如何在“大云平移碳AI”下抓住发展的新机遇?面对这些问题,我们不得不认真审视大数据带来的挑战。

大数据的挑战就在身边

案例1:菜鸟与顺丰。2017年6月1日,菜鸟与顺丰双方“基于用户的信息安全”产生纠纷。6月2日在国家邮政局的协调下,菜鸟与顺丰同意从6月3日12时起,全面恢复业务合作和数据传输。这一事件中双方都绕开了数据话语权这一核心利益,强调保护顾客的数据和隐私,以至让“用户的信息安全”背锅。实际争夺的还是数据话语权,包括数据共享和数据驾驭。让顺丰放弃腾讯云而接入阿里云,这对顺丰来说不仅是业务方面的考量,也带来了控制权的风险。并且,互联网商业下,真正具有核心竞争力的并非数据本身,而是驾驭数据的能力。谁具有了数据控制权,谁就有了话语权。这一过程涉及的领域很多,包括法律领域的问题。

案例2:腾讯和华为。两家公司在2017年就用户数据的使用发生了矛盾。腾讯指责华为“盗取”了微信的数据,而华为认为用户的数据不专属于微信,也不专属于华为,属于用户自己,而华为在收集数据以服务用户之前是经过用户授权的。微信数据(如聊天记录)理应属于个人隐私,虽然部分聊天记录会被保存在腾讯的服务器中,或由于应用软件的作用被手机供应商获取,但这些数据的所有权仍归用户个人所有,所以这些数据也并非腾讯的数据。但问题是,包括在座的各位嘉宾,你们能控制自己的用户数据不被华为、苹果或腾讯公司使用吗?如何确保自己的权益得到充分保护呢?《中华人民共和国网络安全法》规定,网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意;涉及用户个人信息的,还应当遵守本法和有关法律、行政法规关于个人信息保护的规定。进一步关注这方面问题的话,20年前欧盟就已经出台关于数据隐私保护的规定,并且在两年前又出台《通用数据保护条例》来进一步规制企业行为,同时欧美之间也达成了《隐私盾协议》。

案例3:淘宝与美景。这两家公司不正当竞争行为的案例,涉及的也是数据产品。与前面两个案例的区别在于:这个案子,法院已经依法做出判决,而前面两个案例都是通过政府部门(比如邮电总局、经信委)来协调、而非法律途径解决的,这是因为面对大数据的众多问题目前缺失了法律条款的支持,只能依赖政府协调。这也提醒我们,建立健全相关法律条款迫在眉睫。欧美在这方面已经有建设成果,值得我们学习借鉴。

案例4:HiQ和领英。这两家关于数据的官司就我们一般认知而言,有悖于“常理”,值得借鉴。领英成立于2002年,领英允许用户创建自己的社交档案,和其他用户建立联系。领英用户可以选择向与它有直接联系的人、所有领英用户或向大众公开其个人信息。HiQ 2012成立,根据领英公开发布的简历进行数据分析,然后向他们的客户提供两个产品:Keeper向雇主提供员工可能被挖走的信息;Skill Mapper向雇主提供员工所掌握的技能。HiQ的商业模式是全部建立在分析领英公开用户数据基础上的。2017年5月23日,领英向 HiQ发函,要求HiQ立刻停止没有授权的数据抓取和其他侵害领英用户协议的行为。法院同意了HiQ关于领英不公正地将职业网络市场力传导到其他市场的主张。法院认为,谢尔曼法禁止公司将垄断力传导以排除竞争或者获得竞争优势,从而损害竞争者权益。HiQ 提供证据证明了领英将开发一个数据分析产品与HiQ 产生直接竞争,显示领英终止HiQ 准入领英数据的很大原因是希望排他性控制数据以促进自己的商业目的,HiQ面临直接的威胁。在该案中,领英没有对数据主张所有权,法官也没有就“必要设施”原则展开讨论。

此外,还有谷歌与双击、脸书与瓦茨普的收购案,也到牵扯到背后的大数据问题。在收购过程中,大数据作为重要的资产被低估了。在脸书收购案中,德国联邦卡特尔局意识到脸书用户数据和社交网络服务市场之间存在交互影响,并于2017年出手对脸书滥用市场支配地位进行法律审查。

从这些案例中不难发现,大数据时代已经到来,市场生态正在发生巨变。中国在这方面遇到的案例比较少,对此的敏感性还不够,理论和实践方面都存在不少空白和差距。

市场生态发生巨变

市场生态的变化已经突显数据治理体系的严重滞后,简单归纳如下。

1.数据垄断。数据市场已经呈现,数据资源的市场属性引发了潜在的垄断问题。当我们还没有认识到数据本身也是一种产品、工具、资源或资产的时候,我们可能不会过多关注相关的解决方案,但现在我们逐步认识到这一点后,就要对此做好准备。比如,美国联邦贸易委员会委员Pamela Jones Harbour认为,谷歌与双击的合并是两家公司产品和服务以及用户数据的合并,尤其合并后谷歌能够垄断数据,因此应特别审查数据合并对竞争者及用户的影响,并建议应该在未来类似案例中界定一个推定的由数据组成的相关产品市场——数据市场。显然,数据的市场属性容易驱动市场集中和市场支配地位并对市场准入产生障碍。占有数据并能实施准入数据、利用工具和算法分析数据的企业掌握了竞争优势,并排斥弱势企业。

2.数据交易机制还不够完善。数据业态的认知缺陷导致市场机制存在缺漏。首先,交易信息不通畅。对相关市场中谁拥有相关数据、数据所有权人存储数据位置以及与数据所有权人交易成本等相关信息缺乏阻碍了数据准入。其次,拒绝交易和许可。签订数据排它性合同会以一种封锁原材料的形式对数据准入造成障碍。第三,数据交易价格和交易条件不确定。缺乏数据所有权的制度安排、标准化缺漏、成本核算和市场价值估值不确定。

3.数据保护和隐私保护的法律缺失。当前,法律法规建设滞后于大数据的发展,因此在隐私保护和大数据发展之间找到平衡是当今法律法规和公共政策面临的最大挑战之一。企业利用市场支配地位降低隐私保护标准,那么隐私保护的削弱可能涉及滥用市场支配地位,应受反垄断法的规制。换句话说,数据垄断企业滥用其市场支配地位的表现之一就是弱化隐私保护。国内外学者就隐私对企业利用数据赋能竞争力以及合规成本的影响开展了探索和研究,认为企业对隐私保护不足会降低企业竞争力并构成违法(这一认知的前提是公司法、消费者权益保护法、数据保护法以及反垄断法等有前瞻性的研究和完善)。

4.数据所有权不明晰。数据的交叉和复杂性混淆了所有权界限。刚才谈到了用户数据到底属于谁,从法律界人士以及境外案例可以看到,数据属于用户是一致的认识。但是,实践中怎么做到呢?目前还缺少有力的抓手。数据作为一种重要的资源和生产要素,其使用权、排他权和处置权等各种权利在个人、企业和政府等主体之间的不同配置将会对其使用效率产生很大的影响。数据所有权和传统物权中的所有权是有区别的,所以也有人建议将数据“所有权”替换为数据“管理权”或具有排他效应的数据“控制权”。另外,数据主权是中国学者关注的一个重点,认为中国需要以“数据主权”为核心诉求,推动建立“共享共治、自有安全”的全球网络新秩序,以取代美国单一霸权主导下的网络空间秩序。

5.对数据资源的市场价值和交互效应的认知不足,研究严重滞后。数据垄断已经开始挑战市场生态的健康发展,并对数据质量构成严重威胁。由于数据垄断者控制了数据,且数据质量缺乏严格的、权威性的统一标准,新的数据准入者对从数据垄断者手中获得的数据质量无法进行准确的测量和评估。如果政府对数据垄断者要求强制共享数据,垄断者可以通过清洗、加工以及传输障碍等来改变传输数据的质量,由此既满足了政府的要求,又可以通过数据的瑕疵来打压对手。这样的话,就造成了不公平竞争,准入数据就失去意义。所以,构建数据质量治理体系是市场生态建设的一项艰巨任务,因为大数据具有动态性、实时性的特征,快速的变化提升了对数据质量测量和评估难度。

数据准入和数据质量研究

这是新时代新的课题,也是一个新的挑战。大数据时代,数据质量的价值毋庸置疑,因而数据准入和数据质量管控已经日益成为相关企业的生命线。在大数据支持下,企业可以预测市场未来发展方向和动态,可以发现新的消费需求空间等。如果数据不充分或存在瑕疵,那么分析结果就会出现偏差,误导投资和产品研发方向。

目前亟需关注并研究的数据准入和数据质量问题包括:数据准入的公平性问题,即垄断与垄断规制研究;数据质量的评判标准问题,大数据多数处于非结构化状态,提升了标准化和质量管控(宏观和微观)难度。对于垄断规制问题,已经开启了一系列的研究,包括:

1.培育健康市场竞争生态:数据垄断规制与数据共享机制研究。互联网行业面临的数据垄断、数据交易机制不完善已成为数据准入主要障碍,提高了潜在市场进入者的准入壁垒,严重影响了市场有效竞争。特别是,互联网数据寡头跨界融合背景下,数据市场建设不足将成为数据赋能产业升级的关键障碍之一。

2.数据供需结构优化及保障:数据价值开发与数据主体隐私权利益协调机制研究。随着互联网数据寡头杀熟、价格歧视等行为频发,导致个人和国家对数据价值、数据安全以及隐私保护的认知趋于成熟,尤其是欧盟《通用数据保护条例》的生效将个人隐私保护在全球推到新高度之后,数据准入法律环境、数据准入法律成本和数据使用合规成本都出现了巨大改变,必须重新审视。

3.域外瓶颈和关键问题:数据准入国际合作机制研究。各国政府已充分意识到数据在国家创新发展和竞争力提升中的重要地位,纷纷构建了有助于本国企业发展的数据治理体系,强化数据主权以应对美国数据霸权的威胁。未来,数据资源和数据主权的博弈、对信息资源及其相关技术进行单边控制以保护本土企业的发展将会成为各国政策制定的主要考量因素,包括数据传输国际合作机制的建设。其中,标准化水平和话语权对于竞争力影响极大。

4.法律法规与公共政策的策动与绩效评价:制度性保障机制研究。数据,作为一个新时代的新概念,不仅扮演着资源和工具的角色,更代表着一个个人的私权、一个组织的产权乃至一个国家的主权。欧美等发达国家已经领先十年开始了相关的研究,在保护公民个人私权、维护公平公正的市场竞争以及保障本国企业权益方面有着丰富的经验和成果。这方面的觉悟和制度性建设存在的差距,是我们在创新驱动和产业升级发展过程中面临的最大风险,也是创新生态建设亟需弥补的短板。

关于数据质量,国外从20世纪90年代已经开启这方面的研究。比如,以Richard Wang为首的MIT数据质量管理团队在1996年将数据质量界定为数据的可用性,并建议对数据质量评估应依赖于数据消费者。美国国家统计局2001年对数据质量的界定提出了三个原则:数据是产品,对于消费者来说,既有成本,也有价值;作为产品,数据有质量,数据质量来自于数据生成的过程;数据质量有赖于不同因素,包括数据使用的目的、数据使用者,以及使用的时间和商业环境。显然,欧美在这方面的探索已经有20多年历史。

虽然对于数据质量仍然没有一致的定义,但在界定其评判标准时正逐步趋向五个维度:可获得性、可用性、可靠性、相关性、可陈述性。其中:可获得性应该包含可准入性和时效性,即可以通过界面准时获得和更新大数据;可用性是指数据的可信度,比如大数据来源是否可信;可靠性又分为大数据的准确性、一致性和完整性等;可陈述性是指大数据的可读性和结构化,是否清晰可理解。在不同的商业环境下,评判数据质量的要素将有所不同。比如,对于社交媒介数据来说,时效性和准确性是最重要的质量特征。但是直接界定数据准确性是比较困难的,还要依赖于其他信息来评估原始数据。因此,可信性就成了一个重要的质量维度。但是社交媒介数据多数是非结构化的,于是一致性和完整性就很难适用于评估数据质量。

展望未来

一是在宏观和微观层面上都必须要管理创新。首先,大数据带来了新的市场生态和不确定性,带来了风险。规避或减少风险,并确保市场生态的健康发展和数据质量,就需要管理创新。其次,互联网、大数据打破了原有的产业边界,拓宽了企业发展的空间,同时也增加了市场发展的不确定性,加剧了管理的复杂性:企业出现组织和人力资源的结构性“再障”;政府出现知识断片、法律和制度盲区;科研滞后于实践,而且往往因数据价值和市场意识淡薄,一不小心成为踩陷阱的“当事人”。

二是要研究和构建数据质量治理体系,这是当务之急。在这方面,首先要学习和借鉴欧美发达国家的法律法规建设成果,持续健全市场生态,包括创新生态、竞争生态。其次要学习和借鉴欧美发达国家的理论与实践经验,逐步明晰数据质量概念,制订数据质量标准。

构建数据质量治理体系的顶层设计和布局必须建立在充分研究的基础上,因此积极推进大数据研究中的数据质量和数据质量治理体系研究,夯实数据市场基础设施建设,是新时代的急迫需求,更是维护数据主权的责任担当。

最后强调一点:大数据不是洪水猛兽,是资源,是数据质量治理体系的重要基础,也是新市场基础设施的重要构成。

猜你喜欢

领英用户质量
“质量”知识巩固
质量守恒定律考什么
做梦导致睡眠质量差吗
领英学习首次推出9,000门在线课程
关注用户
世界
关注用户
微软262亿美元收购领英
关注用户
质量投诉超六成