大数据共享难在适合性界定
2022-10-19黄益平北京大学国家发展研究院副院长
黄益平(北京大学国家发展研究院副院长)
如果标准卡得太严,大数据分析也就无从做起。
周小川提出用安全算法手段克服国际间数据难以完全自由流动的矛盾,他的话可以理解为“数据不出境,但分析结果可以出境”。这个思路对我有很大的启示。
当前欧美国家正积极推动国际数字贸易规则的制订,提出了数据跨境自由流动的主张,但这对包括中国在内的其他一些国家来说构成了挑战。如果基于国家安全等考虑做不到数据自由流动,就可能会对这些国家参与国际数字贸易形成制约。周小川的思路为化解这个矛盾提供了一个解决方案,就是用分析结果的流动替代原始数据的流动。
现实中大数据应用的成功案例已经非常多,包括产品的精准营销、服务的个性化方案以及信用风险的有效评估等。大数据分析可以帮助提高经济效率,改善用户体验,扩大经营规模,促进经济与社会的创新与发展。大数据已经成为当前经济中十分重要的生产要素。
如果大数据可以共享,大数据分析的红利就会更大。可能就是出于这个考虑,最近几年政府在一些领域推动数据共享。设立几家大数据征信公司的目的,应该就是为了让更多的商业银行利用大数据信用风险评估的手段。不过,作为特殊的生产要素,并非所有的大数据都是可以拿出来共享的。在这个前提下如何达成数据共享的效果,确实需要创新性的思考。
讨论数据共享,首先要面对数据权属的问题,即数据归谁所有?传统生产要素如资本和土地的有效利用都是基于一个前提,就是清晰地界定产权。但这个做法很难简单地套用到大数据,直接的原因是一些大数据的权属很难被清晰地界定。比如用户在平台上点外卖、看短视频的数据,既包含个人的一些信息,但同时也有平台支持的线上活动。显然,在这个实例中,要在用户和平台之间划清楚数据的所有权界线,难度非常大。一个合理的解决方案是涉及个人特性的数据归个人所有,用户在平台上活动留下的数字足迹可以归个人和平台共同拥有,与个人基本上没有关系的数据则可以归平台所有。
在现实生活中,数据确权还面临一个挑战,就是要在权益保护与使用效率之间取得一个平衡。中国和欧盟的实践提供了两个对应的典型案例。过去中国缺乏有效的数据治理政策,既没有确权,保护也不足。这样,一方面,利用大数据分析的创新活动十分活跃,但另一方面,各种违规、违法的行为也十分普遍。因此,最近几年政府采取了许多措施,加大数据保护的力度。欧盟在数据保护方面一直做得比较早、也比较好,美中不足是由于限制比较多,基于大数据分析的经济创新相对不活跃。
讨论数据共享还要面对适合性的问题,什么数据可以共享、什么数据不能共享?从原则上说,起码有三类数据不能共享:个人隐私、商业机密、国家安全。个人的姓名、年龄、性别、教育水平、家庭住址、联系方式等均属于个人隐私,应该明确归属于个人所有,当然也不能轻易分享。业内常见的做法是对行为与交易数据做脱敏处理,分析师无法追溯到具体的个人或者人群。就这些大的原则达成共识并不难,难的是在执行过程中如何把握。以国家安全为例,如果范围划得宽泛一些,那也许可以认定绝大部分数据都有敏感性,即便像公众打车、叫外卖甚至看短视频这样的数据,也不排除能分析出一些人群行为方式的变化。所以,如何恰当地把握这个度,同样是一个极大的考验。如果标准设定得不够严格,可能会造成不少隐患。但如果标准卡得太严,大数据分析也就无从做起。