数据共享 难也不难
2015-01-06郭涛
郭涛
俗话说,巧妇难为无米之炊。虽然现阶段,不论是传统的IT厂商,还是初创的大数据厂商,都在大数据的技术和产品方面不断推陈出新,但如果没有海量的数据用于分析,那么大数据分析与挖掘只能是纸上谈兵。因此,有人提出,政府相关部门、企业应该适当公开一些不敏感的数据,以实现更好的数据共享,为大数据的科学研究和商业应用提供土壤。
恰好,在近日举行的2014中国大数据技术大会(BDTC 2014)暨第二届CCF大数据学术会议上,多位国内外的学者、企业家都谈到了数据共享这个话题,并且介绍了中外在数据共享方面的实践。
数据共享应成常态
记者曾经听美国的一些大数据企业谈到,美国在数据公开方面做得非常好,这为科研院校的大数据研究、企业的大数据商业化运行提供了便利条件。有业内人士建议,中国政府的相关部门也应该制定一个基本的大数据分类和使用规则,比如根据数据的敏感性、安全性要求明确定义数据的“黑、灰、白”,形成整个社会和产业界的数据共享机制,从而加速整个大数据产业和应用的发展。
“一提到‘数据公开,大家都很敏感,所以我们可以换一个词——数据共享。”中国工程院院士李国杰表示,“国内外在数据共享方面确实存在差别,这是大数据的发展水平决定的。是不是政府的所有数据都要公开呢?在国外,有的国家政府提出,可以把政府数据都公布出来,但是谁又有能力保证这些数据的安全,并充分利用和发挥其应有的价值呢?”
在数据共享这个问题上,从政府到产业界应该达成一种基本共识。国外一些在大数据应用方面走在前列的国家的共识是:数据共享是常态,不共享是例外。而现在国内还很难达成这样一种共识。
李国杰表示,在数据共享方面,我国可以向最先进的美国学习。但是,如果我们能借鉴与我国自身发展水平接近的国家,比如印度、巴西的经验,可能更实际,效果也会立竿见影。
Conviva公司联合创始人兼CEO、卡内基梅隆大学计算机科学教授张晖表示:“大数据落地的第一件事就是要制定清楚的规则,明确数据的所有权。在美国,虽然在大数据的某些方面还存在灰色地带,但基本规则十分清楚,而中国目前还在探讨之中。第二件事就是形成大数据方面的双赢,甚至多赢局面。这就需要整个产业界,包括政府、企业等,在先满足自身利益的基础上再实现双赢。比如,在美国,为了科学研究的需要,一些企业通常会对数据进行匿名化处理后公布出来。”
卡内基梅隆大学教授、ICML 2014程序委员会主席邢波认为,现在很多人纠结数据公开和共享这个问题,可能不是从大数据研究或商业化的角度去考虑这个问题,而是出于一种社会知情权的需要。一个企业有权保护自己的数据。“如果从纯研究的角度来讲,我不觉得数据的公开与否会真正影响大数据研究的进程,至少在学术层面还没有到没有数据就不能开展研究的局面。有些人质疑的可能是有些数据你有而我没有。科研机构可以与企业在自愿的基础上签订一个协议,对数据的共享、研究成果的归属等问题做出明确约定。”邢波谈了自己的观点。
多方共赢
现在,很多互联网公司、电商企业都宣称自己就是一个大数据企业。在这些企业中,数据已成为一种极具价值的资产,而这些企业本身就是数据金矿。如果这些企业都能在一定程度上开放并与自身所在的产业链的上下游企业共享数据,那么大数据的应用将大大提速。
但是,企业有自身的经济利益,它们通常不会,也不应被迫公开自己的数据。为什么企业还要公开自己的数据呢?因为这有利于提升整个产业的发展水平,更有利于形成一个良好的生态系统。张晖介绍,其实美国的工业界、学术界和政府并没有明文的规定要求大家公开数据,但是随着产业的快速发展,同时也为满足日益增长的用户需求,整个产业界自发地、慢慢地形成了当前这种数据脱敏后的公开和共享模式。“我的一个学生,现在是一家创业公司的合伙人,他们公司就有大量的商业数据。他们就把某些数据进行匿名化处理后交由学校来做研究。反过来,学校的科学研究成果可以反馈给公司,从而形成了双赢的局面。”张晖举例说,“我们需要政府提供一个宽容的机制,而产业界的人也应该有高瞻远瞩的想法,在保护自己的利益的同时,努力营造一个多赢的生态系统。”
邢波认为,工业界与学术界在大数据方面的研究风格和方法是有区别的。比如在学术界,为了更有效地进行大数据研究,数据共享的限度可以放宽一些。另外,大数据的研究机构也可以自己想办法模拟大数据的环境。“在美国,学术界与工业界之间正在积极建立一种互信机制,互相争取对方的注意力,大数据的研究成果与商业转化形成了一个良性循环。这一点值得国内的同行借鉴。”邢波告诉记者,“在美国,并不存在产业界和学术界谁领先谁的问题,双方的联系非常紧密,是互补的关系。很多前沿的、有一定风险的项目通常是从大学开始,然后才将成果输送到产业界。在美国是‘学而优则教。美国许多大学的教授同时也是实体企业的骨干,这为大数据的研究和产业化创造了一个良好的氛围。”
ETI创始人、美国特拉华大学电子与计算机工程系教授高光荣就是一个横跨学术界与工业界的典型代表。他谈了自己的亲身经历:“我教的一门课要用到银行卡的数据。我需要给学生提供与真实数据近似的数据。最后,我们采用数据模拟的方式让学生完成了课题研究。从公司的角度看,数据公开和共享的前提是能够让双方获益。不过,即使是在这种情况下,双方在交换数据时也要制定严格的保密制度或签订协议。”
数据共享要有法可依
在中国,企业之间的数据共享问题是当前的一个热点。有业内人士指出,企业间的数据之所以不能共享,一方面,是因为各公司出于安全和竞争方面的考虑,不愿轻易公开自己的数据; 另一方面,大家都说数据具有无限的价值,但谁也没有能力给数据定个具体的价格,因而数据价值无限也可被理解为数据无价值,数据无价值也就无法进行等价交换。
不过,记者了解到,在某些十分依赖数据的行业,比如移动广告业,企业间数据交换的问题已经被提上议事日程。据一位从事移动大数据分析工作的业内人士透露,可能明年在移动广告界就会出现一些类似联盟的行业内部组织,参与的公司会在一定规则下交换自己的数据。这些共享的数据可能由一个第三方的机构负责保管,企业在使用完这些数据后必须将数据交还给第三方的数据托管机构或销毁。虽然这个数据共享计划还在酝酿过程中,不过可以看出,数据共享对于大数据的商业化是有积极促进作用的,也是企业所需要的。未来,无论是政府还是行业监管机构,可以考虑制定与数据共享相关的法规或行业标准,规范数据共享,保证大数据行业的健康、有序发展。
中国科学院计算技术研究所研究员、CCF大数据专家委员会秘书长程学旗表示,大数据落地遇到的挑战除了来自技术以外,数据共享问题确实不能忽视。不过,数据共享不能泛泛而谈。举例来说,当前,许多企业内部的部门之间就没有形成一种共享的良性机制,而没有数据的整合,也就谈不上应用的创新和发展,更无法做出正确、及时的决策。再比如说,在建设智慧城市的过程中,各政府部门、行业部门的数据没有整合到一起,因而很难在一个统一的目标下协调发展。数据的整合与共享是大数据发展必须跨越的一道门槛。
链接 2015大数据发展趋势
在2014中国大数据技术大会(BDTC 2014)上,《中国大数据技术与产业发展白皮书(2014)》和《2015大数据十大发展趋势预测》正式发布。
CCF大数据专家委员会从大数据科学、大数据技术、大数据系统和工程、大数据应用、数据资源、产业生态环境等6个不同方面、总计54个候选项中投票选出了2015年大数据的发展趋势:大数据与人工智能的融合,跨学科领域交叉的数据分析应用,数据科学带动多学科融合,深度学习成为大数据智能分析的核心技术,利用大数据构建大规模和有序化、开放式的知识体系,大数据的安全持续令人担忧,开源成为大数据技术的主流,大数据与云计算和移动互联网等的综合应用,大数据提升政府的治理能力,大数据技术课程体系建设和人才培养快速发展。