APP下载

支持数据交易的大数据试验场关键技术研究

2016-02-06◆何

网络安全技术与应用 2016年9期
关键词:试验场交易中心交易

◆何 军

(上海科技网络通信有限公司 上海 200233)

支持数据交易的大数据试验场关键技术研究

◆何 军

(上海科技网络通信有限公司 上海 200233)

数据的开放、共享、流通是当前发展大数据的关键问题。数据交易是数据流通的新型手段。大数据试验场和大数据交易中心成为大数据产业的两大支撑基础设施。大数据交易中心迫切需要大数据试验场提供技术支撑,研制安全可信公平的数据交易技术和规范、数据访问和权属管控,以有效地支持数据交易,促进数据流通。

大数据;试验场;关键技术

0 引言

大数据[1]是数据、技术和应用三者的统一,数据隐含价值、技术发现价值、应用实现价值。大数据改变了人类生产和生活方式,对各行各业各领域都产生重大影响。

数据的开放、共享、流通是当前发展大数据的关键问题:一方面数据的需求者不知道数据特别是合适的数据在哪里,也不知已知数据的真实性和真实价值,更缺乏有效的数据价值发掘技术和平台;另一方面,数据的拥有者有着重重顾虑,担忧一旦数据被其他公司使用后带来的各种风险和价值损失。这需要通过技术手段打破两者的藩篱,降低数据拥有者在数据共享过程中的风险,并提高数据价值的可见程度,从而发现数据价值,促进数据流通。数据交易是数据流通的新型手段,人们可以利用数据交易中心作为数据需求方和供应方的中介服务,发布数据目录,实现数据共享。

各地政府在陆续推动成立数据交易中心,然而数据对于用户的价值评估以及公平交易的安全保障需要合适的技术平台。因此,有必要研制支持数据交易的大数据试验场作为大数据关键基础设施。支持数据交易的大数据试验场建设可以构建公平可信安全的计算环境,发掘数据价值,促进数据流通。通过大数据试验场提供系列工具,进行数据质量分析和价值评估,促成数据交易,从而将分散沉淀在数据拥有者手里的数据通过大数据试验场共享出来,发掘这些数据的价值,支持数据交易中心的数据交易工作,促进大数据技术和产业的快速发展。因此,大数据试验场的建设、大数据试验场关键技术研究具有十分重要的应用价值和时代意义。

1 国内外的大数据交易现状

1.1 国外方面

在数据流通和交易方面,欧美发达国家尤其是美国已经走在了前面,数据中介通过政府、公开和行业渠道,从数据源头处收集各类信息,进而向用户直接交互数据产品和服务。其中,数据源头、数据中介和最终用户构成了数据流通和交易的主体。数据源头和中介环节构成了大数据资源的供给端。譬如Twitter将自身数据授权给公司Gnip、DataSift和NTT DATA进行售卖;Acxiom等公司通过各种手段收集、汇聚关于企业和个人的信息;Sermo.com和Inrix等公司则通过网络和传感器直接从公众采集数据,获得传统上单个企业难以采集的海量、实时数据[2]。

数据市场的另一端是数据需求方,包括各类数据分析服务商和行业用户,涉及政府决策、公共服务、交通物流、医疗健康、人力资源、广告营销等领域。国外的数据供给端和需求端可以概括如下特征:(1)数据中介大多与采集和聚合为主;(2)集市类的形态逐渐弱化,相关平台都最终在数据类型上有所侧重,不再以“综合类”为主要卖点。(3)用户端需求强烈、应用广泛。

在引入外部数据支撑自身业务的典型案例中,Rentrak公司基于机顶盒数据,检测各种屏 幕上的媒体消费情况,为影视制作公司和广告公司提供咨询服务;Carolinas HealthCare System公司采集200 多万客户的消费数据,识别其中高风险的患者;SAP公司从运营商处手机智能手机使用信息和位置信息,并销售给市场营销机构等等。从世界各国的实践来看,建立统一的数据开放共享平台,并集中开放可加工的数据集和工具集已经成为了一个通行做法,如美国的data.gov网站、新加坡的data.gov.sg网站、印度的data.gov.in网站、西班牙的 datos.gob网站等。Google公司内部的数据共享平台推动了Google公司数据产品的创新[3]。

1.2 国内方面

随着数据治理理念的影响逐步加大,我国的大数据开放共享平台的进程开始逐渐加快。2011-2013年陆续上线了国家数据(data.stats.gov.cn)、北京市政务数据资源网(BjData.gov.cn)和上海市政府数据资源网(DataShanghai.gov.cn)等大数据开放共享平台。据“开放知识 基金会”发布的《2013年开放政府数据普查》结果,在被普查的全球70个国家和地区政府中,我国综合排名第35位,这与我国经济大国和数据大国的身份极不匹配。为此,我国政府工作报告中也多次提出发展大数据,并启动了一批相关科学研究计划。2015年8月,国务院印发了《大数据行动纲要》,强调要大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商业服务便捷化,促进安全保障高效化,加快民生服务普惠化,明确了大数据领域的十大工程建设。同时,上海《关于加快建设具有全球影响力的科技创新中心的意见》明确指出要 “实施一批重大战略项目,布局一批重大基础工程”,其中就包括大数据和云计算等[4]。2014年起,各地开始建设大数据交易场所。2014年12月31日,贵州在贵阳成立第一所以大数据为命名的交易所[5];2016年3月29日,浙江省批准筹建大数据交易中心;2016年4月1日,上海市在静安区挂牌成立大数据交易中心。

这些交易场所的筹建为数据流通奠定了良好的场所基础,但也对如何保障和进行数据交易提出了严峻挑战。国内数据流通环节上,普遍存在数据源活性不够、应用覆盖面较窄等问题,也就是我国大数据产业发展尚处于非常初级的阶段。在这个阶段,大数据价值发现和实现链条缺位,缺少像大数据试验场这样的基础设施帮助数据拥有者和最终用户发现并认可数据价值;此外,数据交易双方普遍对数据流通存在各种恐惧心理:包括担忧虚假数据、数据泄密、隐私泄露、数据价值流失等。

2 大数据交易的关键问题

作为大数据产业的两大支撑基础设施,大数据试验场和大数据交易中心存在着各自亟待解决的问题:(1)大数据试验场迫切需要大量的数据资源与杀手级应用以为大数据试验场的技术选型和核心技术攻关指明方向;(2)大数据交易中心则迫切需要大数据试验场提供技术支撑,提供各类数据资源,包括真实数据、样本数据、仿真数据,保障数据交易前、中、后中对数据的质量分析、价值评估、交易风险控制、数据访问控制、隐私保护等[6]。

支持数据交易的大数据试验场是支撑用户进行基于数据组织、分析、探索及其系统架构方面试验,促进数据开放共享的公共平台,目的是保障数据交易,促进数据流通,帮助交易双方发现数据,发掘数据价值。试验场将为从事大数据交易的企业、个人和科研机构提供大数据处理的模拟环境,以支撑用户从平台、数据、数据分析方法等方面对大数据的处理、应用和分析系统进行展开实验,保障数据交易。

图1 大数据实验场总体架构

主要包括:(1)探索性大数据分析与价值评估系统:实现数据选取、数据融合、工具选取、数据价值评估、数据推荐等功能;为支持交易的大数据试验场提供大数据探索性分析服务。(2)大数据试验沙箱:支持应用适配的软硬件集群(Hadoop、Spark)自动配置、全局优化的自适应资源调度功能,支持多用户在大数据试验场2000节点的共享集群上创建隔离的试验专用空间;为支持交易的大数据试验场提供安全可信试验环境。(3)支持公平可信数据交易的保障工具集软件:支持数据可信公平交换、交易总账管理、结果验证、试验沙箱安全初始化、可信审计数据采集;为支持交易的大数据试验场提供可信公平交易服务。

图2 大数据管理及控制子系统

3 大数据试验场关键技术

通过支持数据交易的大数据试验场建设,研制安全可信公平的数据交易技术和规范、数据访问和权属管控,保障大数据交易。研制支持数据交易的大数据试验场,厘清并解决数据质量评估与修复、探索性大数据分析与价值评估、公平可信数据交易与交易审计、及交易试验沙箱等关键技术问题,形成关键工具集,将有效地支持数据交易,促进数据流通。其中的关键点包括:

(1)基于融合后数据的数据分析方法,解决试验场大数据探索性分析的价值评估问题,达到辅助用户进行数据选取的目的。

(2)基于FCM(因子准则测量)方法,维度可剪裁与扩展的数据质量度量模型与评估指标体系,解决多样化数据质量评估需求,建立可定制质量度量模型与评估指标体系。

(3)基于质量规则和管道过滤架构的多算法数据修复融合方法,解决目前单一质量指标方法难以解决的质量修复问题,提高数据流通及应用价值。

(4)基于异构应用模糊适配和共享状态全局调度的软硬件集群自适应配置技术,为多用户构建大数据试验沙箱专用空间,支持隔离和高效的大数据交易与数据分析试验。

(5)基于区块链技术的去中心化公平交换技术,解决公平交换对可信第三方的依赖,为数据交易及试验提供可信机制和保障。

(6)基于可信审计监管机制,形成试验虚拟环境的可信初始化以及审计数据的可信生成方法,建立可信的、具备安全隔离和全流程可追溯可取证能力的大数据试验沙箱虚拟环境,支持公平可信的交易和试验。

(7)基于数据资源血缘图谱的大数据试验场数据权属管理方法,解决大数据试验过程中衍生数据的结果控制难题。

(8)面向大数据试验的平台即服务的系统集成技术,解决试验场内异构工具集与系统间集成问题,简化大数据试验构建。

图3 大数据实验场关键技术

4 展望

大数据试验场拟建成一个公益性、开放性的功能性平台,支持大数据应用及产业发展,为需要进行大数据研究及试验的组织及个人提供相关基础设施及专业咨询、培训服务。试验场通过提供交易前、中、后的技术支持服务促进包括大数据交易中心在内的数据交易场所的建设。

[1]周宝曜,刘伟,范承工.大数据战略·技术·实践[M].电子工业出版社,2013.

[2]Greenberg A,Hjalmtysson G,Maltz D A,et al.A cle an slate4D approach to network control and management[J].A CMSIGCOMM Computer Communication Review,2005.

[3]De Tejada Muntaner G R.Evaluation of OpenFlow co ntrollers[D].KTH,2012.

[4]程莹,张云勇,杨绍光.云网融合及原型验证研究[J].电信技术,2013.

[5]郑叶来,陈世峻.分布式云数据中心的建设与管理[M].清华大学出版社,2013.

[6]杭州华三通信技术有限公司.新一代网络建设理论与实践(第2版)[M].电子工业出版社,2013.

猜你喜欢

试验场交易中心交易
汽车试验场噪音试验路吸声系数研究
以市场机制推动自愿减排 全国自愿减排交易中心建设有序推进
国家粮食交易中心
国家粮食交易中心
世界上最大的海上无人系统试验场开放
英国天然气交易中心启示
中亚轮胎试验场项目完成部分施工
大宗交易榜中榜
大宗交易榜中榜
孝感汽车试验场获交通部认可汉阳所业务不断延伸