APP下载

“大数据”背景下统计数据资源整合探索

2018-01-27苏州市统计局课题组

统计科学与实践 2018年10期
关键词:统计数据资源整合苏州

□苏州市统计局课题组

在当前大数据、云计算、智能分析大发展的时代,数据成为一种新的生产要素和创新驱动力。各种现代化数据分析应用技术及手段的不断兴起对政府统计的权威性和地位带来前所未有的挑战。统计数据资源整合以统计数据的元数据化为核心,通过前瞻性规划和设计,探索统计数据生产和应用方式的变革,加快大数据时代统计效率的提升和统计服务的优化。

统计部门是大数据的重要发源地。大数据时代的来临,为政府统计部门利用现代信息平台和技术分析挖掘数据、提升统计效率、推进现代化服务型统计建设提供了难得的机遇,也带来了统计数据采集、管理、分析、应用和发布等各个方面的深刻变革。2012年国家统计局“一套表”联网直报平台开通,迈出了大数据时代统计生产方式变革的开创性一步,在运用信息化手段加速海量数据汇集的同时,如何提高与大数据时代相匹配的数据发掘能力、分析解读能力以及服务创新能力是摆在统计系统面前的一项重大课题。为此,苏州市统计局、国家统计局苏州调查队(以下简称“苏州局队”)于2017年联合启动了“统计数据资源整合”项目,初步构建了集数据采集、存储管理、加工整理、分析挖掘、发布提供等功能为一体的统计资源管理平台,为加快推进大数据时代的现代化服务型统计建设开展了富有成效的探索。

统计数据资源整合的概念

统计数据资源整合是以构建一体化、更全面、更高效的数据资源管理系统为目标,以统计数据的元数据化为核心,打破制度、任务、专业、软件等方面的限制,将所有的统计数据资源进行统一的元数据处理,加工形成统一的大数据库系统,使数据资源在逻辑上形成一个整体,为统计大数据应用做好资源及平台准备。

所谓的元数据是定义和描述其他数据属性的数据,是描述某类资源的具体对象时所有规则的集合,用来支持指示存储位置、历史数据、资源查找、文件记录等功能。统计数据的元数据化是将一套表制度及其他重要调查项目制度中的指标、分类、标准、属性进行梳理整合,规划设计科学标准的元数据体系,在此基础上构建元数据库管理系统(资源体系管理系统),满足统计元数据基本管理需求的同时方便统计业务人员直接使用。

统计数据资源整合背景和依据

统计数据资源整合既是大数据发展的潮流所趋,也是实现统计数据生产现代化的的必经之路。

大数据时代,数据成为一种新的生产要素和创新驱动力,数据的生产和应用方式发生了革命性的变化,传统信息渠道加上线上交易、社交软件、即时通讯、搜索引擎乃至网络游戏等各种信息媒体产生的海量数据呈爆发性增长,较之传统数据,大数据信息内容繁庞,结构复杂多元,对数据分析发掘提出了更高的技术要求。目前国内已有众多企业和机构涉足大数据开发,相对于统计部门提供的数据信息,这些机构所提供的数据信息即时性更高、灵活性更好,更能满足个性化、多样化的社会需求,统计部门在统计数据信息领域的权威地位受到前所未有的挑战。

国家统计局实施的“一套表”联网直报、第三次全国经济普查和第三次全国农业普查中手持电子终端的广泛使用实现了统计数据采集的快捷化,大大提升了统计数据采集效率,为政府统计工作中的大数据实践提供了重要的经验参考。但由于统计基础数据涉及报告期时间跨度长、指标变化复杂、企业形态经常变化、数据处理要求高、数据量大等客观因素,如何有效整合海量的统计数据信息历来是技术上的一个棘手难题,在国家层面同时也面临联机事务处理和联机分析处理的性能综合协调平衡问题,统计数据处理的特殊性迫切需要在数据库底层技术(大数据技术)上寻找突破和更新。

“十二五”期间,苏州统计系统在“四个三”工程统计信息化架构下建设了宏观监测数据库,初步搭建了苏州统计业务工作平台的框架,提升了统计数据管理水平,提高了统计系统的工作效率,丰富了统计数据的服务方式。但随着大数据时代的到来,统计信息化建设的不足开始显现,突出表现在以下几个方面:

一是数据管理存储不统一。专业的数据资源存储比较分散、不安全,未形成完整的统计数据资源库,容易因电脑故障及人员变动造成数据的永久丢失,或者由于软件、环境变化造成数据不可用;现有数据库对一些主要专业的统计业务需求的提高和深度应用支撑不足,缺少统一的统计数据管理平台和基础数据库。

二是专业软件不统一。系统内用于数据处理的软件种类较多,专业内部存在因软件版本更替带来数据衔接问题,在各类普查和专项调查也因数据处理需要反复引进不同的软件。由于数据处理软件不统一带来数据库格式不一致,统计数据交流只能限于汇总层面,基础数据难以便利互通,影响数据信息资源的深层次开发。

三是统计内部信息共享难以推行。专业处室过于强调自身业务的系统性和特殊性,专业数据各自为“阵”,存在“信息孤岛”、“资源垄断”现象,各专业之间、专业内不同人员之间的数据共享共用存在困难,影响信息挖掘的效率及水平。

四是数据信息应用开发缺乏现代化手段。统计数据信息汇总处理方式方法和性能问题的制约比较突出,缺少可视化的数据分析工具,具有大数据应用特征的数据挖掘系统应用不多,数据信息提供的内容和途径仍然比较传统单一,制约了分析研究水平、开发利用能力的提高。

统计数据资源整合总体定位

苏州统计资源整合紧扣大数据时代要求,坚持“苏州智慧统计”建设方向,围绕有效提升政府统计部门的数据收集整理能力、质量控制能力、分析挖掘能力、存储管理能力、发布解读能力、信息化技术应用能力,建立元数据规划合理、数据存储安全、数据覆盖全面、数据处理高效、数据共享便捷、统计产品多样、管理平台统一的苏州统计大数据系统,实现统计数据、业务平台、产品发布和共享交换的整合。

1.进一步发掘发挥统计数据价值。经过近几年来的统计“四大工程”建设,目前统计调查数据采集基本实现联网直报方式,解决了数据采集的低效率问题,但巨量统计数据的管理、分析手段仍较为落后,成为充分发挥统计信息资源价值的瓶颈所在,严重阻碍数据资源分析利用功能的发挥。需要迫切建立和完善数据分析手段,为发挥统计数据价值提供技术支撑。

2.顺应统计业务现实需求。2017年苏州共有入库法人企业近60万户,其中“四上”法人企业近两万户,统计数据业务繁多复杂,对信息系统的功能特性要求越来越高,迫切需要进一步完善现有统计数据处理系统的相关功能。

3.强化统计数据资源管理。面对信息化建设提速下汹涌而至的大数据,数据资源管理的必要性和重要性日益凸显,实现科学、合理、安全数据资源管理也是今后统计信息化工作的难点,建立资源数据库的同时,同步建立数据管理监控审计也同样是重要任务。

4.规划构建苏州社会经济数据中心。“十三五”期间,苏州市委、市政府对大数据时代统计部门提出打造社会经济数据中心和评价中心的要求,统计数据资源整合也是今后部门数据整合的一次预演和探索。

统计数据资源整合成效

统计数据资源整合项目是2017年苏州统计信息化工作的“一号工程”。一年多来,苏州局队克服任务重、时间紧,难度大的困难,抢抓工作主动权,确保了项目建设的顺利推进。目前项目一期工程已如期完成,苏州数据资源管理平台正式启用。苏州统计资源管理平台实现了从制度设计、数据采集、数据分析、数据储存、数据共享、数据发布、智能化分析、预警预测等统计业务的全流程管理。为实现数据深度挖掘、加强“互联网+”统计产品的实践运用,实现统计数据、信息资料等统一发布和展示奠定了基础,具体实现了以下几个方面的功能:

一是建立科学合理的元数据体系。苏州统计资源管理平台将一套表制度及其他重要调查项目制度中的指标、分类、标准、属性进行元数据化处理,使用标准化的元数据来描述、定位数据。“企业一套表”等基础数据和综合数据经过清洗、整理、分类、计算、变换后入库,使数据资源在逻辑上形成一个整体,形成了有利于分析和展现的大数据存储系统。

二是建立统一的业务平台。苏州统计资源管理平台实现统计表式设计、调查单位管理、任务部署、数据采集、数据审核验收、数据加工汇总分析以及数据发布和管理监控等环节的业务功能。重点将各专业数据资源管理、分析、应用功能系统整合到统一的业务平台,解决了各专业数据处理软件不统一的问题。

三是最大限度实现数据共享。在数据集中存放、集中管理的基础上,满足各专业分析需求,推进数据资源共享共用,实现数据的大规模、跨时间、跨专业、跨行业利用,有效地提高数据资源利用效率,更大程度上提升了数据资源价值。目前,“四上单位”、文化产业、体育产业、大服务业、企业集团统计等数据处理分析都可以在此平台上实现加工处理。随着统计服务领域的拓展,投入产出分析、企业综合分类评价、科技研发产出效益等更深层次的跨专业分析将得以实现。

四是促进数据深度挖掘。通过元数据化处理,使分析汇总更加简单便捷,通过指标拖拽式处理,实现各种纬度的数据加工,实现了个性化出表、灵活性出表。统计资源管理平台还提供了方便快捷的操作界面,可以对数据资源进行快速查询、搜索、展现,快捷实现指标查询、调查对象查询、数据查询、图形展示、简单汇总、专题分析、文件导出、分析报告生成等功能。五是规范数据存储。苏州统计资源管理平台将苏州局队所有基础数据和综合数据进行了统一存储,实现了“企业一套表”数据、历次普查数据、抽样调查数据、专项调查数据、文档资料等各类业务资料的电子化存档,解决了由于人员变动、设备更换等原因造成的基础资料断档、缺失、保存不规范等问题。

六是促进“互联网+”统计产品的实践运用。依托数据资源管理平台创建“数据苏州”发布管理平台,实现统计数据、信息资料等在网站、移动App、微博等对外载体上统一发布和展示。建立苏州市统计数据共享交换平台,对接市委市政府信息中心数据交换平台进行统计数据资源交换与共享,实现跨部门、跨行业、跨层级的系统间数据共享。

统计数据资源整合实现的突破

数据资源整合是苏州局队顺应大数据发展趋势的重大统计工作创新,由于系统内可供借鉴的案例较少,苏州局队通过高起点的规划,高标准的要求和高质量的推进确保了项目顺利落地运行。综合来看,苏州的数据资源整合项目实现了以下几个方面的突破:

一是规范性开展了统计元数据化的苏州实践。苏州的统计信息化创新起步较早,早在2006年,苏州局队就率先在全国实施了一套表联网直报,为国家“一套表”联网直报提供了苏州经验。元数据化是数据资源整合的基础和关键,苏州经济体量大,统计数据资源的复杂和多样具有一定的代表性。苏州统计元数据规划科学合理,元数据标准以《国家统计调查元数据标准》为基础,兼顾现行各类统计数据信息处理系统制定,从统计指标的基本属性、管理属性和数据属性三方面进行规定和定义,包括统计制度、统计报表、统计指标、统计分组、统计目录和统计方法六部分元数据标准,覆盖包括普查、年定报制度、各类调查以及统计年鉴等在内的全部统计调查项目。

二是突破性实现专业数据处理软件的统一。不同数据处理软件并存、软件版本更替更新频繁等问题是实现统计数据资源整合的主要障碍之一。数据资源整合项目实现了苏州局队主要专业在同一个平台、同一套数据库系统内进行业务处理,目前各主要专业已基本停用各自的数据处理软件,彻底消除了长期以来困扰统计数据共用共享的软件屏障,打通了专业数据实时交流共享的“最后一公里”。

三是开创性探索信息资源共享的分级数据库机制。苏州统计资源管理平台按数据加工等级设置了原始数据库、基础数据库和综合应用数据库三级数据库体系,既实现了系统内部数据的实时共享又兼顾了数据对外提供的安全便捷。其中原始数据库加载专业各类原始数据,包括基层数据、汇总数据、部门数据、各级行政区域数据、整理汇编数据等,该数据库分专业管控;基础数据库是基于统一规范的元数据标准的数据库,包括调查对象基层数据和综合汇总数据,该数据库可与其他专业实时共享;综合应用数据库是各处室规范、定案的综合数据库、汇总数据库,对外公布的统计信息资源统一从该数据库加工和发布。

展望及思考

苏州的统计数据资源整合仅仅迈出了统计生产方式变革的探索性一步,尽管目前统计体制机制仍存在部分制约因素,但通过整合项目的实施,我们对统计数据资源开发前景充满信心,也更加坚定了推进项目后续应用的决心。下一步,苏州将加快数据整合进度,着重在数据共享、数据分析、数据发布等方面加大创新力度,为统计大数据开发积累经验、探索新路。

1.探索“一套表”联网直报数据自动入库的可行性。目前“一套表”平台尚未提供数据交换接口,统计资源管理平台新的制度方法等元数据必须人工创建,平台报表数据只能通过人工打包下载再上传,这种元数据和数据落地的方式效率较低,长期的人工操作成本较高。如能通过省级节点搭建数据共享平台,提供统一标准的接口,下级统计部门按统一的安全标准、流程规范接入“一套表”平台,数据转接便利性将明显提升。

2.探索利用现代化信息手段强化统计资源开发利用。统计数据资源整合的最终目标之一是统计数据资源开发,但目前这一领域的探索仍处于起步阶段,可以在传统统计分析方法的基础上探索专业软件、咨询公司和统计部门共同开发的模式,在统一业务平台上充分利用大数据、人工智能等新技术,引进新颖的经济分析思路和方法,生产创新型统计产品。进一步拓展统计分析视角,尝试开展全行业、产业链以及新业态新模式等领域的数据资源整合及分析研究。

3.探索通过数据资源整合推进统计业务流程再造。目前统计管理组织模式“条块分割”,横向流程缺乏协调,造成跨职能与部门的流程效率较低。而数据资源整合改变了传统的统计数据生产模式,为扩大专业及部门交流提供了条件。苏州将借助数据资源整合探索统计业务流程再造,打破专业籓篱,强化综合部门的管理职能,提高统计业务集约化水平。

4.探索与部门企业名录及数据的交流对接。数据资源整合通过元数据化的处理将“四上”企业名录及基本数据统合到了统一的数据库系统中,为统计数据与工商、税务等部门名录及数据的即时比对与交流提供了便利。苏州将借助数据资源整合平台探索基本调查单位信息、统计年定报数据、经济普查以及“四下”单位数据与部门数据实时交流的可行性,为进一步提高统计数据质量、更加准确反映经济总量及趋势提供重要辅助。

猜你喜欢

统计数据资源整合苏州
Pingtan in Suzhou 苏州评弹,值得一听
创新视角下统计数据的提取与使用
少先队活动与校外资源整合的实践与探索
苏州伴宅
“洋苏州”与“新苏州”演奏和弦
“五育并举”下家校社资源整合的价值意义
海外并购中的人力资源整合之道
国际统计数据
智慧高速资源整合方式实践
2017年居民消费统计数据资料