APP下载

信息化条件下统计数据管理与应用的探索——以上海市闵行区工业统计为例

2016-04-25王启富何中华李文豪

统计科学与实践 2016年2期
关键词:数据管理信息化

王启富、何中华、李文豪

(上海市闵行区统计局,上海201199)



信息化条件下统计数据管理与应用的探索——以上海市闵行区工业统计为例

王启富、何中华、李文豪

(上海市闵行区统计局,上海201199)

摘要:受限于各种制约因素,目前基层统计系统在统计数据的管理和应用上普遍存在以下几个不足:一是缺乏统一通用的数据处理分析平台,数据深度开发的时效性、准确性、可验证性难以保证;二是数据来源的规范性差,数据结构变动频繁,且数据组织偏重于采集,原始数据的可读性差,制约了统计数据开发应用的时效性;三是数据开发过程的自动化程度较低,手工处理步骤多,对专业人员的计算机水平要求较高;四是数据资源的集中度、规范化不够,不利于多指标、多维度、长时间序列分析。鉴于此,我们以闵行区经济总量较大的工业统计为突破口,在数据管理规范化、加工处理流程化、专业数据共享化、分析挖掘模型化方面进行了尝试和探索。

关键词:信息化;数据管理;工业统计

自2011年国家统计局全面实施“四大工程”以来,在数据采集环节,区县统计部门获取数据的时效性和质量都有明显提高,统计工作的重心也逐渐向数据的规范化管理、开发利用和深度挖掘转移,政府决策部门、社会各界对统计数据的开发应用水平也提出更高要求。

一、主要需求与目标

2011年,闵行区统计局经济科与数据中心组成课题组,对工业统计的历年报表制度、数据来源、采集方式、分析角度、与其他专业的关联度、有关部门的要求、主要汇总表式、历年工业经济的热点问题、数据保存形式、日常工作流程等进行了认真总结和梳理,对可以通过信息化手段加以提高的部分进行了重点讨论,对专业人员在数据处理中面临的问题和领导需求进行了分析,并决定依托现有的“闵行区统计信息管理应用系统”(以下简称“应用系统”),实现以下目标:

(一)设计一套合理的数据管理模式。以有利于规范化管理数据、快速分析数据为原则,借助信息化平台,合理规范设置数据结构,并将分析处理结果集中统一存储形成台账。

(二)创建一套合适的数据分析处理模型。以快速生成固定汇总表式为主要目标,结合多指标、多维度、长时间跨度分析需求,创建数据分析模型,并以数据共享目录的形式提供数据共享。

(三)建立一套行之有效的数据分析处理流程制度。按照数据日常处理中的实际情况,以可操作性为原则,设计数据处理流程,合理安排各工作节点,对完成数据分析流程所需要的必要支撑进行明确定义,并以制度的形式确立下来。

二、实施方案与过程

自2011年起,课题组进行了为期三年的实践与探索,经过不断的迭代式开发与应用,逐渐形成了适合闵行统计的数据管理和应用开发方式。在实践中,课题组感到,要做到数据规范连续、数据分析模型高效易用、数据分析处理流程合理长效才能更好地提升基层统计数据管理与应用水平。

(一)文档集中统一管理与数据规范化

1.原始数据的集中归档统一管理。原始数据是后续数据分析处理的基石。目前,原始数据来源多、文件格式复杂、命名不规范,不利于数据的管理和应用;各专业原始数据仅由各专业人员自行保存,不利于数据共享,且存在历史数据遗失隐患。

为此,课题组在文件服务器开设了原始文档存储区,按照专业、频度、报告期、报表制度建立了对应的存储目录,并要求统计人员在报告期结束后一周内上传原始文档,由数据中心进行规范化命名并定期进行归档保存。

2.创建面向分析的数据资源。前已述及,目前面向采集的原始数据在结构上偏重于存储、格式多样、由于报表制度变化导致连续性不强等原因,通常不能直接用于数据分析挖掘,需要对原始数据进行预处理,生成结构化程度高、连续性较强的数据才方便进行后续开发应用与挖掘。

经整理,统计原始数据常见问题及预处理方法是:数据缺失,需要从其他数据源或根据特定规则补全缺失数据;数据冗余,需要根据特定规则删除多余数据;报告期不规范,需要对报告期数据进行格式化处理;空值无法参与分析挖掘,需要对空值进行填充;多来源数据计量单位不一致问题,需要根据统计应用的实际情况将多来源数据的计量单位转换成一致;同一来源不同报告期数据字段名称不一致但实际内涵完全一致,需要用统计上约定俗称的字段名称进行统一规范命名;同一来源不同报告期字段名称一致但实际内涵不同,需要根据实际情况扩充新的指标,并做好原始数据与新数据结构的映射;多来源数据相同内涵的字段名称不统一,需要用统计上约定俗成的字段名称进行统一规范命名。

以工业数据为例,存在的问题及预处理方法是:工业产销总值及主要产品产量数据存在轻重工分类数据缺失、工业区代码不规范,需根据行业代码补全轻重工分类,并对工业区编码进行整理;生产者价格指数(PPI)数据存在某些行业中类数据缺失问题,需以对应的行业大类数据补全;在地企业名录存在包含大量无用数据问题,需以主管标记非闵行、主管机构是闵行为依据删除多余记录;工业产值数据的分析需要用指数缩减法剔除价格因素的影响,即在计算增幅的时候,先按照企业所在的行业中类用相应的生产者价格指数(PPI)对产值数据进行缩减,然后再进行计算,需要新增用于存放可比累计、可比本月等数据的字段。

(二)建立数据分析模型

各统计专业在采集指标、分析角度、工作模式和分析挖掘等方面存在很大差别,但都可以归结为一个由指标体系、分析维度、固定汇总表式及其汇总分析算法、即席查询等方面构成的分析模型。为此,课题组将工作重心集中到如何快速为不同的统计专业设计与创建对应的分析模型上,通过此模型,可以快速获取固定汇总表式数据,也可以通过即席查询进行深度分析挖掘,还可以通过权限设置进行数据共享。同时,快速生成固定汇总表式数据的过程,也是积累台账数据资源的过程。

1.确立分析指标集。由于数据结构变动频繁,经过数据预处理的数据中依然存在连续性不强的问题,课题组选择了专业分析中较常用或数据连续性较好的部分指标作为面向分析的指标集的基础,并根据汇总分析实际需求生成派生指标,合理补充能耗、税收等其他专业指标,并最终确立为分析指标集。

以工业数据分析为例,确立的分析指标集主要包括:工业总产值、工业企业主营业务收入及利润总额的本月值、本月累计值和累计同比增幅,期末资产总计、期末负债总计、期末净资产总计、期末应收账款净额、期末产成品存货、出口交货值等原始指标,工业总产值可比本月值、工业总产值可比累计值等派生指标及综合能耗、纳税合计、增值税等其他指标。

2.确立分析维度。固定汇总表式中的分析指标、对应地分析维度及维度间的层次关系较为固定,但为了更详尽的展示经济发展水平和变化,应从多方位、多角度对统计数据进行分析挖据。

以工业统计为例,共确定了轻重工、行业分类等12个可用分析维度。工业固定汇总表式指标与分析维度之间的对应关系如表1所示。

表1 工业固定汇总表式指标与分析维度对应表

3.固定汇总表式与脚本设计。统计各专业在长期的工作中积累了大量符合各方需要、直观易懂的固定汇总表式。这些固定汇总表式既能反映地方经济水平,又能反映经济发展中的变化,是专业统计人员和各界需求的集成与固化。快速生成这些固定表式是数据分析模型最基础的任务。

为此课题组针对固定汇总表式,根据专业提供的汇总分析算法和excel形式的汇总表样式,设计了对应的数据处理脚本,快速生成固定汇总表式数据,并分专业、频度、报告期集中统一存储形成台账。

以工业统计为例,课题组共确定了涵盖工业企业效益、规模、运行质量、经营趋势预测等方面的固定表式12张,设计了18个数据处理脚本完成这些常规表式,并提供web页面方便专业人员查看下载固定汇总表式数据。

4.设计即席查询。为了更好的分析挖掘数据,发现地方经济发展中新变化,各专业除了以固定汇总表式的形式分析挖掘数据外,还需要多指标、多维度、长时间跨度对数据进行分析挖掘,让各专业能够随时根据自己的需求灵活选择查询条件并给出分析挖掘结果也是本模型的重要任务。

以工业数据为例,课题组选择工业总产值、工业企业主营业务收入、利润总额等二十三个指标,以及统计管理级别、行业分类等十二个维度设计了即席查询模版,并根据专业人员和有关部门人员的要求进行动态维护、及时更新。

(三)创建数据分析流程制度

在3年的实践过程中,课题组深切感受到对数据分析进行任务分工并合理安排任务节点的迫切性,以及各方均需严格完成既定任务的重要性。为此,课题组将上述数据分析处理过程进行了任务化、流程化、定期化,并以制度的形式加以明确。

1.创建数据分析处理流程。数据分析处理过程需要完成的工作点较多,原始数据报告期也不尽相同,各专业还有特殊要求,需要合理的安排处理节点顺序。同时,数据分析处理过程往往并不是在同一数据处理平台或工具中完成的,结合有关各方计算机水平,合理分工也显得非常必要。为此,课题组结合现有工作实际情况与信息系统的支持程度设计了如图2所示数据分析处理流程。

图2 数据分析处理流程图

其中,在对“执行数据清理”、“导入数据”、“执行数据处理脚本”三个任务节点进行分配时,既可以将其分配给数据处理中心执行,也可将其分配给各专业人员执行。课题组认为如将其分配给数据处理中心执行则存在数据处理中心任务过多、专业人员没有自主性难以发挥专业知识优势、中间交互环节多难以保证时效性与准确性等问题,因此将上述三个任务节点分配给各专业人员执行。

2.科室协作制度建设。数据分析处理流程作为一个整体,必须各个任务节点都得到严格执行,才能发挥既定作用,而这需要强有力的保障。同时,为了保障专业人员能顺利完成各任务节点,数据中心应提供培训、使用说明文档等必要支持。

因此,课题组制定了科室协作制度,对数据分析流程中各方所承担的任务节点及执行时限、各方在需要交接的任务节点上的输入和输出、数据中心需要向各专业人员提供的支持等进行了明确定义。

三、应用成效

自2011年本数据处理模型构建完成、2012年数据处理任务流程定义明确之后,各方严格按照科室协作制度执行,完成自己的任务。从目前的情况看,已基本达到预期的目标。

(一)建立了一套合理的数据管理模式。各来源数据文件在文件服务器上集中统一规范管理,有利于数据备份和数据共享;经由数据预处理后,建立了面向应用的数据资源,便于多指标、多维度、长时间跨度数据分析;生成的固定汇总表式数据也集中统一储存在数据库中形成台账,并能以较友好的形式展示。经过进一步的整理,工业专业目前已经积累了近5年的台账数据和2003年以来的企业数据。

(二)总结出一套合适的数据分析处理模型建设方法。通过对工业专业建立数据分析模型的过程进行分析总结,梳理出如何快速为各个专业建立分析模型的一般方法,即首先根据专业固定汇总表式、可能的分析需求及数据的实际情况确定分析的指标集和维度,并结合固定汇总表式汇总算法建立数据处理脚本,同时为即席查询设计模板,以此保证固定表式数据生成的时效性、正确性和其他即席分析的灵活性。以工业为例,现在,专业人员在各来源数据齐备的情况下仅用两三个小时就能获取到固定汇总表式数据,较以往在时效性和准确性上有很大的提高。

(三)探索出一套有效的数据分析处理流程制度。以工业专业执行数据分析处理的实际情况为主要参考,结合其他专业需求,平衡有关各方的工作量,合理安排任务节点和执行时限,形成可行高效的数据分析处理流程。该数据分析处理流程,既能发挥专业人员的专业知识优势,又能提高专业人员的自主性,还减少了流程执行中不必要的环节提高数据处理的时效性、准确性,保证了数据分析和资源积累的定期化、任务化和规范化。

4.验证了一套可行的统计信息化新模式。在定义数据分析处理流程时,给专业人员分配了诸如“数据清理”、“数据导入”、“数据处理脚本执行”等任务节点,这些任务节点涉及到多种数据处理平台、工具以及数据挖掘方面的知识,对计算机水平要求较高。通过数据中心提供的培训,结合良好的使用说明文档,专业人员努力学习新的数据处理平台操作方式及新的计算机知识,达到了数据分析处理流程制度的要求,可以在较短时间内完成常规分析工作,大大提高了工作效率。

课题组认为,专业统计人员既是统计信息化的受益者,更应该成为统计信息化的参与者。因此,在定义数据分析流程时,可将信息化程度较高的任务节点分配给专业人员,任务驱动,借助于友好的数据处理平台,让专业人员更加自主、高效的完成数据分析与挖掘工作,不断提高自身计算机水平,提高统计信息化应用水平。

下一步我们还将积极探索新的数据深度挖掘使用途径,在工业分析方面尝试建立涵盖产品产量、销售、订货、库存、能源、科技、从业人员及工资在内的大工业数据库,对跨专业数据分析进行探索,为在新形势下研判工业经济发展提供支持。

(责任编辑:曹家乐)

猜你喜欢

数据管理信息化
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
月“睹”教育信息化
月“睹”教育信息化
幼儿教育信息化策略初探
CTCS-2级报文数据管理需求分析和实现
土地权属调查的方法及数据管理
“云会计”在中小企业会计信息化中的应用分析
列控数据管理平台的开发