APP下载

交通统计数据多维存储模型构建

2015-05-27鹏,丁然,刘

关键词:数据模型汇总统计数据

任 鹏,丁 然,刘 凌

(交通运输部科学研究院 现代物流研发中心,北京100013)

交通统计分析是交通管理部门科学决策的基础性工作,涉及6 个部分近200 个交通指标的采集与分析,其数据类型繁多、数据关系复杂,采用人工统计手段很难保证统计数据的有效性与可靠性,因此运用信息化手段简化统计工作复杂度、提升统计数据的质量是近年来相关交通研究机构的重要课题之一[1-3]。为了降低统计人员的工作强度,保证统计数据的质量,交通运输管理部门已开始利用专业的交通统计分析完成基本的数据汇总、审核和上报工作。现有的交通统计分析系统通常采用传统的二维数据结构存储统计数据,在一定程度上满足了统计数据的查询分析工作,但是,由于其数据存储效率低下,数据的可扩充性、可维护性较差,很难满足统计工作对于历史数据对比、复杂自定义数据查询等功能的需求。因此,引入多维数据模型构建交通统计分析系统数据库成为优化统计数据存储结构的有效途径。

多维数据模型主要是根据业务分析主题的要求,从事实、维度、层次等多个度量角度对业务逻辑活动进行建模,可以在关系数据库、多维数据库甚至是面向对象的数据库上实现[4]。多维数据模型主要由事实表和维表构成。事实表是多维数据模型的中央表,包含联系事实与维度的数字度量值和键,维表则是维度属性集合。多维数据模型主要包含星形模式、雪花模式和事实星座模式3 种模式,如表1 和图1 所示。

表1 多维数据模型基本形式

图1 多维数据模型基本形式关系图

1 交通统计数据基本特征

交通统计制度[5]是交通统计工作的基础内容,主要由交通运输综合统计、港口综合统计、交通固定资产投资统计、城市客运统计和交通运输扶贫统计6 个部分构成,每个部分由一系列标准格式的数据报表组成。交通统计制度报表根据统计周期不同可划分为年报和定期报表两大类,其中定期报表又可细分为月报、季报和半年报等类型。交通统计数据上报一般采取企业、县级、地市级、省级、部级层层上报的模式,每个级别的行业主管部门负责对所辖数据的收集、整理和分析工作。为了优化交通统计数据内容,提高交通统计工作的效率与质量,交通统计制度会根据实际需求进行周期性调整(通常为一年)。交通统计制度是人工统计阶段下的产物,详细规定了数据统计内容和规则,但由于交通统计数据的多元性、历史性和易变性,其数据关系需要进一步梳理才能转化为数据库形式。交通统计报表数据主要有以下几个基本特征:

(1)交通统计数据是一种多维数据。交通统计制度中的机构、时间周期、统计表格等要素的形式经常会根据需求不断变化,因此交通统计数据应当采用延展性强且可扩展的数据描述方式。交通统计数据由限定词和指标值两部分构成,指标值只是表示具体数量,没有实际意义,而限定词则是对指标值的具体描述,可以由统计机构、统计周期、统计时间、统计分类及统计单位等维度叠加,因此交通统计数据本质上是一种多维数据。

(2)交通统计数据之间存在一定关联性。交通统计数据之间并不是完全独立的,某项指标可由其他数据推导得出。交通统计数据间的关联主要表现为两种:①逻辑性关联,即数据与数据之间存在某种逻辑关联。如由货运车辆总吨位可以推导出货运量的范围;②合理性关联,即数据与数据之间存在着某种必然的推导关系。合理性关联包括推导性关联和汇总性关联。推导性关联主要是指统计数据之间存在固定的计算公式,某项指标可根据具体公式由其他指标计算得来。汇总性关联主要是指数据的汇总是由分项数据加和得来,如在时间维度上的汇总(年报由月报汇总)、机构间汇总等。

(3)交通统计数据间存在一定的重复性。交通统计的重复性一方面是由于交通统计中涉及指标较多,数据间的关联关系难以厘清;另一方面是由于在统计工作中对数据信息获取需求不同,如公路里程总长既可以由不同公路技术等级建设情况汇总得出,也可以由不同公路路面类型建设情况汇总得出。虽然结果相同,但出于对建设情况细节数据信息获取的需求,必须分别统计。

综上所述,交通统计数据是一种复杂数据,其多维性、关联性和重复性特征使传统数据库建模方案难以适用,将多维数据模型理论引入交通统计分析系统数据库建模之中,对满足交通统计数据对于兼容性、易扩展等方面的存储需求有着积极意义。

2 交通统计数据基本数据类型

交通统计报表是统计数据的最终结果的表现形式,它是多种类型数据形式的综合体。通过对交通统计制度的分析,交通统计数据库系统设计主要应考虑以下几种基本数据类型:

(1)辅助类数据。辅助类数据主要是指交通统计过程中所需要的基础类数据,这些数据虽然在最终报表较少或没有直接体现,但在统计过程中会使用到,如统计参与机构数据、统计人员数据、交通运营企业数据、行政区划面积人口数据等。

(2)操作类数据。操作类数据主要是指由系统相关功能操作所生成的数据,这些数据主要记录用户的操作过程及状态,如数据的审核操作。

(3)明细类数据。明细类数据主要是具体的交通设备设施的详细特征信息,如高速公路明细、运输船舶名录等,明细类数据可作为统计类数据的基础数据。

(4)统计类数据。统计类数据是统计工作所需要的最终结果,主要是对各项交通数据进行汇总或计算后得到的数据。交通统计报表制度所收集的数据大部分为统计类数据。

交通统计数据间主要存在属性标识、数据汇总和数据计算这3 种基本数据关系(见图2),各类数据通过这3 种基本数据关系将辅助类数据、操作类数据和明细类数据最终聚合为统计类数据。需要说明的是,统计类数据与明细类数据实际上存在一定冗余,造成统计类数据与明细类数据同时存储的原因主要有两个方面:一是统计工作的实际需求。统计类数据往往在明细类数据汇总基础上有所调整;二是明细数据的不完备性。很多明细数据无法获取或获取成本较高,统计类数据无法由明细类数据直接推出,往往由统计工作人员直接上报。

图2 交通统计数据基本数据关系

3 交通统计数据基本描述形式

交通统计数据库的建模应充分考虑交通统计制度中的数据形式,交通统计数据信息通常由数据描述信息和数据值信息两部分组成。数据值信息本身只是数字,并无具体含义,它只表示数量的大小。而数据描述信息则是对数据值信息的描述,交通统计数据主要包含指标名称等7 类限定信息(如表2 所示)。交通统计数据完整的描述形式可采用式(1)表达形式。

表2 交通统计数据基本限定信息

交通统计数据=指标维度+机构维度+周期维度+时间维度+单位维度+实体维度+特征维度(属性1,属性2,… ,属性n)+ 指标值 (1)

图3 给出了某交通数据描述的具体实例,这种数据组织形式主要有3 个方面的优点:①可以与现有的年报统计制度表格相对应,表格中每一个单元格数据都可以被描述,满足了后期系统报表生成的需求;②一旦获取基本维度信息,数据库中数据可以被唯一确定;③可以实现灵活的自定义数据查询功能。虽然该数据组织形式的数据维护成本较高,但它可以有效地将各种数据有机 融合,满足系统复杂的数据操作需求。

图3 交通统计数据描述实例

4 交通统计数据多维存储模型架构

根据数据存储的内容及系统功能需求可将整个交通数据多维存储模型划分为系统数据区、明细数据区、统计数据描述区和统计值数据区4 个部分,如图4 所示。系统数据区主要包含辅助类数据和操作类数据相关数据实体,其主要是满足用户登录、数据审核等功能的数据存储需求,部分数据实体可作为统计类数据的维表;明细类数据区主要包含一系列具体描述交通设备及设施的实体,可为统计类数据提供数据支持;统计数据描述区主要包含一系列统计数据值限定信息的抽象实体,对统计数据值进行描述;统计值数据区只包含一个事实表,主要记录数字及数据提交时间信息,其数据含义通过统计数据描述区进行解释。

图4 交通统计数据多维存储模型

交通统计数据多维存储模型可以有效控制统计数据粒度,通过对统计数据描述体系的定义,确定统计数据各维度的基本描述单元,为交通统计分析系统提供动态灵活的数据查询、汇总和分析功能[6-9]。当交通运输统计年报制度发生改变时,无须变更数据库结构,只需新增或修改数据描述区的相关实体存储的数据内容,即可在保证历史数据含义统一的条件下适应新的数据存储需求。交通统计数据存储模型的基本数据查询元组关系演算表达式可参见文献[10],从中可以看出,一旦确定统计数据的基本维度信息即可确定其相关联的唯一统计数值,统计数据的汇总分析也可以通过控制数据描述特征的查询条件对结果集进行数值计算完成。

5 结论

交通统计数据多维存储模型的构建需要兼顾系统功能与数据优化存储两方面的需求,其数据库构建有一定难度,运用多维数据模型理论可以将统计数据信息分解为多个维度的标准化单元,可有效地满足系统数据挖掘的相关操作需求,保证交通统计分析系统功能的扩展与实现。交通统计数据多维存储模型对结构化、半结构化和非结构化数据存储具有广泛适用性,相关技术对于交通大数据模型的建立也有一定借鉴意义。

[1]张琪.交通运输统计的现状与发展[J]. 中国统计,2004(4):10 -11.

[2]王珍珍. 交通部加快交通统计信息系统建设[N].中国交通报,2007 -07 -31(A01).

[3]孔凡国,王先进. 我国交通统计信息工作发展规划研究[J].交通世界,2002(7):23 -27.

[4]HAN J W,KAMBER M,PEI J.数据挖掘概念与技术[M].范明,孟小峰,译.3 版. 北京:机械工业出版社,2012:89 -99.

[5]中国交通统计信息网.交通统计制度[EB/OL].[2014-12-18].http://www.jttj.gov.cn /zhidu.asp.

[6]吴薇,李志蜀.多维数据建模的设计方法[J]. 四川大学学报:自然科学版,2007,44(3):513 -516.

[7]文俊浩,蒋渝,吴红艳,等.复杂数据的多维数据模型应用研究[J].计算机应用研究,2004(4):139-142.

[8]李盛恩,王珊.多维数据模型ER(H)[J].计算机学报,2005,28(12):2059 -2067.

[9]汤艳艳,邵伟民,王子红.数据仓库中的多维数据模型及其对象关系的实现[J]. 计算机工程,2003,29(9):88 -92.

[10]SILBERSCHATZ A,KORTH H F,SUDARSHAN S.数据库系统概念[M].杨东青,李红燕,唐世谓,等,译.6 版.北京:机械工业出版社,2012:123-141.

猜你喜欢

数据模型汇总统计数据
创新视角下统计数据的提取与使用
常用缩略语汇总
系统抽样的非常规题汇总
面板数据模型截面相关检验方法综述
国际统计数据
2017年居民消费统计数据资料
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
供应商汇总
供应商汇总
统计数据