大数据在铁路货运信息系统中的应用框架探讨
2015-07-13靳继红刘淑芝
靳继红 刘淑芝
摘要:该文详细分析了大数据技术在铁路货运信息系统中的应用方向及应用层次,提出大数据在系统中的应用框架及参考性的混搭架构模式,以推动铁路货运对大数据技术的应用。
关键词:大数据;大数据应用;铁路货运
中图分类号:TP302 文献标识码:A 文章编号:1009-3044(2015)13-0005-02
1 引言
铁路货运信息系统的构建,从TMIS(中国铁路运输管理系统)到TDCS(调度指挥信息管理系统)及CTC(新一代分散自律调度集中控制系统),正在实现由单项管理自动化到综合管理自动化的过渡。而于2012年9月试运行的铁路电子商务系统则开启了一个崭新的篇章,对外实现货运需求信息的采集功能,对内以既有系统为支撑形成完整的受理业务信息链[1,2]。大量数据(包括实时的、结构化、半结构化、非结构化数据)正在产生,增强大数据利用意识,借助大数据技术,发现大数据的真正价值,才能在企业竞争中摆脱被动状况,重新成为行业中的“火车头”。
2 大数据技术
大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。大数据的4V特点:Volume(海量)、Variety(多样)、Velocity(实时)、Value(价值)[1]。
一个大数据系统从逻辑上可以分为数据采集、数据存储、数据处理、数据分析、数据应用展现等五个层次[3-5]。其中包含多方面的技术:海量存储、实时流数据处理、数据挖掘(DW)、数据可视化、商业智能(BI)、联机分析处理(OLAP)、并行计算、NoSQL(Not only SQL非关系型数据库)数据库等。
3 大数据应用框架的探讨
3.1 数据应用的三个层次
大数据在铁路货运信息系统中的应用主要分三层:起步阶段、发展阶段、运营阶段。目前国内应处于大数据应用的起步阶段。
第一层,主要是积累、收集数据,应用大数据存储相关技术及数据采集工具。已有的和正在扩建、补充完善的各项相关信息系统是大数据的各种来源,包括来自日志文件、终端设备、传感设备、视频设备、各项运营系统、财务系统、电子商务系统、安全监测系统等。基于传统关系型数据库存储的结构化数据仍然占据目前的主流地位,但大量的,实时性要求比较高的非结构化及半结构化数据正在产生。
数据基础:结构化数据为主流。
业务逻辑:以因果关系为主线。
挖掘工具:以SAS等统计分析工具为主,自主研发为辅。
应用目标:用数据促进企业精细运营,整合优化资源配置,提高运营效率。降低运营成本。
实施运作:主要是第三方数据挖掘服务机构。
第二层,是将收集的数据进行初步的融合、集成、筛选、分析出有用的信息来,这一层次的应用是目前发展的重点,其应用范围也较为广泛。如铁路运输流量分析、智能布警、铁路违法与事故模式挖掘。对数据的使用方式上,仍然以精确性计算分析为主,但随着应用层次的提高,趋势性计算分析会得到逐步地应用和发展。
数据基础:仍然以结构化数据为主,进一步融合数据业务平台,非结构化和半结构化的数据比重增加。
业务逻辑:以因果关系为主线,基于非结构化数据的预测为辅。
挖掘工具:以SAS等统计分析工具为主,Hadoop/Hbase等技术为辅。
应用目标:深入洞察客户需求,助力企业转型。
实施运作:借助外力辅助建立数据运营机构。
第三层,大数据的价值最大体现:预测、对数据更深度的分析、统计、挖掘处理,更好地支持日常运营、决策、安全管理等方面,甚至可以帮助发现创造新的价值,形成新的收入增长点。目前处于规划建设阶段。
数据基础:视频、音频等非结构化数据成为核心数据,更多融合企业内外部数据,传统结构化数据比重减少。
业务逻辑:因果关系变为传统业务运营的基本逻辑,基于非结构化数据的预测成为主流。
挖掘工具:Hadoop/Hbase等新兴技术渐成主流,SAS等统计分析工具的应用退居次要地位。
应用目标:全方位深入洞察客户需求,探索如何借助大数据推动企业转型。
实施运作:以自身建立的数据运营机构为主,外力为辅。
3.2 大数据应用的四个方向
大数据在铁路货运信息系统中的应用方向主要有:生产运作服务、安全监控服务、客户管理与服务、营销决策支持。
生产运作服务
利用大数据可以为生产运作提供支持服务,如货物的调拨、路线的安排、在途监控等方面活动,有助于优化业务流程,及时发现问题,提高业务运作效率。
安全监控服务
大数据能为铁路货运的安全监控提供服务,帮助实现实时监控和安全运营。可以分系统的统筹设置海量的传感器、视频监测设备等,将传感器及相关设备的信息汇集到终端,工程师便可实时发现、分析铁路及货车存在的安全问题,并及时下达指令消除各种安全隐患。
客户管理与服务
主要是针对电子商务平台客户提出的管理与服务形式,通过各种类型数据的分析来有效地发现需求,为客户提供个性化的服务。
营销决策支持
包括产品服务的推广、平台宣传等,提供营销方面的决策支持,以更好地的切合市场需求以及吸引潜在客户的关注。
利用大数据分析将有助于铁路货运的市场细分、定向营销以及物流新产品的推出。充分利用大数据可以更好、更全面地掌握客户的特点,及时得到客户的需求信息。帮助铁路实时改进和创新铁路物流产品,并根据客户的实时反馈信息,改进服务,研究制定业务营销方案,根据目的利用合适的处理技术分析找出最优的营销决策。
3.3 大数据的应用框架
大数据技术框架在铁路货运行业中的应用也体现了软件分层的概念,每个层次包含有不同的组件对应于不同的应用场景,层次之间相对独立:数据采集层——负责数据的积累、整合、抽取,净化等;数据存储层——负责数据的存储和处理;数据分析层——对数据进行深层次的分析和挖掘等处理;数据展现层——数据价值最终呈现给用户的形式化。其中数据存储和分析层所涉及的组件有:关系数据库、NoSQL数据库、分布式文件/对象存储系统、数据挖掘、统计分析、OLAP等。
大数据技术框架在铁路货运信息系统规划实施中,应侧重于具体应用,考察各种组件组合的可能性,快速形成原型系统,再根据具体需求,不断补充完善,直至找到“最适合的”方案。
3.4 大数据架构的选择(存储方案设计)
大数据存储技术路线最典型的共有三种。
第一种MPP(massively parallel processing)数据库,是采用MPP架构的新型数据库集群。MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。相对于传统的关系数据库,MPP数据库可以支持PB级的结构化数据分析,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构分布式计算模式,能够胜任新一代的数据库仓库和结构化数据的分析。运行环境多为普通PC Server,具备高性能、高扩展性的特点,在分析类应用领域获得较为广泛的应用。
第二种是基于Hadoop的技术扩展和封装。Hadoop,被称为Linux以来最成功的开源软件,是一个基于分布式文件系统,能够存储和处理非结构化数据的大框架。Hadoop旨在通过一个高度可扩展的分布式批量处理系统,对大型数据集进行扫描,以产生其结果。
第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性[4]。
在架构选择方面,铁路货运系统要受到数据分布、数据源及分析要求等方面的制约,单一的BI技术、Hadoop技术,MPP技术无法同时适应铁路货运系统的大数据技术应用,所以铁路货运的大数据架构应该是一种混合的架构模式。要把MPP数据库、Hadoop融合在一起,形成统一的大数据应用架构。用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理。这样可同时满足结构化、半结构化和非结构化数据的处理需求。
4 结语
结合铁路货运信息系统的发展现状,提出了大数据技术在系统中应用的三个层次及四个应用方向。探讨了大数据技术在铁路货运系统中的应用框架,提出了相应的大数据混搭架构模式,为大数据技术的应用发展提供参考。
参考文献:
[1] 王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
[2] 张延松,焦敏,王占伟,等.海量数据分析的One-size-fits—OLAP技术[J1.计算机学报,2011,34(10):1936-1946.
[3] 覃雄派,王会举,杜小勇,等.大数据分析--RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-34.
[4] 吴广君,王树鹏,陈明,等.海量结构化数据存储检索系统[J].计算机研究与发展,2012,49(1):1-5.
[5] 曾志勇,杨辉,余建坤.基于HMT和哈希树的Apriori并行算法[J].计算机工程与设计,2012,33(1):214-248.