基于内存计算的数据预测分析研究
2017-05-10邹承明
吴 珺,邹承明
(1.湖北工业大学 计算机学院,湖北 武汉 430068;2.武汉理工大学 交通物联网湖北省重点实验室,湖北 武汉 430070)
基于内存计算的数据预测分析研究
吴 珺1,2,邹承明2
(1.湖北工业大学 计算机学院,湖北 武汉 430068;2.武汉理工大学 交通物联网湖北省重点实验室,湖北 武汉 430070)
针对大数据的实时、高效数据挖掘方法进行研究。首先分析了内存计算及流式分析模式;其次讨论了基于内存计算的大数据主要特性;最后通过以上相关研究为基础,提出了基于内存计算的预测分析模型及相关算法。通过实验应用分析验证了所提出的基于内存计算的预测分析方法的可行性,实现了大数据的数据分析的实时性和高效性。
智慧城市;智慧交通;大数据;预测分析;内存计算
目前世界已经转移到以数据为中心的范式上,即“大数据”时代,在这一时代,数以亿计的计算机和智能移动设备正在持续不断地创造出数量惊人的数据,这些数据既包括人类自身的,也包括道路、环境、建筑等其他各种事物的。如此之大的变化,以至于过去十年中所使用过的数据挖掘方法已经没有能力迎接这些新的挑战了。因此需要尽快研发出针对大数据的实时、高效数据挖掘方法。
在一个数字化的城市交通体里,智慧城市为人们提供安全便捷的交通环境及海量动态的环境数据;同时智慧城市作为一个每时每刻不断产生大数据的系统也需要实时、准确地分析几十亿数据。虽然通过传统的数据分析方式可以获得一些有效信息,但是随着物联网的不断发展,智慧城市用户的应用环境越来越复杂,数据变得越来越庞大,智慧城市大数据不能完全实时、高效地被利用,从而无法获得更全面真实的信息[1]。因此如何充分挖掘大数据给社会带来更大的价值,正成为目前大数据及数据挖掘领域面临的一个新的挑战和机遇。笔者针对智慧城市交通流大数据进行特性分析和相关数据分析方法的研究,提出一种基于内存计算的智慧交通流预测方法,以满足大数据实时、高效计算分析的需求。
1 智慧交通大数据
多源交通数据的处理是大数据在智能交通领域的应用基础。通过多源数据融合技术,能形成更加丰富的交通信息,在一定准则下进行自动分析,能有效完成所需的交通决策和评估。城市智能交通监控信息主要是针对交通大数据进行融合处理的研究,目前在一些发达国家如美国、日本、欧盟等已经取得了深入的进展,其在智能交通的研究和项目实施过程中,对于交通流信息采集、分析及融合处理、发布系统等越来越重视。一方面大量采用先进的磁感线圈检测、GPS探测车检测、雷达检测、微波检测、激光检测、视频检测等技术,提高所采集信息的质量及精度,丰富信息采集手段及信息来源;另一方面更加强调各个信息采集子系统的协同工作及多源信息之间的融合。另外,在信息处理方面大力推广当前数字信号处理、图像处理、视频处理、语音处理、数据挖掘、人工智能等领域的前沿成果,充分实现信息的深度发掘、集成和应用,提高交通指挥、管理和服务的信息化水平,使交通系统的信息采集、处理与发布能力提升到新的层次[2]。在21世纪的信息化进程中,大数据技术的推广和应用为智慧交通的发展提供了良好的技术平台,如图1所示为智慧交通大数据的数据价值与执行时间之间的反比关系。
图1 数据价值与执行时间的关系图
2 内存计算
内存计算是指数据放在内存中直接操作。相对于磁盘,内存的数据读写速度要高出几个数量级;将数据保存在内存中直接读取,相对于传统的从磁盘上访问,可以极大地提高应用的性能[3]。内存计算,一方面可以在突发高数据流速的情况下,保证不丢弃数据,或者识别并选择性地丢弃部分不重要的数据;另一方面可以在低数据速率的情况下,保证不会太久或过多地占用系统资源。内存计算的大数据呈现出以下3种数据特征[4-7]:①实时性,即大部分数据到来后直接在内存中进行计算并丢弃,只有少量数据被长久保存到硬盘中,但是对于具有高潜在价值数据做出实时决策进入内存计算范围,实施优先计算。②并行性,即要求内存计算的平台应该具有一定的容错能力,尽可能全面、准确地从数据流中得出有价值的信息。③动态性,由于海量大数据在前一时刻数据速率和后一时刻数据速率可能会有巨大的差异,内存计算具有很好的可伸缩性能够动态适应不确定流入的数据流,并且具有很强的系统计算能力和大数据流量动态匹配能力。
在大数据时代,将内存计算思想应用到不同领域的各界人士纷纷表示:通过内存计算可以实现许多以前无法进行的大数据应用分析及实践。在当今日新月异的商业环境中,内存计算这一实时、高效的数据处理性能的提升对广大用户具有很大的吸引力。在大数据时代,内存计算技术不仅可以应用于商业领域,还可以改变人们的生活,如国家的人口政策、临床医学的科研,乃至民生工程中,都要牵扯到复杂计算和数据挖掘,而内存计算技术可以为这些行业和事业做出更大的贡献。内存计算能够使得数据计算的速度呈几何级增长,带来了充满想象的应用,如图2所示为基于内存计算的大数据应用框图。
图2 大数据相关技术趋势及应用结构框图
3 基于内存计算的预测分析模型
在基于内存计算的大数据环境中,数据流往往是到达后立即被计算、使用并丢弃,只有极少数数据被持久保存下来。数据的使用是一次性的、易失的,即使重放,得到的数据流也与之前的数据流往往不同。因此这就需要系统具备一定的容错能力,要充分地利用好仅有的一次数据计算机会,尽可能全面、准确、有效地从数据流中得出有价值的信息[8-9]。一方面,由于各个数据源之间是相互独立的,所处的时空环境不尽相同;另一方面,即使是同一个数据流,也会随着时间和环境动态变化。这就需要系统在数据计算过程中具有很好的数据分析和发现规律的能力,不能过多地依赖数据流间的内在逻辑或者数据流内部的内在逻辑。
针对具有实时性、并行性和动态性的基于内存计算的大数据,建立相关层次分析模型。因此理想的基于内存计算的大数据的环境系统应表现出低延迟、高吞吐、持续稳定运行和弹性可伸缩等特性,这离不开系统架构、数据传输、编程接口、高可用技术等关键技术的合理规划和良好设计[10]。如图3所示为基于内存计算的预测分析模型。
图3 基于内存计算的预测分析模型
4 实验分析
4.1 实验环境及数据
实验环境为:高性能服务器Xeon E5-2609×2,内存为16 GB,硬盘容量为1TB×3;操作系统为Windows sever2008。实验数据集是来自武汉市智慧城市交通平台,如表1所示。
4.2 实验结果与分析
将实验数据分别进行一般的回归预测[11-14]和笔者所提出的基于内存计算的预测分析方法实验,再对两种方法进行结果分析与比较,对比情况如表2所示。可以看出基于内存计算的预测分析方法可以在较短的时间内完成多个不同交通流数据集上的预测分析工作。同时通过比较两种方法的均方误差MSE,可以得出基于内存计算的预测分析方法的预测准确率相较回归预测方法要高。因此笔者提出的基于内存计算的预测分析方法具有一定的运行高效性和预测准确率。
表1 实验数据集表
表2 实验结果对比
5 结论
笔者针对智慧城市交通数据流的特性提出了一种基于内存计算的预测分析方法,以满足大数据的实时、高效计算分析需求。通过分析内存计算及流式分析模式,提出了基于内存计算的交通流预测分析模型及相关预测算法。通过对比分析实验结果,验证了笔者提出的基于内存计算的交通流预测方法的可行性、稳定性和准确性,实现了大数据的数据分析实时性和高效性。
[1] FRAMLING K, HOLMSTROOM J, LOUKKOLA J, et al. Sustainable PLM through intelligent products[J]. Engineering Applications of Artificial Intelligence,2013,26(2):789-799.
[2] 吴珺.隧联网结构及智能监控数据分析[D].武汉:武汉理工大学,2013.
[3] 何清.物联网与数据挖掘云服务[J].智能系统学报,2012,7(3):1-5.
[4] 程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
[5] 孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.
[6] 朱靖翔,张滨,乐嘉锦.基于内存计算的钢铁价格预测算法研究[J].计算机科学,2014,41(B11):432-435.
[7] 李明冬.基于内存计算的文本聚类算法的研究与实现[D].南京:东南大学,2015.
[8] 黄岚,孙珂,陈晓竹,等.内存集群计算:交互式数据分析[J].华东师范大学学报,2014(5):216-227.
[9] 刘勇,雒江涛,邓生雄.基于Hadoop的网络分流和流特征计算[J].电信科学,2014,30(12):76-81.
[10] 刘小洋,伍民友.车联网:物联网在城市交通网络中的应用[J].计算机应用,2012,32(4):900-904.
[11] SCHANTZ R, LOYALL J, ATIGHETCHI M,et al. Packaging quality of service control behaviors for reuse[C]∥IEEE International Symposium on Object-oriented Real-time Distributed Computing.[S.l.]:IEEE,2002:375-385.
[12] GILES C L, LAWRENCE S, TSOI A C. Noisy time series prediction using recurrent neural networks and grammatical inference[J].Machine Learning,2001,44(1):161-184.
[13] HILDEBRAND M S,DAHL H H M, DAMIANO J A, et al. Recent advances in the molecular genetics of epilepsy[J]. Journal of Medical Genetics,2013,50(5):271-279.
[14] VIACHOS M, YU P S, CASTELLI V,et al. Structural periodic measures for time-series data[J].Data Mining and Knowledge Discovery,2006,12(1):1-28.
WU Jun:Lect.; School of Computer Science, Hubei University of Technology,Wuhan 430068,China.
Research on Data Prediction Analysis Based on In-memory Computing
WUJun,ZOUChengming
This paper focuses on data-mining in the real-time big data area. Firstly, it gives a brief introduction about in-memory computing and stream computing model. Secondly, it analyzes the main characteristics of big data. Finally, above all related research works as the foundation, it proposes the stream prediction model based on in-memory computing. The feasibility of the proposed method based on memory computation is verified by the experimental application,and it achieved real-time and high efficiency of the large data analysis .
smart city;intelligent transportation;big data; prediction analysis; in-memory computing
2095-3852(2017)02-0236-03
A
2016-10-23.
吴珺 (1984-),女,湖北武汉人,湖北工业大学计算机学院讲师,主要研究方向为物联网技术、智能方法及应用、数据挖掘.
湖北省自然科学基金项目(2014CFB590);交通物联网湖北省重点实验室开放基金项目(2015Ⅲ015-A03).
TP18
10.3963/j.issn.2095-3852.2017.02.024