APP下载

大数据技术及其在土木工程中的应用

2015-12-26马智亮刘世龙

土木建筑工程信息技术 2015年5期
关键词:数据量数据处理检索

马智亮 刘世龙 刘 喆

(清华大学,北京 100084)

大数据技术及其在土木工程中的应用

马智亮 刘世龙 刘 喆

(清华大学,北京 100084)

大数据技术相比于传统的数据分析技术可以实现对海量数据的快速处理和价值挖掘,当前已经应用于医疗、能源等行业。为探寻大数据技术在土木工程中的应用前景,首先需要把握其应用现状。本文在Web of Science数据库、Engineering Village数据库以及中国知网等国内外有代表性的文献数据库中检索相关文章并做归纳分析,总结大数据技术在土木工程中的应用现状,并预测在土木工程中应用大数据技术的发展趋势,为在土木工程中进一步应用大数据技术提供参考依据。

大数据技术;土木工程;大数据应用;数据处理;价值挖掘

【DOI】 10.16670/j.cnki.cn11-5823/tu.2015.05.08

1 前言

近几年,随着互联网的快速发展,在互联网上发布、传递和共享信息产生了大量的数据,同时,传感器和物联网在交通、环境等方面的大规模使用也使得数据呈现爆发式增长。另外,通过实施企业信息化,大量的管理数据也积累在企业管理信息系统中。根据国际数据公司(International Data Corporation,IDC)的报告[1],2011年全球数据总量已达1.8ZB(1ZB=240GB)。这些数据不仅包含结构化数据,还包含半结构化数据和非结构化数据。对这些数据进行分析和处理,可以得到大量有价值的信息。利用传统数据处理方法处理这些海量数据时往往效率较低,而且半结构化和非结构化数据的存在也给数据处理带来困难。

这些在有限时间内用传统数据处理方法无法处理完的数据,通常被称作大数据。虽然对大数据的分析要比对传统数据的分析困难,但大数据蕴含巨大价值,对大数据进行有效挖掘可以得到传统数据无法分析得到的价值,因此专门用于大数据处理的大数据技术已应用在医疗行业[2]、能源行业[3]、通信行业[4]、零售业[5]和科学研究[6]等。

为了应对大数据的挑战和机遇,各国政府都提出了相应的应对措施。2012年3月美国政府启动大数据发展计划,该计划斥资2亿多美元,将利用大数据技术在环境、生物医学等领域进行突破[7]。2015年9月我国国务院印发《促进大数据发展行动纲要》,提出形成政府数据统一共享交换平台的目标,并对促进大数据产业健康发展、规范利用大数据保障数据安全等方面做出部署。

土木工程支撑基础设施及民众住房建设,很明显,土木工程中会产生大数据,且土木工程中涉及大量决策,可以预计,大数据技术在土木工程中具有良好的应用前景。本文旨在总结大数据技术在土木工程中的应用现状并预测其发展趋势。为此,首先阐述大数据技术的关键概念,然后基于文献调研分析大数据技术在土木工程中的应用现状和发展趋势。

2 大数据及大数据技术简介

2.1 大数据及大数据技术

当前大数据并没有统一的定义,不同的定义试图通过描述大数据的特征给出定义。Grobelnik认为大数据的特征为:体量大(volume)、多样(variety)和高速(velocity)[8]。国际数据公司IDC则认为大数据具有以下四个特性[9]:

1)体量大:大数据处理的数据集体量大,一般为TB或PB(1PB=210TB)级别,超出传统数据处理方式的处理能力;

2)多样:数据来源广泛,包含结构化、半结构化和非结构化数据;

3)高速:对于大数据的处理应当快速、实时;

4)价值:通过挖掘大数据,可以得到隐藏在数据中的价值,这些价值是挖掘传统数据所不能得到的。

专门用于处理大数据的技术就是大数据技术。IDC将大数据技术定义为:“大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值”[10],说明大数据的高速和价值特征需要通过大数据技术实现。

2.2 大数据处理环节及处理环节中用到的技术

如果不对大数据进行分析和处理,那么它只是一堆数据。只有对它进行处理和分析,才能挖掘出潜藏在其中的价值。一般地,大数据处理需经过产生大数据、获取大数据、存储大数据和分析大数据等4个环节[10]。

为实现大数据价值,需要在大数据处理的各环节应用相应的技术。各环节所使用的技术举例如下:

1)产生大数据:管理信息系统、社交网络、传感器、智能仪表等;

2)获取大数据:基于领域知识的搜索技术、自然语言处理技术等;

3)存储大数据:NoSQL、分布式数据库等;

4)分析大数据:MapReduce计算模型、Dryad计算模型等。

大数据处理中用到的上述技术,一部分属于传统数据处理技术,例如管理信息系统、自然语言处理技术等;另一部分属于大数据技术,例如NoSQL、分布式数据库等。在分析大数据环节所用到的方法一般称为大数据分析方法。

2.3 大数据分析方法

传统的数据分析方法,例如聚类分析、相关分析、回归分析、数据挖掘、机器学习等,在处理大数据时会遇到效率低下等挑战,在大数据时代需要在这些方法的算法等方面做出调整,才能满足要求。

另外,也产生了一些专门针对大数据的数据分析方法,包括Bloom Filter、Hashing、索引、并行计算等[10]。这些大数据分析方法使得短时间内分析大规模数据集、得到可辅助决策的数据分析结果成为可能。

2.4 大数据分析方法与传统数据分析方法的区别

大数据分析方法与传统数据分析方法的数据处理速度不同。传统数据分析方法在处理数据量特别大的数据时,存在处理速度慢的问题。得益于计算机硬件和数据处理架构、方法的改进和提高,大数据分析方法使得快速处理大量数据成为可能。

大数据分析方法与传统数据分析方法的分析对象不同。由于传统数据采集技术的不足,往往很难获得全面的数据。因此绝大多数传统数据分析方法的分析对象是随机抽样选择的样本数据[10]。随着互联网、检索技术、传感器的大规模应用,获得一个事件多维度的数据已经不是技术上的难题。这为大数据的产生创造了客观条件,也决定了大数据分析方法的分析对象不是随机抽取的样本,而是数据的全体,即大数据分析方法是从数据全体中挖掘有价值的信息。

3 大数据技术在土木工程中的应用

为把握当前大数据技术在土木工程中的应用现状及其发展趋势,笔者采用系统地检索并分析相关文献的方式。为此选取了国内外有代表性的文献数据库进行检索。

首先对Web of Science的核心合集数据库进行了检索。在检索时对目标文献限制如下:文献主题或标题包含“Big Data”,研究领域为“Construction & Building Technology”(Web of Science对文献研究领域进行划分,其中与土木工程有关的只有“Construction & Building Technology”),不对文献发表时间做限制。通过对Web of Science核心合集数据库进行检索,共得到14篇文献(检索截止时间为2015年9月19日)。

其次对Engineering Village的核心期刊数据库进行了检索。在文献检索时对目标文献限制如下:文献标题或摘要包含“Big Data”,文献发表时间为2005年至2016年。检索得到6224篇文献(检索截止时间为2015年9月14日)。这些文献被Engineering Village划分为多个研究领域,其中与土木工程相关的研究领域有“Buildings and Towers”、“Accidents and Accident Prevention”、“Engineering Research”、“Structural Design”和“Engineering Profession”,将文献限制为这5个领域后得到568篇文献。

最后对中国知网数据库进行了检索,在文献检索时对目标文献限制如下:文献篇名、关键词或摘要包含“大数据”,文献发表时间为2005年1月1日至2015年9月19日。检索得到文献39681篇(检索截止时间为2015年9月19日)。这些文献被中国知网划分为多个研究领域,其中与土木工程相关的研究领域有“建筑施工安全”、“灾害及其防治”、“铁路线路工程”、“道路工程”、“桥涵工程”、“隧道工程”、“航道工程”、“通航建筑物及助航设备”、“港口工程”、“其他科学技术在建筑中的应用”和“建筑工程”,将文献限制为这11个领域后得到文献238篇。

从以上3个途径共得到相关文献820篇。通过分别阅读这些文献的摘要得知,这些文献有的是议论土木工程中大数据技术应用的可能性或提出土木工程中大数据技术应用系统架构但没有实际应用,这类文献共43篇;有的是利用传统数据分析方法解决土木工程中大量数据的应用问题,这类文献共92篇;有的实际上与土木工程并不相关,这类文献共682篇;剩下的是与土木工程和大数据技术相关且有实际应用的文献,这类文献只有3篇。通过对这3篇文献进行调研,发现它们应用在两个方面:辅助建筑能耗分析和建筑破坏检测。下面对这3篇文献分别做简述:

3.1 大数据技术用于辅助建筑能耗分析

建筑能耗的一个重要因素是建筑占用,它影响建筑的光照、建筑内部的热交换等。D’Oca等[11]在开源数据挖掘软件Rapid Miner的基础上提出一个数据挖掘框架,以发现办公空间占用模式。该研究工作首先用传感器得到法兰克福一栋办公楼16个办公室2年内每隔10min的占用数据,然后以这些占用数据为基础,利用决策树挖掘、规则归纳和聚类分析等数据分析方法得到建筑占用模式和时间表,并以4种原型工作状况图表示出来。在进行建筑能耗分析时,将这些工作状况作为建筑能耗建模软件(例如EnergyPlus、IDA-ICE等)的输入,研究占用情况对办公楼的设计、运营和能源使用的影响,最后根据研究结果,采取不同的能源节约策略或推荐合适的建筑设计。

Lee等[12]根据用电设备历史电力消耗数据分析得到电力消耗模式,并以此为基础预测未来一段时间的电力消耗情况。该研究工作以一座建筑中的办公室、会议室、实验室及服务器机房共计240间房间为样本,通过专门的传感器从2011年4月到10月每隔一分钟采集照明设备、通风设备、低压设备(如电脑、打印机等)和高压设备(如服务器、实验仪器等)的耗电量数据,数据量达10GB。然后,通过特征提取、聚类和关联分析等方法得到不同用途的房间中不同类型的设备的电力消耗模式,并预测未来一段时间的电力消耗。当发现对于与预测不符的情况时,针对四种类型设备分别进行当前数据和历史数据的对比,分析可能发生的事件,以便采取措施降低能耗。例如,对比历史数据,某间会议室的低电压设备几小时内的平均耗电量显著增加,可能是由于临时召开会议,大量人员进入。而某间房间照明及低压设备无电力消耗但通风设备仍在耗电,并与历史数据不符,可能是空调在无人的房间内空转。

3.2 大数据技术用于建筑破坏检测

利用无人机图像可以进行建筑震后快速破坏检测。通过利用无人机可在短时间内拍摄成千上万张图像,提高图像处理速度对于及时的震后建筑破坏评估和灾后救援至关重要。Hong等[13]提出利用并行计算处理震前地形图和震后无人机图像以加快建筑破坏三维检测速度。该处理过程对震前地形图经过坐标转换和海拔提取等处理后生成震前数字表面模型,同时对震后无人机图像经过连测点提取、相机校正、生成准核线影像、用半全局匹配方法进行密集匹配等处理后生成震后数字表面模型,然后计算震前和震后数字表面模型的不同,进而得到建筑破坏三维检测结果。将该并行计算方法应用于2013年雅安地震震后建筑破坏三维检测,其破坏检测速度比传统的分析方法,即利用单核CPU的分析方法快11倍。

4 土木工程中大数据技术应用特征分析

针对以上3篇文献分析其数据源、数据量和数据分析技术,可获得当前在土木工程中应用大数据技术的主要特征。

(1)数据源

表1 大数据技术应用点

注:表中括弧中的数代表提及这方面应用点的文献数

根据以上3篇文献,目前在土木工程中应用大数据技术时,其数据源主要为以下两种:传感器,即通过传感器获得的与建筑有关的信息,例如建筑能耗信息等,作为大数据;图像设备,例如,利用摄像设备获得的建筑震前、震后图像等,作为大数据。

(2)数据量

以上3篇文献中,只有1篇文献提到了所研究的数据量,即Lee等基于历史电力消耗数据设计的事件识别系统,该系统使用的数据量为10GB,所以数据量并不算大。但是,随着数据积累时间的增长和研究对象的扩大,该数据量也会随之增长。

值得说明的是,在大数据的各种定义中,对数据量并没有严格的规定。当研究的数据为所研究领域数据的全体,而不是抽取的样本,即使数据量没有达到TB或者PB级别,也并不违背大数据的定义。

(3)数据分析方法

在上述文献中,涉及到的数据分析方法既有传统数据分析方法,例如聚类分析、关联分析等,也有大数据分析方法,例如并行计算等。传统数据分析方法之所以能够用于土木工程中的大数据分析,是因为目前处理的数据量还不大。

5 土木工程中大数据技术应用趋势

由上节可见,土木工程中大数据技术应用目前还处于起步阶段。考虑到土木工程涉及到海量数据,特别是,随着物联网技术的发展,可在土木工程的具体对象中可以布置更多的传感器,以便更方便地采集数据,再通过大数据技术进行分析,即可更好地把握土木工程的相关规律。利用这些规律就可以更好地进行土木工程的建造、维护等各方面的工作,让大数据技术在土木工程中发挥作用。

土木工程是一个很大的领域,对任何研究者来说,全部把握该领域几乎不可能。为了把握土木工程中大数据技术可能的应用点有必要借助现有文献,特别是关于大数据技术应用的、议论性的文献。因为,这些文献描述土木工程中大数据技术的应用,往往揭示了土木工程中应用大数据技术的潜在应用点,反映了作者对大数据技术应用趋势的预测。

为此,笔者分析了议论土木工程中大数据技术应用的可能性或提出土木工程中大数据技术应用系统架构但没有实际应用的文献,对其中大数据技术的应用点进行归纳,结果如表1所示。从中可以看出,大数据技术的应用点主要在土木工程运维阶段,具体应用对象包括建筑、道路、桥梁等。其中,运维阶段相比于设计阶段和施工阶段,其数据采集更方便且数据量大,涉及的决策也多,具有运用大数据技术的天然优势。由此可见,在土木工程的运维阶段,大数据技术具有最广阔的应用前景,而在其他阶段,也具有很大的应用潜力。

6 结语

本文首先阐述了大数据及大数据技术的相关概念,然后选取有代表性的国内外典型科技文献数据库,系统地检索了与大数据及土木工程相关的文献,并进行了分析。结果表明,当前大数据技术在土木工程中主要应用于辅助建筑能耗分析和建筑破坏检测等方面,应用特征表现为:数据源主要是传感器和图像设备获得的数据,数据量相对较少,较少使用真正的大数据分析方法。随着物联网技术的发展及其在土木工程中的应用,土木工程大数据将迅速发展,大数据技术在土木工程中的应用方兴未艾。本文可为在土木工程中进一步应用大数据技术提供参考。

鸣谢

本研究得到清华大学—广联达BIM联合研究中心研究基金资助。

[1]Gantz J, Reinsel D. Extracting value from chaos. IDC iView, 2011: 1-12.

[2]Young S D. Behavioral insights on big data: using social media for predicting biomedical outcomes. Trends in microbiology, 2014, 22(11): 601-602.

[3]Lee C W, Cho S H, Kim J W, et al. Development of electric trading system using big data. International Journal of Multimedia & Ubiquitous Engineering, 2014, 9(2): 319-330.

[4]Jeong Y S, Ma J, Yang L T, et al. Advanced communication systems for enhanced big data technology and applications. International Journal of Communication Systems, 2014, 27(6): 825-827.

[5]Sun C, Gao R, Xi H. Big data based retail recommender system of non E-commerce. In: Proceedings of 5th International Conference on Computing, Communications and Networking Technologies, 2014: 1-7.

[6]Chen C L P, Zhang C Y. Data-intensive applications, challenges, techniques and technologies: a survey on big data. Information Sciences, 2014, 275: 314-347.

[7]孟小峰, 慈祥. 大数据管理:概念、技术与挑战. 计算机研究与发展, 2013, 1(1):146-169.

[8]Grobelnik M. Big-data tutorial[R/OL]. [2015-10-01]. http://videolectures.net/eswc2012_grobelnik_big_data/

[9]Barwick H. IIIS: The 'four Vs' of Big Data [EB/OL]. [2015-10-01].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/

[10]张引, 陈敏, 廖小飞. 大数据应用的现状与展望. 计算机研究与发展, 2013, 50(2): 216-233.

[11]D’Oca S, Hong T. Occupancy schedules learning process through a data mining framework. Energy and Buildings, 2015, 88: 395-408.

[12]Lee C, Chen C, Yang X, et al. A workflow framework for big data analytics: event recognition in a building. In: Proceedings of 2013 IEEE 9th World Congress on Services, 2013: 21-28.

[13]Hong Z, Tong X, Cao W, et al. Rapid three-dimensional detection approach for building damage due to earthquakes by the use of parallel processing of unmanned aerial vehicle imagery. Journal of Applied Remote Sensing, 2015, 9(1).

Big Data Techniques and its Applications in Civil Engineering

Ma Zhiliang, Liu Shilong, Liu Zhe

(TsinghuaUniversity,Beijing100084,China)

Big data techniques can rapidly process and mine value from mass data compared to traditional data analysis methods in many domains, such as finance and energy industry. Before we ascertain the prospect of big data techniques in civil engineering, the status quo of big data techniques that are used in civil engineering should be investigated. Articles related to big data and civil engineering are analyzed after being searched in the major literature databases including Web of Science, Engineering Village and China Knowledge Resource Integrated Database, and the status quo of big data technique application in civil engineering and the trends are analyzed. This paper facilitates the future research on the application of big data techniques in civil engineering.

Big Data Technique; Civil Engineering; Big Data Application; Data Processing; Value Mining

马智亮(1963-),男,教授。长期从事信息技术在土木工程中的应用研究。

TP311

A

1674-7461(2015)05-0045-05

猜你喜欢

数据量数据处理检索
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
2019年第4-6期便捷检索目录
专利检索中“语义”的表现
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于POS AV610与PPP的车辆导航数据处理