APP下载

全断面隧道掘进机施工大数据的有效数据提取研究*

2022-06-04李叔敖褚长海周振建张合沛任颖莹

施工技术(中英文) 2022年8期
关键词:数据项刀盘数据量

李叔敖,江 南,褚长海,周振建,张合沛,任颖莹

(1.盾构及掘进技术国家重点试验室,河南 郑州 450001; 2.中铁隧道局集团有限公司,广东 广州 511458)

0 引言

盾构及掘进技术国家重点实验室的盾构TBM大数据平台建成已3年多,累计接入线路281条,其中在建线路81条,积累施工过程数据达51.58TB。依托盾构TBM大数据平台进行数据挖掘的前提是提取数据,常规数据提取方法常因某些维度数据项缺失导致提取异常,此外提取到的原始数据往往无关状态较多,导致提取的数据有效度较低,数据样本量庞大,提取速度缓慢[1-3]。为提高数据提取效率和数据样本有效度,首先对数据项进行检查和容错性判断,避免因数据项缺失导致提取或使用该数据项时出错。然后对数据状态进行分类,选取有效状态数据,同时进行多线路提取试验,统计有效数据提取方法在多线路上的效果。有效数据提取问题及解决方法如图1所示。

图1 有效数据提取问题

王成彬等[4]以地学大数据为研究对象,进行地学数据交互标准与语义、数据调平、地质图接边和文本结构化等数据预处理研究,使冗余、复杂的地学大数据转为结构化、可用的数据。苏健行等[5]研究不平衡数据分布问题,提出适用于非平衡大数据分类的数据预处理方法,并验证该系统的智能性和先进性。刘杰[6]利用盾构刀盘施工大数据,采用特征提取、统计分析等方法研究零部件性能衰退征兆,根据盾构关键数据预测零部件故障。Kroß等[7]基于Apache Spark和Hadoop对大数据应用程序、计算资源和数据工作量的性能相关因素进行建模,整合与优化数据前处理过程,并使用线性回归和随机森林应用程序进行评估,对数据挖掘的前处理具有参考意义。张贞[8]介绍基于大数据的盾构远程监控与智能决策系统,可提供接入系统内盾构机的掘进参数、设备参数及风险预测、施工质量等数据,为盾构法施工提供决策支持。

上述学者对大数据预处理和数据提取进行大量研究,为该方面的研究工作奠定了基础,然而,研究热点往往聚焦在获取数据样本后进行的数据预处理上[9-11]。工程实践中因数据价值密度低导致提取的数据样本大、有效度低,提取速度受影响,尤其当多线路并发提取时,问题变得更严重。不同于之前的研究,有效数据提取方法在数据样本提取过程中同时进行数据有效性的判断和处理,保证抽取到的数据样本有效度提高,减少数据样本。同时,有效数据提取方法还包含数据项容错性判断,解决数据缺失引起的数据提取异常。在数据提取过程中进行有效状态判断,容错性处理多线路试验解决工程中多线路提取数据时面临提取成功率低、提取样本数据量大、有效度低、提取速度慢的问题,为多线并行大系统实时数据挖掘提供条件,提高了效率。

1 数据提取过程中的问题

基于盾构及掘进技术国家重点实验室的盾构TBM大数据平台,进行实时数据挖掘与智能决策时,若数据提取有效度低,则严重影响并行决策算法的性能,因此应统计分析数据提取过程的问题。

1.1 背景描述

针对6条正在建设的盾构施工线路进行历史数据提取,其中土压平衡盾构、泥水平衡盾构、硬岩TBM施工线路各选择2条,统计选取的各条线路最近5d内的关键施工数据提取情况和结果,其中每条线路进行10次统计,基础统计信息如表1所示,各线路结果统计如表2所示。

表1中土压平衡盾构、泥水平衡盾构、硬岩TBM各选择2个,采用原始提取方法对各条线路进行数据提取操作,提取时长为5d,即432 000s,根据当前环号、当前里程、推进速度、总推进力、刀盘扭矩、贯入度、螺旋输送机转速、螺旋输送机扭矩选取土压平衡盾构,根据当前环号、当前里程、推进速度、总推进力、刀盘扭矩、贯入度、排浆流量选取泥水平衡盾构,根据当前环号、当前里程、推进速度、总推进力、刀盘扭矩、贯入度选取硬岩TBM。所选线路均为在建线路,挖掘分析该数据更易实时反馈结果辅助现场施工。采用当前时间向前提取5d试验数据更接近线路需求。

表1 选取数据库在建基本信息

对每条线路进行10次提取,表2中可看到未成功提取项目1条,成功提取5条线路,每条线路进行10次重复提取,记录每次提取数据用时,成功提取线路的10次数据提取用时结果如图2所示。将10次提取时间去除最大值和最小值,之后求剩余项的平均值可得平均时间。由于不同施工项目的盾构机数据项点位编码总数不相同,数据采集器的采集频率不相同,各线路5d内的设备连接状态不同等差异,导致相同时间切片内各线路数据存储量不同,提取数据用时也不相同。对提取数据用时采取去除最大值和最小值后求平均值的方式,能较好排除提取过程中的异常因素,得到较合理的提取时间平均值[12-13]。

图2 成功提取线路的10次数据用时结果

表2 各线路结果统计

1.2 问题分析

对随机选取的6条正在建设线路进行数据提取时,存在1条线路上数据提取失败的情况,影响多线路并行的实时数据挖掘系统运行。观察各线路提取数据发现数据列中存在大量为0的无关数据,以 100 002 列的推进速度为例,各线路推进速度分布情况如图3所示。

图3 成功提取线路的100 002列数据分布

由图3可观察到推进速度为0的数据所占比例较大,这些数据对应盾构机未掘进状态,这些数据对挖掘盾构机掘进时的规律无用。若数据提取时过滤该数据,将减少数据提取量,节省数据提取时间,对于多线程并发的实时数据分析系统将优化运行速度和存储空间。对未提取成功线路进行数据试验排查,发现18100001000202线路因缺乏关键数据项100 300导致该线路提取数据失败。数据项缺失具有一定随机性,某些数据项偶尔缺失后会恢复。图3d中19080001000101线路100 002列数据出现孤立的较大异常数据,显示大数据易感染的特征。

2 有效数据提取方法

为解决大数据平台提取数据时,数据项缺失导致数据提取失败的问题和提取到的数据样本无关数据较多导致样本有效值少的问题,拟采用容错性判断、状态分离和多线路试验的方法在数据提取过程中筛选和处理数据,提高数据样本的价值密度,减少数据量,加快提取速度。

2.1 容错性判断

大数据具有易“感染”的特点,具体表现为数据产生、采集、存储过程中某些数据项偶然丢失,因此使用大数据平台数据时,需对待提取数据项进行容错判断,即提取数据时,若待提取数据项缺失,则记录缺失数据项并继续提取,同时寻找近似可代替或可反映该数据项的数据[14]。

对原始提取程序进行少量单列数据的预提取处理,可得到各数据项提取是否成功的结果,进而记录未成功数据列。原始提取程序中,首先判断数据项是否存在,忽略不存在的数据项;若存在该数据列则使用该数据列,最终生成待提取参数项配置表,完成容错性判断功能后,18100001000202缺失项为100 300,平均用时3.721 144s,数据行数为 35 996, 100 002列数据分布如图4所示。

图4 18100001000202线路100 002列数据分布

2.2 状态分离

施工过程中盾构机有多种状态,如掘进状态、拼装状态、停机状态、断线状态。基于大数据分析主要掘进状态,因此除掘进状态的其他状态产生的数据对数据分析是无用的,提取过程中去除非掘进状态数据,将减少提取数据样本量,提高提取速度。

观察各线路提取的关键数据,其中推进速度、刀盘扭矩、贯入度都能反映盾构机是否处于掘进状态。但拼装管片或短暂停机时,刀盘扭矩或推进速度往往存在不为0的情况,而贯入度是推进速度与刀盘转速之商,因此,选择推进速度和刀盘扭矩列为盾构机掘进与否的判断依据[15]。

对原始提取程序增加状态分离功能,判断推进速度是否为0,同时为去除系统偶然异常值从而提高判断准确性,对刀盘扭矩列进行非零判断,即推进速度和刀盘扭矩同时非零时,认为该列数据为掘进状态下产生的数据。经过状态分离提取17030001000102线路的数据,查看该数据样本推进速度和刀盘扭矩列。

2.3 多线路试验

提取所有在建线路(共81个)运行改进后的数据,如图5所示。对同一线路进行10次数据提取,统计10次提取用时,去除10次用时的最大值和最小值,再求平均值得到图中提取时间。提取最近5d内的数据,由于各项目施工情况、数据采集器采集频率、各线路数据量不同,因此各线路提取到的数据量不同。

图5 所有在建线路数据提取结果统计

由图5可知,81条在建线路数据均提取成功,提取时间和数据量趋势有较强关联,部分线路在最近5d内由于断线或停机问题未采集到有效数据。

3 有效数据提取方法对比分析

在边界条件一致的情况下,对表1所示随机抽选的6条在建线路及所有线路进行数据提取。

3.1 提取异常统计

如表2所示,原始提取程序提取6条线路数据时,18100001000202线路因缺少数据项 100 300 导致提取失败,改进提取方法后提取所有线路均成功,且记录各线路的数据缺失项。

3.2 提取速度

采用连续10次提取数据记录每次提取用时的方式进行数据提取试验,对提取用时数列去除极值后求平均值的方式得到较可信的提取数据平均时间,对表1中6条线路的数据提取时间进行对比分析,原始提取方法和改进后方法的提取平均时间对比如图6所示,其中对18100001000202线路的原始提取数据进行容错性判断。

图6 2种数据提取方法提取用时统计

由图6可知,改进后方法在解决提取异常的前提下比原始提取方法的提取速度上升76.7%~93.1%,提取速度平均上升85.5%,大大提高数据提取速度。

所有在建线路提取用时平均值,统计结果如图7所示,线路编号顺序与图5一致,此处用序号代替线路编号。对所有线路提取用时进行统计,并计算提取速度平均提升70.0%。

图7 所有线路上2种方法提取用时统计

3.3 样本数据量及样本有效度

统计改进前后提取近5d内数据得到数据行数,并计算样本有效度。数据有效度指有效数据量与数据总量的比值。所有在建线路提取数据行数统计结果如图8所示,各线路数据有效度如图9所示,线路编号顺序与图7一致,此处用序号代替项目编号。

图8 所有线路上2种方法提取数据行数统计

图9 数据有效度统计

由图8,9可知,通过状态分离后,相同时间内提取样本的数据量平均下降72.9%,在保证数据有效度的同时,大大降低程序运行时所占用的内存量,对多线路并发的实时决策系统具有重要性能优化作用[16]。

4 结语

实时指导线路施工的辅助决策系统往往需要多线路同时运行,且实时提取数据做出决策,因此对决策算法的时间复杂度和空间复杂度要求较高,需注意数据提取。针对多线路数据分析时遇到的数据提取过程异常、提取样本数据量大、有效值少、提取速度慢等问题,采用容错性判断、状态分离和多线路试验方法,解决上述问题。

1)有效数据提取方法采用容错性判断解决因关键数据项缺失问题,在所有在建线路上进行数据试验,并标记缺失数据项,结果表明所有线路均提取成功,增加数据提取的成功率。

2)有效数据提取方法通过状态分离,保证提取数据样本的有效性,在所有在建线路中,数据样本量平均下降72.9%,提取速度平均提升70.0%,提高算法运行效率。

3)有效数据提取方法主要创新之处在于面对多线并发的实时决策系统,需在数据提取时优化样本总量和提取速度。

4)有效数据提取方法的研究对并发实时决策系统在优化策略和优化方法上进行延伸,对基于盾构施工大数据或其他行业大数据的数据挖掘具有参考意义。

5)提取过程中观察相同时间内不同线路有效数据量差异较大,有些线路甚至没有有效数据,且有些数据存在明显异常,因此保证各线路的有效数据量及不同数据要求是对并发系统有益的研究方向。

猜你喜欢

数据项刀盘数据量
基于正交试验的 TBM 双板刀盘结构参数优化设计
国六柴油车远程排放监测数据项间相关性特征研究*
盾构刀盘再制造设计及数值模拟
浅析硬岩刀盘转速与其内部落料的关系
基于大数据量的初至层析成像算法优化
土压平衡顶管机刀盘的力学分析及优化设计
基于相似度的蚁群聚类算法∗
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
非完整数据库Skyline-join查询*