APP下载

系泊作业系缆力大数据近似查询预测方法

2017-04-06宋旭东陈启刚蔡晨阳邱占芝宋丽芳

大连交通大学学报 2017年2期
关键词:系缆历史数据缆绳

宋旭东,陈启刚,蔡晨阳,邱占芝,宋丽芳

(1.大连交通大学 软件学院,辽宁 大连 116028; 2. 中车大连机车车辆有限公司,辽宁 大连 116022; 3.大连科技学院 信息科学学院,辽宁 大连 116052) *

系泊作业系缆力大数据近似查询预测方法

宋旭东1,陈启刚1,蔡晨阳2,邱占芝1,宋丽芳3

(1.大连交通大学 软件学院,辽宁 大连 116028; 2. 中车大连机车车辆有限公司,辽宁 大连 116022; 3.大连科技学院 信息科学学院,辽宁 大连 116052)*

开敞式码头系泊作业中,缆力是保证安全的一个重要指标.目前在系泊缆力预测主要集中在船舶与缆绳之间的物理变化上,采用的方法主要有观测法、物理模型及数值模型等.提出一种以大量的历史数据为驱动的预测方法,结合大数据MapReduce模型机制,使用近似查询方法获取与当前影响船舶缆力因素最接近的历史缆力值;考虑到船舶缆力影响因素的所占比重不同,采用模糊数学的方法来确定各个因素的权值分配.仿真实验表明方法的预测结果具有较高的可行性和实用性.

系缆力;大数据;近似查询;预测方法

0 引言

船舶系缆力的影响因素十分复杂,既受风、浪、流等因素的影响,也受船型、作业状态等参数的制衡.随着船舶大型化和泊位深水化的日益发展,以及工程实践中各种影响条件的千变万化,单纯的靠人为经验等判断船舶作业安全的状态这是很难做到的,理想状态下的数模计算和物模实验[1-3]已经远远不能满足系缆力方面理论和应用的进一步发展.

近似查询技术在计算机科学领域是一个被关注的问题,它被广泛的应用于各种领域,如互联网、医疗卫生、数据挖掘、数据库以及生物科学技术等[4-6].而传统的查询方法不能满足数据因素不确定的条件,在此基础上本文引入了模糊数学的概念,以确定各种因素之间的权重分配.在面对大量数据处理过程中,模糊近似查询查询技术不能很好的满足要求,本文提出了一种在Hadoop平台上结合近似查询技术和模糊数学的方法,利用MapReduce并行处理模型解决了大量数据查询和计算时间慢的问题,实现了对系泊码头船舶作业缆绳拉力值模糊近似查询,对于船舶作业过程中的安全预警有着重要的支持作用.

1 大数据MapReduce处理模型

MapReduce模型是由Google在2003~2004年发表的两篇论文中首次提出,其分布式并行编程模型在海量的数据中进行计算具有明显的优势,因此在学术界和工业界引起来了关注和使用[7].

MapReduce的基本思想是将一个大的数据分成若干个数据块(datablock),每一个数据块都会被分成成千上万个数据集split.MapReduce定义了Map和Reduce两个抽象的接口,Map会对每个提交上来的数据块按行解析成键值对,并按照一定的规则生成新的键值对 , 将具有相同的键的键值对组合在一起;Map函数的输出数据将会作为Reduce函数的输入数据,按照并行计算要求最终产生新的键值对.

MapReduce并行计算模型如图1所示.

图1 MapReduce并行计算模型

2 基于MapReduce的模糊近似查询算法

本文研究的是基于大数据MapReduce对系泊缆力的模糊近似查询预测方法,首先需要明确的是影响系泊缆力的风速、风向、流速、流向、波高等因素对缆力值所占的权重,然后根据模糊数学确定数据之间的欧氏距离值,最后将查找计算在并行框架中实现.

2.1 权重确定方法

假设x是讨论域U中的任意一个元素,有一个关系式A(x) ∈[0,1]与之对应,这时A(x)称之为x对A的隶属度.当x在U中进行变换时,隶属度A(x)越接近0,表示x属于A的程度越低,隶属度A(x)越接近1,表示x属于A的程度越高.隶属度函数是模糊数学中应用于模糊控制的关键因素之一,由于隶属度函数的确定目前主要有模糊统计法、例证法、二元对比排序法以及本次使用的专家经验法.

专家经验法是根据专家的实际经验给出模糊信息的处理算式或相应权系数值来确定隶属函数的一种方法.风、浪、流、吨位等因素对于缆力值的影响有着直接的影响,对于其权值的确定,直接影响着数据查找的准确性.专家经验法,在一定程度上避免了因个人不能客观把握情况而导致结果失真.

2.2 数据模糊近似计算

造成系泊缆力变化的因素主要有风、浪、流、吨位等,不同的影响因素其数值和单位不同,为了使其不在后续的查找匹配中出现某一因素产生较大的影响,使用归一化对数据进行处理,去除掉量纲的影响,将不同的单位的数值进行格式化,使之在指定的范围内(0~1).将定原始数据集为X={xi|xi∈R,i=1,2,…,n},归一化后的数据集为

历史数据会按行存放在文件中,假定每行的历史数据集经过归一化处理以后为D={di|di∈R,i=1,2,…,n},待预测影响因素数据集经过归一化处理以后为C={ci|ci∈R,i=1,2,…,n},两组数据之间的加权欧式距离可表示为

2.3 预测方法框架结构

系泊作业过程中在过去数据检测中存储了大量的历史数据,每个被分解的数据块可以单独的在每个计算机上进行处理,很适合在MapReduce并行模型上进行计算[8].在规模集群上运行的MapReduce分布式编程模型计算处理过程可以抽象为Map和Reduce两个函数,这两个函数分别继承了Hadoop中的Mapper和Reducer类,用户只需要按照要求来实现这两个类即可.其整体方法框架如图2所示.

在数据采集以后,还需要根据船舶绑定缆绳的实际情况,在数据库中选择出适合当前情况的数据,对选择出来的数据进行预处理,刷除那些数据不完全、检测明显不符合标准的数据,将规范的数据以供后续使用.

(1)在Map阶段,将历史存储的数据文件作为预测方法的输入文件,从程序输入中读取预测数据,这样完成初始化操作;Map函数会按行读取历史数据,然后将历史数据和预测数据进行归一化处理,然后再计算这两组数据的欧式距离,将计算的中间变量存储在中间变量中,当计算完第二组欧式距离以后,把第一次的欧式距离值与第二次欧氏距离值进行比较,如果小,则中间变量存放第二次的欧式距离值,依次类推,直到计算完整个数据块的历史数据,将最后的欧氏距离值写入键值对中,以供后续Reduce阶段使用;

(2)在Reduce阶段,会接收来自各个Map的结果作为输入,会将具有同一个key的键值对组成一组,交由一个Reduce函数处理,Reduce函数会从同一组value值中找到欧式距离最小的历史数据,其中key为缆绳的数量,value为历史影响因素数据和各个缆绳缆力的历史检测值.最后将这组历史数据写入HDFS文件中.

图2 基于MapReduce模糊近似查询框图

在上述的Map和Reduce阶段中,文本中的数据都是用便于保存的字符串格式存储,在计算过程中需要多字符串进行转换成适合计算的类型.

3 预测方法分析评价

3.1 分布式预测运行环境

分布式运行集群由4台PC组成,其中1台PC为NameNode,3台PC为DataNode,硬件环境配置均为InterCorei5-3210M处理器,2GB内存,500GB硬盘;软件环境为CentOS-7.0-1406、JDK1.6.0_20以及Hadoop-1.1.2.

3.2 运行结果分析

根据文献[9]中关于系泊实测数据类型及其数据范围进行数据仿真实验,生成目标数据作为历史数据共4 000 000行记录,数据以文本格式存放,数据项之间使用Tab键进行分割.在历史数据中每行数据包括影响系泊缆绳拉力的因素数据(风速、风向、流速、流向、波高、波向及载量)和一段时间以后的缆绳时间拉力数据.

实验中将待预测环境动力等因素作为预测影响因素输入,使用近似查询方法获取与当前影响船舶缆力因素最接近的历史缆力值作为未来一段时间的系缆力为预测结果.

图3 缆力目标值与预测值标准差折线图

3.3 分析评价

从预测值和目标值的数据可以看出,处于船舶首尾两个位置的缆绳1和缆绳8上的缆力值较大;处于船舶中间的首道缆和尾道缆位置的缆绳4和缆绳5所受的缆力值其次;处于船舶的首横缆和尾横缆位置的缆绳2、缆绳3、缆绳6和缆绳7所受的缆力值最小.在平均误差中,受力较小的缆绳6误差最小,说明其预测准确率最高,缆绳5误差最大,说明其预测准确率最低.

从图3可以看出目标值标准差和预测值标准差折线基本接近,缆绳5的目标与预测标准差相差最小,说明其缆力值波动较小;缆绳1的目标值与预测值标准差相差最大,说明其缆力值波动较大.

4 结论

针对系泊作业过程中缆绳缆力预测的问题,本文给出了基于大数据Hadoop平台的数据模糊近似度预测方法,实现了在大量的历史数据中根据当前检测到的影响因素数据来预测一段时间后的缆力值.仿真实验表面在大量的数据中通过模糊近似查找的方法可以匹配出与当前因素最接近的缆力值,并且在准确性和查询速度上具有高效性,随着数据量的越大越具有明显的优势.基于大数据平台的系泊缆力预测方法在船舶作业过程中具有现实的意义.

[1]ZHOU DECAI , MIAO QUANMING. Nonlinear Characteristics Simulation of Mooring Lines and Fenders of Binding Ships in Model Tests [J]. Journal of Ship Mechanics, 2005, 9(6): 48-55.

[2]邹志利, 张日向, 张宁川,等. 风浪流作用下系泊船系缆力和碰撞力的数值模拟[J]. 中国海洋平台, 2002, 17(2):22-27.

[3]STOCKSTILL R L,BERGER R C. A three-dimensional numerical model forflow in a lock filling system[C]//ASCE. World Environmental and Water Resources Congress.U.S.:ASCE Press ,2009:2737- 2746.

[4]UYSAL M S, BEECKS C, SABINASZ D, et al. Large-scale Efficient and Effective Video Similarity Search[C]// Workshop on Large-scale & Distributed System for Information Retrieval. ACM, 2015:3-8.

[5]TSYMBAL A, MEISSNER E, KELM M, et al. Towards cloud-based image-integrated similarity search in big data[C]// 2014 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). 2014:593-596.

[6]李昕, 孟祥福. 基于相似性推荐的电子商务Web数据库关键字近似查询方法[J]. 小型微型计算机系统, 2015(7):1487-1491.

[7]LAMMEL R. Google′s MapReduce Programming Model-Revisited[J]. Science of Computer Programming , 2008 ,70(1):1-30.

[8]SRIRAMA S N, JAKOVITS P, VAINIKKO E. Adapting scientific computing problems to clouds using MapReduce[J]. Future Generation Computer Systems, 2012, 28(1):184-192.

[9]郝庆龙. 超大型船舶系缆力实测研究[D]. 大连:大连海事大学, 2014.

Mooring Line Force Prediction Method based on Big Data Approximate Query

SONG Xudong1, CHEN Qigang1, CAI Chenyang2, QIU Zhanzhi1,SONG Lifang3

(1.Software Institute, Dalian Jiaotong University, Dalian 116028, China; 2. CRRC Dalian Co., Ltd, Dalian 116022, China; 3.School of Information Science, Dalian Institute of Science and Technology, Dalian 116052, China)

Mooring line force is an important indicator for mooring operation safety in the open wharf. The prediction method of the mooring line force focuses on the physical changes of the ship and the mooring lines. The prediction methods mainly include observation, physical model and data model. A data driven prediction method is provide, based on massive historical data. Using approximate query method and big data MapReduce model framework, mooring line force prediction value is obtained which is the similar mooring line force value of the closest force influencing factors. Considering the different weights of influencing factors, fuzzy mathematics method is used to determine the weights of influencing factors. Simulation results show that the prediction method has higher feasibility and practicability.

mooring line force; big data; approximate query; prediction method

1673- 9590(2017)02- 0117- 04

2016-03-01 基金项目:辽宁省自然科学基金资助项目(201602131);大连市科技计划资助项目(2014A11GX006)

宋旭东(1969-),男,教授,博士,主要从事大数据、数据挖掘、智能算法、决策支持系统方面的研究 E- mail:xudongsong@126.com.

A

猜你喜欢

系缆历史数据缆绳
30万t级油船靠泊过程实测系缆力统计分析
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
航空拖曳诱饵系统机动过程缆绳张力仿真
基于故障历史数据和BP神经网络的接地选线方案研究
MEG4 规范对导缆孔的新要求及 相应的设计改进
船舶靠泊过程中系缆作业仿真
三峡船闸浮式系缆桩系泊安全性分析及实船试验
深水工程船舶缆绳测力装置设计与应用
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效