APP下载

基于事件关联的IoT 服务即时推荐方法研究∗

2024-04-17巩会龙郭陈虹郭浩浩丁美至杨诗怡

计算机与数字工程 2024年1期
关键词:挖掘出业务流程延时

巩会龙 王 菁 郭陈虹 郭浩浩 丁美至 杨诗怡

(1.北方工业大学信息学院 北京 100144)

(2.北方工业大学大规模流数据集成与分析技术北京市重点实验室 北京 100144)

1 引言

随着互联网的发展与万物互联时代的到来,IoT 服务的技术水平也在不断提高。IoT 服务是指通过互联网连接的IoT 设备提供的各种服务[1]。IoT 服务事件是指由IoT 设备在运行过程中产生的业务事件,这些事件可以被用来监控设备的状态和行为。通过对IoT设备生成的业务事件进行频繁关联模式挖掘,可以发现设备的事件模式。由于在科研协作、船舶运输、城市应急等IoT应用领域服务组合逻辑难以预先定义,如果用户利用这些频繁关联模式与业务流程中的IoT 服务推荐相结合,动态的调整服务组合逻辑,“边执行边构造”探索式的构建业务流程[2],可以优化资源利用率为用户提供更加智能化、高效化、个性化的服务,从而构建出更能符合实际业务场景的业务流程。

二是从监管链条的角度看,专员办应当更加注重绩效监控结果反馈的及时性。“约束有力”是预算绩效管理改革遵循的基本原则,专员办监督成果向财政部的及时反馈是保证激励约束机制有效落实的重要一环。专员办应定期将属地中央预算单位预算绩效管理的整体情况,特别是重点项目绩效运行管理情况以专题报告的形式报告财政部,突出上下联动机制的落实。及时揭示执行偏离目标,目标进度不达预期的问题,分析反映造成偏差的原因,着重反映绩效一般的项目的改进进度,对交叉重复、碎片化项目提出调整意见,对低效无效资金、长期沉淀资金提出削减或收回资金,统筹用于亟需支持的领域的建议,供财政部决策参考。

以液化天然气船舶运输监控为例,液化天然气(Liquefied Natural Gas,LNG)作为世界公认的优质、清洁、高效能源,在我国能源结构中得到广泛的重视和利用,由于LNG 本身具有易做易保特性和严苛的储存运输条件,导致LNG 一旦发生泄漏,尤其是LNG 储罐泄漏,极有可能引发连锁事故效应,造成灾难性的后果[3]。使用IoT 服务技术可以实时感知监控LNG 罐箱运输的IoT 设备产生的业务事件,并通过事件频繁关联模式结合业务流程推荐相应的IoT 服务。因此IoT 服务推荐方案应该考虑IoT 服务的新特征,然而传统的服务推荐方案,如基于内容的过滤方法、协同过滤方法和混合系统方法[4],并不适用于IoT 服务推荐。传统的服务推荐方案主要针对互联网环境,然而,在IoT 服务推荐中,不仅要考虑到IoT服务事件之间的关联,还要考虑IoT服务事件发生的时间约束。一般的频繁关联模式挖掘并没有考虑事件频繁关联模式中事件之间的时间延时属性,导致利用挖掘出的频繁关联模式来进行推荐可能不够准确、不够及时,产生一些不符合实际情况的推荐结果。

本文就针对如何挖掘出IoT服务事件之间的时间关系,并应用于业务流程中的IoT服务推荐,提高业务流程中IoT 服务推荐的准确率,提出了一种考虑事件频繁关联模式延时性的IoT 服务推荐方法。实验结果表明,与同类推荐方法相比,本文提出的方法在业务流程中IoT服务推荐的准确率得到了进一步提升。

2 相关工作

2.1 频繁关联模式挖掘

频繁关联模式挖掘是一种数据挖掘技术,在实际应用中,它被广泛应用于在业务流程分析、用户行为预测、生产过程优化等领域。对于频繁关联模式的挖掘主要分为基于序列模式和基于关联规则的频繁关联模式挖掘。基于序列模式的频繁关联模式挖掘是指在序列数据集中挖掘出更具代表性的序列模式集合[5],比如刘豫航等为挖掘电力系统故障序列中的故障序列模式,基于PrefixSpan 算法提出了CFPMA 算法,来辨识和挖掘电力系统故障数据中的连锁故障模式[6],从而对提前预知和感知即将发生的连锁故障,积极做出应对。由于在序列模式挖掘过程中会产生大量不频繁候选集,Philippe Fournier-Viger 等[7]提出了一种称为CMAP的修剪结构,用来减少频繁候选项以及提高挖掘效率,并结合SPADE 算法,使用一种名为CM-SPADE的算法验证该结构的有效性。基于关联规则的频繁关联模式挖掘可以利用一些度量指标分辨数据集中存在的强相关性的关联规则,通过对关联规则的挖掘,能够发现大量隐含的频繁关联模式[8],文献[9]基于改进的Apriori 算法,对地铁设备故障数据进行挖掘,利用挖掘出的关联规则作为地铁故障频繁模式分析的重要依据。

2.2 服务推荐

业务流程设计在流程管理中起到了非常关键的作用,推荐技术作为业务流程的重要组成部分,国内外学者对此做了许多研究。当前用于服务推荐的方法根据推荐服务的依据不同大体分为语义匹配算法、协同过滤算法和关联关系算法这三类。在基于语义匹配算法[10]的服务推荐中,首先将服务相关参数信息描述为文本并进行语义匹配,然后对服务之间的相似度进行计算并将相似度高的服务推荐给用户。该方法简单、直接,且仅仅利用了服务的静态语义信息,因此会推荐大量的无意义服务,而且没有考虑到用户与服务的交互性,难以满足用户需求。基于协同过滤算法[11]的服务推荐是比较常用且典型的方法,由于传统协同过滤仅利用用户和服务之间的低纬和线性交互,Yi Wenzhang等[12]提出了一种位置感知深度的服务推荐模型,该模型不仅可以进一步学习用户与服务之间的互动信息而且还可以学习用户与服务之间的高纬和非线性交互,并以此获得候选服务为用户进行推荐。基于关联关系算法的服务推荐,该算法通过挖掘出的关联关系,利用这些关系为用户进行服务推荐。文献[2]通过对gSpan 算法进行扩展,聚焦于失败服务模式,挖掘出其中的服务派生关系并将生成的服务模式应用于服务推荐。

IoT 服务事件发生时间作为IoT 服务事件的一个属性,由于IoT 服务事件之间并不是简单的先后发生关系,还有两个源事件发生才引起目标事件发生这种特殊关系,这就要考虑两个源事件之间发生的时间差异,这就给IoT 服务事件频繁关联模式的延时性挖掘带来了挑战。为挖掘出带有延时属性的IoT 服务事件频繁关联模式应用于IoT 服务推荐,并且提高挖掘效率,本文最终选择基于CM-SPADE算法进行改进,以挖掘出带有延时属性的IoT 服务事件频繁关联模式,使其能更好的凸显出IoT 服务事件关联之间延时应用的重要性,同时将挖掘出的IoT 服务事件频繁关联模式映射为IoT服务频繁关联模式,并结合业务流程,使IoT服务事件关联模式更好的应用于业务流程中的IoT服务推荐。

3 IoT服务事件频繁关联模式挖掘

在IoT 系统中,IoT 服务事件通常是指在IoT 环境下,物理世界中身处于不同位置的设备、传感器、节点等进行交互时,所产生的业务事件。在这个过程中,需要对IoT数据进行分析和处理,从而提取出与业务相关的信息,最终形成一个具有意义的业务事件。IoT 服务事件频繁关联模式是指在IoT 服务事件序列中,发现某些事件在特定时间段内频繁出现的关联模式。如果这些事件在一段时间内频繁出现,可能会对IoT服务产生影响,导致服务中断或数据丢失。

3.1 基本概念

频繁关联模式挖掘的目标是从序列数据集中挖掘出所有频繁出现的关联模式。具体来说,它通过扫描序列数据集,统计每个关联模式在数据中出现的频率(即支持度),并根据设定的支持度阈值来筛选出频繁关联模式。频繁关联模式通常被认为是数据中的重要模式,因为它们可能反映了数据中的重要规律和关联性,有助于对数据进行分析、预测和决策。

2015-2016年,恒山景区的旅游接待人数在重要的节日上增幅较快。每年的五月初五、恒山庙会四月初八、旅游节5月19日,恒山景区都会实行免门票、打折等优惠的措施,使得这些重要节日的接待量的增长速度也比平常高很多。其中增幅较快的还是恒山庙会四月初八和国庆期间,分别是7.1%和6.7%。3月8日是恒山当地的传统祭祀节日,景区加大了服务和安保力度等基础性服务,使得这个节日的每年人数增长百分比最高。国庆节等法定节假日,恒山景区实行五折、七五折等门票优惠措施,吸引了大量的游客,也呈增长趋势。相比之下,在旅游节上,人数增长较慢,原因是五一旅游高峰期刚过,相应的旅游人数有所减少。

定义1 IoT 服务事件序列。IoT 服务事件可以表示为一个四元组e =(sourceid,eventid,timestamp,type),其中:

sourceid代表产生IoT服务事件e的IoT服务id;

线形生产建设项目在施工过程中或多或少都会存在占压和扰动土地和植被的现象,使原有水土保持设施的功能降低或丧失,加重原有地表水土流失。线形生产建设项目包括铁路、公路、输气管线、输油管线、输变电线路等,其水土流失常以“点状”和“线形”综合的形式出现,具有水土流失量大、集中突发性强、危害大等特点。

timestamp是e产生的时间戳;

type 是事件类型,指包含e 在内的一组具有相似特征的事件集合标签。

令S ={e1,e2,…,en}是不同IoT 设备产生的按时间顺序构建的IoT服务事件序列。一个序列中所包含事件的个数称为序列的长度,长度为l 的序列记为l-序列。

①在新建资源池网络中引入SDN组网,实现网络灵活部署。②传统数据中心在满足现有业务需求的情况下,暂不进行SDN改造,以免影响现网业务,后续根据集团公司指导意见和发展情况另行考虑。

定义2 序列包含关系。设存在序列A={a1,a2,…,an},B={b1,b2,…,bm},如果存在整数1 ≤j1<j2<…jn≤jm,使得a1⊆bj1,,a2 ⊆bj2,…,an⊆bjn,则称序列A 为序列B 的子序列,也称序列B 包含A 序列,记为A ⊆B。

3)考虑到有些关联事件与罐内液体翻滚事件之间的延时非常短,可能在罐内液体翻滚事件后接着发生,若此时仅考虑推荐罐内液体翻滚事件的下一个事件对应的IoT服务很有可能因为没有捕捉到直接相连的关联事件而错过正确的推荐结果。因此令t=t2-t1,首先过滤P中与罐内液体翻滚事件之间延时小于t 的事件,并将与罐内液体翻滚事件之间时间间隔满足大于等于t 的第一个事件对应的IoT服务作为推荐结果放入到推荐结果集中并对结果集中的事件进行去重。

在传统的频繁序列模式挖掘中,通常假设事件之间的延时是固定的或者是可以忽略的,但在实际应用中,事件之间往往具有一定的延时约束。为了从IoT服务事件序列数据集中挖掘出带有延时约束的IoT 服务事件频繁关联模式,从而为业务流程的探索式构建推荐更为贴合当时情景的IoT 服务,实现业务流程的动态构造执行。

以业务流程检测到液体翻滚事件为例,根据IoT 服务事件频繁关联模式,在业务流程运行时即时推荐IoT服务步骤如下:

E 是IoT 服 务 事 件 节 点 的 有 限 集 合E={e1,e2,…,en}。

V 是有向边的有限集合,v=(e1,e2,w)。事件节点e1是有向边v 的源节点,表示事件e1与事件e2之间存在一条有向边v,事件节点e2是有向边e1的目标节点,表示事件e2在事件e1之后发生,w表示有向边v 的权值,即事件e2发生的时间戳减去事件e1发生的时间戳,即v的时间延时。p中,每条边v∊V表示一种事件之间时间延时关系。边的方向从e1指向e2,表示在e1之后发生事件e2。给定minsup 为用户设定的支持度阈值,若模式p 在序列数据集中出现的频率大于等于minsup,则称模式p 为带有延时属性的频繁关联模式。

(5)砼工程中砼标号分多种强度等级和不同的配合比,一般情况应该把砼配合比单独归纳到一章内,套定额时,再根据不同标号在本章节中查找换算。但考虑到系统内填写检修计划委托书的是设备点检员,定额编制组在编制砼浇筑子目时,直接将厂内常用的强度等级混凝土按照不同标号编制在砼浇筑子目内。这样,使用者就不用选定子目后再进行查找、换算操作了。

3.2 挖掘方法及应用场景

定义4 支持度。序列a 在序列数据集SDS 中出现的次数为序列a 在序列数据集SDS 中的支持度,记为supSDS(a),若上下文无歧义可以写作sup(a)。

在调查的航运服务企业中,有近54%的企业认为中美贸易战一旦发生,业务量将减少10%以内或减少10%~30%,仅37%企业认为中美贸易战对公司业务影响不大。可见,航运服务企业总体认为中美贸易战对航运相关服务业务会带来一定程度的影响。

本文结合CM-SPADE 算法,在CM-SPADE 算法基础上引入时间约束的概念,提出TCCM-SPADE 算法。首先将IoT 服务事件序列数据集S 中的事件做预处理,仅保留事件发生的时间戳与事件类型两个属性。将处理好的IoT服务事件序列数据集S与支持度阈值minSup作为算法的输入,然后扫描S 创建垂直数据库并生成频繁关联模式列表F1。遍历F1,将里面的两个模式合并得到新模式r,F1中的模式两两合并,接着先判断r 是i-extension 类型的扩展还是s-extension 类型的扩展,通过CMAP(i)或CMAP(s)来判断以模式r 为前缀的模式是否为非频繁模式,以i-extenstion 修剪为例(s-extension 修剪同理),若为前缀的模式r 是非频繁的,则将r 丢弃,避免了对r 的连接的处理。若以r 为前缀的模式是频繁的,保存该频繁模式然后计算该模式中相邻两事件之间的时间间隔,最终Res中保存所有的频繁关联模式及其事件之间的延时属性。这样就在扩展频繁模式的过程中,将频繁模式各项之间的时间延时属性也保存下来了,同时对于两个源事件发生才引起目标事件发生的频繁模式也都保存了下来。在完成所有的扩展后,可以方便地对具有相同频繁关联模式部分的关联模式计算平均时间间隔作为时间约束。

回路矩阵C的方向可以提前约定,其反映了裂隙段之间的关系,有以下性质:每一行中非零元素的个数等于该行代表的回路的维数。

IoT 服务事件频繁关联模式如图1 所示。其中每个节点代表一个IoT 服务事件,节点之间边的指向代表源节点与目标节点的关系,即当源节点发生后目标节点在∆t时间内发生。

没有一朵花会因为季节和环境而改变自己,它努力地绽放,只为遇见那个懂它、欣赏它的人。此时,我们站着,不说话,就十分美好。只有懂得,才能心领神会,无言才是最好的表达。

图1 IoT服务事件频繁关联模式图

4 基于事件频繁关联模式的IoT 服务推荐

为验证带有时间约束的频繁序列模式应用于IoT 服务推荐的效果,以LNG 安全物流案例为例,基于上文提出的TCCM-SPADE 算法探究频繁关联模式中的延时属性对于IoT服务推荐的影响。

4.1 业务流程场景案例

本文采用LNG 安全物流简化的原有业务流程案例,该业务流程是LNG 罐箱以海运方式从大连港运输到烟台港的物流作业,该过程中主要涉及到物流公司的海运运输作业部门和烟台海事处。在运输过程中,海运运输的作业部门对船舶运输作业的相关内容下达指示,监管职能部门收到来自海运运输部门传送的具体信息后进行相应的事件处理。LNG船舶运输业务流程图如图2所示。

图2 LNG船舶运输业务流程图

4.2 业务流程中的IoT服务推荐

定义5 带有延时属性的事件频繁关联模式。设带有延时属性的事件频繁关联模式p=(E,V),其中:

1)当正在运行的业务流程中的罐内液体监控服务检测到罐内液体翻滚事件时,记录当前时间为t1并遍历所有挖掘出的IoT 服务事件频繁关联模式,考虑所有包含该事件的频繁关联模式。

eventid是事件id,同时也是ε的唯一标识符;

2)将所有包含罐内液体翻滚事件的频繁关联模式放入到集合P中并记录当前时间为t2。

定义3 IoT 服务事件序列集。序列数据集SDS是一个由二元组组成的序列集合的,记为SDS={S1,S2…Si}其中Si是一个IoT 服务事件序列,Sid 是该序列的唯一标识符。如果a 是S 的一个子序列(a ⊆S),则称二元组包含序列a。

4)将推荐结果按照时间紧迫程度进行排序,排序后的IoT 服务集合为最终推荐结果,用户可根据推荐结果选择IoT 服务对业务流程的动态调整,实现业务流程的探索式构建。

IoT 服务推荐算法如下,其中算法输入R 为挖掘出的IoT 服务事件关联模式,IoTBusinessEvent为业务流程建模时预先构建的IoT服务所监测的业务事件。

(1)抑尘和防尘措施。在煤炭、矸石或其他干物料的贮、装、运、破碎、筛分过程中,采取产尘较少的工艺和设备,并采用适当的抑尘和防尘措施。如精煤贮存用圆筒仓代替精煤露天贮煤场;设置挡风抑尘墙,封闭转载点以及在原煤储煤厂安设喷水装置,严格控制喷水量。

5 实验分析

5.1 实验数据预处理

本文以真实的LNG 船舶运输航线为研究,航线数据来自于中国渤海区域构建的海洋航道网络数据,以及国家海洋科学数据中心海洋水文分类中国台站观测数据渤海区域2018年6月到2018年12月的真实气象数据。通过团队基于上述航道数据及气象数据对IoT 服务进行实验得到的565 例航行轨迹数据,并通过该航行轨迹数据对LNG 船舶运输过程中产生的IoT 服务事件进行模拟,将LNG 船的储罐温度和压力等数据映射为IoT传感器设备中的温度和压力数据;通过将LNG 船舶航行轨迹数据中的时间信息与其他传感器设备的数据相结合,可以生成更加完整的IoT 服务事件序列,基于以上模拟数据共得到500 条IoT 服务事件序列。去除对事件频繁关联模式挖掘无关的属性,仅保留IoT 服务事件的时间戳与事件类型,作为TCCM-SPADE算法的输入数据。IoT服务事件序列数据样例如表1 所示。如IoT 服务事件ε=(36,SP1,2018-11-21 4:45:00:00,S1),代表IoT 服务36 在2018 年11 月21日4:45:00产生了储罐内达补气压力事件(事件id:FSCAS1)。

表1 IoT服务事件序列数据样例

5.2 实验验证

本文以从海上LNG 运输过程中抽取的部分场景为例,根据上述船舶航行轨迹数据,创建了可运行的50 个LNG 船舶运输业务流程,并用于实验验证。本实验是在一台16GB i5-10400 CPU 2.90GHz PC 机上完成的,操作系统是Windows,所有算法均使用JDK 1.8.5在Java中实现。

实验主要分析基于SPADE 算法、CM-SPADE算法与TCCM-SPADE 算法所挖掘出的IoT 服务事件频繁关联模式应用于业务流程中IoT服务推荐过程中对于IoT服务推荐的数量以及准确率的影响。

实验通过对比观察业务流程中IoT服务节点捕获到IoT 服务事件时,SPADE 算法、CM-SPADE 算法与TCCM-CMSPADE 算法推荐出的IoT 服务数量及推荐结果的准确性。

首先,本文提出的推荐方法考虑了IoT 服务推荐过程中的延时属性,过滤掉了一部分不满足条件的IoT 服务,因此相比原算法,推荐的IoT 服务数量较少。而SPADE 算法与CM-SPADE算法没有考虑到IoT 服务推荐的延时性问题,因此在推荐IoT 服务时具有一定的盲目性。其次在业务流程捕获到IoT 服务事件时,使用SPADE 算法或CM-SPADE 算法作为推荐算法很可能因被捕获事件与其关联事件之间的时间间隔较短而推荐出监测已经发生事件对应的IoT 服务,从而错过后续关联事件的捕获导致准确率降低。本文所提出的方法考虑了IoT服务之间的延时关系,可以计算出具有相关延时性的IoT服务,提高推荐的准确率。

本研究以油料作物甘蓝型油菜为实验材料,选择其BR合成与信号转导过程中的一些重要基因,分析它们在甘蓝型油菜不同部位的组织表达特异性,并观察植株幼苗对BR及BR合成抑制剂BRZ的响应,阐明BR合成基因是否受到BR信号的反馈抑制。本研究进一步克隆了与拟南芥BR信号通路重要转录因子BZR1同源的甘蓝型油菜BnBZL2基因,并对该基因的功能及BR对BnBZL2的调控机制进行研究,比较甘蓝型油菜中BR信号及BR对其生长发育的调控与模式植物拟南芥的异同,以期为深入分析植物BR响应和信号调控机制研究奠定基础。

实验结果如图3 所示,随着业务流程数量的增多,使用本文所提出算法所推荐出的IoT 服务推数量要始终少于原算法,并且IoT 服务推荐准确率也要高于原算法,且随着业务流程数量的增多,本文所提出的IoT服务推荐方法准确率逐渐趋于稳定。

图3 IoT服务推荐数量与准确率

6 结语

本文重点讨论了从IoT服务事件序列中挖掘出IoT 服务事件频繁关联模式应用于业务流程中IoT服务推荐的研究。根据业务流程的探索式构建的特点,为挖掘出IoT 服务事件频繁关联模式中事件之间的时间关联属性,提高IoT 服务推荐的准确率提出了一种基于CM-SPADE 算法改进的算法—TCCM-SPADE 算法,该算法可以发现事件之间的延时属性,从而挖掘出带有延时属性的IoT 服务事件频繁关联模式。利用该频繁关联模式的延时属性,在业务流程执行时,可以降低IoT服务推荐的冗余度,提高IoT服务推荐的准确度,在此基础上优化业务流程探索式构建中的IoT服务推荐问题。本文通过采用模拟数据集对算法进行试验评估,将TCCM-SPADE 算法与CM-SPADE 算法进行对比,验证了本文方法的有效性和实用性。

挖掘IoT服务事件频繁关联模式延时属性具有广泛的潜在应用,比如通过分析事件之间的时间属性,可以发现设备故障的模式和趋势,进而进行故障预测和维护;通过分析事件之间的时间属性,可以了解设备、传感器或资源之间的时间关系,从而优化资源的调度和利用;通过分析事件之间的时间属性,可以了解用户的行为模式和习惯等。然而本文存在一定的缺陷,如忽略了业务流程上下文信息对于IoT 服务推荐准确率的影响的问题,这也将是未来工作努力的方向。

猜你喜欢

挖掘出业务流程延时
RPA机器人助业务流程智能化
基于级联步进延时的顺序等效采样方法及实现
从唱片里面挖掘出更多的细节 Thorens多能士| TD 905黑胶唱盘
STK业务流程优化的探究
企业财务管理、业务流程管理中整合ERP之探索
三次实地采访,挖掘出暖新闻背后的超暖细节
感悟生活,拓展思维空间
基于财务业务流程再造的ERP信息系统构建探析
Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
桑塔纳车发动机延时熄火