基于行为校验与偏差组合的过程模型修复
2021-10-11张力雯方贤文邵叱风王丽丽
张力雯,方贤文+,邵叱风,王丽丽,2
(1.安徽理工大学 数学与大数据学院,安徽 淮南 232001;2.同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804)
0 引言
(1)研究背景
过程挖掘技术是从信息系统所记录的事件日志中提取知识发现过程模型,并通过提供技术和工具对其实现性能上的改善[1]。过程挖掘技术主要从过程发现、服从性校验和过程完善[2]3个方面对业务流程进行分析,其中过程发现及服从性校验最为重要[3]。模型修复是介于过程发现与服从性校验之间的一种过程挖掘的新类型,主要考虑使得事件日志无法回放于过程模型的部分行为,并使修复后的过程模型尽可能与初始模型相似[4]。模型修复适用于一致性校验、演变过程监测、定制化需求3种情况,本文主要根据一致性校验检测到的无法回放行为对业务流程进行修复[5]。一致性校验可以被应用于不同的设置中,主要包括合规性审计、模型维护以及自动化的过程发现。合规性审计只可以检测出事件日志无法回放于过程模型的行为,即不适合行为[6];模型维护是检测所有偏差行为的设置,既可以诊断事件日志无法回放于模型的行为也可以发现模型中所特有的行为,即不适合行为与额外行为[7];自动化的过程发现是根据一致性校验的输出结果对过程模型进行调整,通过移除日志中没有记录但模型中可以捕获的行为或者添加仅日志中可观测的行为来实现对初始模型的自动化调整。本文通过并发关系、序列关系、冲突关系划分事件日志与过程模型的可达活动图表,并基于行为关系的一致性校验识别它们之间可回放与不可回放的行为模式。
模型修复主要针对事件日志无法回放于过程模型上的不适合行为进行处理,当前技术采用自循环插入/跳过的方式优先考虑适合度的改善[8-9]。对齐事件日志与过程模型,并检测到它们之间尽可能少的偏差元素,更有利于对适合度的分析[10]。通过最优对齐检测偏差成本,并将多个经典问题的解决方案转换为搜索修复建议的方法,即基于偏差成本与修复资源间的单调性在适合度与计算量之间进行权衡[11]。根据一致性校验的四个性能参数从不同角度介绍过程模型的修复方法,并将满足并发关系的两个直接跟随偏差组合为子结构[12]。这种方法能够在保证适合度的前提下,对精度起到一定的改善。但其没有定义对应的偏差检测方法,因此无法适用于各种不同的情况。由于当前技术往往需要牺牲一定的精度来换取适合度的提升,容易出现欠拟合的情况[13-14]。产生上述问题的原因主要是修复工作只基于偏差的成本和位置信息来进行,而不考虑它们之间的行为关系。本文是对之前研究工作的延伸,其将所有满足特定行为关系的直接跟随偏差构建为子结构。由于拟合度直接反映事件日志是否完整地回放于过程模型,需要在保证拟合度的前提下尽可能提高精度的值。
(2)相关工作
本文所提方法与以下两个方面的技术有着紧密联系:①业务流程的服从性校验;②插入自循环结构的简单模型修复[15]。
根据偏差类型的不同将当前服从性校验方法分为两类:①基于事件日志与过程模型之间的最优对齐检测偏差的发生次数与位置;②基于事件日志与过程模型之间行为关系发现不匹配行为模式。第①类校验方法利用启发式算法与迹回放来获取有效的最优对齐[16],并将其中所有同步移动与非同步移动的成本分别设置为“0”、“1” (含有不可视变迁r的非同步移动成本为“0”);第②类校验方法则是通过构建事件日志与过程模型的事件结构产生它们之间的部分同步化产品,再将所有事件的执行配置集展开发现偏差元素及其潜在的行为关系。通过介绍9种不匹配模式下可能产生的偏差,分别从不同角度对不匹配模式中的隐操作进行分析[17]。本文将这两种一致性校验方法相结合,首先基于行为关系识别事件日志与过程模型相对应的行为模式(包括可回放的行为模式与不可回放的行为模式),并利用由此产生的最优对齐检测出修复操作所需要的偏差完整信息[18]。这种完整信息不仅包含偏差的发生和位置,还包括不可回放模式中直接跟随偏差之间的行为关系。
模型修复技术旨在使修复后的过程模型能够回放事件日志,并尽可能保存初始模型中的行为。使用最小成本完成最大可能的修复以及使用手动修复尽可能减少模型上冗余的行为,仅考虑拟合度的改善而忽视精度[19-20]。定义后的扩展对齐被添加到模型上的可达标识,且过程模型上的偏差能够被核算和修复[21]。模型的修复位置通过逻辑Petri网和选择结构之间的转换关系确定[22]。尽管上述两种方法能够综合考虑模型修复的各种度量标准,但只适用于有选择结构的过程模型。根据6种不同算法在特定的约束条件下获得修复建议,旨在权衡适合度与修复效率之间的最优性[11]。由于这种修复方法仅根据修复建议对每个偏差元素进行插入/跳过操作,因此会以牺牲精度为代价换取适合度的改善。基于并发行为关系构建子结构可以使精度略有提升,但仍然存在一定的局限性[12]。本文将偏差的发生、位置以及直接跟随偏差活动之间的行为关系作为模型修复的输入信息,并将若干个具有特定行为关系的直接跟随偏差构建为一个子结构。因此,可通过减少事件日志中无法被准确修复的偏差数量来提升精度值。
1 基本定义
定义 2标签Petri网系统。 设定一个元组N*=(P,T,F,,λ,Mi)为标签工作流网系统,其中P表示库所集,p表示网系统中的库所,∀p∈P;T是变迁集,t是网系统中的变迁,∀t∈T;F是连接所有直接跟随库所与变迁之间的流关系,F⊆(P×T)(T×P);为标签WF-net系统上所有活动的标签集,=Z∪{τ};λ是指定函数,将所有变迁指定为相应活动的标签或τ:T←Z∪{τ},∀λ(t)∈Z∪{τ};Mi是网系统N*中的初始标识,Mi(p)≥1。
表1 单位移动的成本
定义 4不可回放的行为模式。模型修复针对事件日志无法回放于过程模型的非一致行为进行处理,根据两个相对应模式之间行为关系的差异可将它们合并为一个不可回放的行为模式,记作:BL/N*=(B(L/N*)(+,,×),BL/N*⊆,Bl(e),Bλ(t),B┘)。其中:B(L/N*)(+,,×)是由并发、冲突、因果中任意两个行为关系所产生的不可回放行为模式;BL/N*⊆表示由行为包含所产生的不可回放行为模式,根据行为包含的严格性等级不同,可以将行为包含模式分为以下两种类型:①行为模式的整体包含;②行为模式的部分包含。前者是将一个完整的不可回放模式看作子结构进行修复,而后者仅考虑片段中的部分包含行为。根据行为关系的不同可将行为包含模式分为以下3种类型:①并发关系的行为包含,包括整体包含与部分包含(并发/因果模式属于并发结构中的部分行为包含,反之则无需进行修复),记作BL/N*⊆+、BL⊆·+(B+/);②因果关系的行为包含,这种情况只涉及整体包含,记作BL/N*⊆;③冲突关系的行为包含,包括整体包含与部分包含,分别记作BL/N*⊆×、BL⊆·×。这里的部分包含主要指事件日志包含过程模型的行为,反之则无需进行修复。例如:过程模型的行为模式中只有一个活动λ(t),而事件日志与之相对应的行为模式中有两个满足冲突关系的活动BL×(l(e),l(e′)),其中l(e)=λ(t)。这两个模式可以合并为一个冲突关系的部分行为包含模式:BL⊆·×(BN*(λ(t),BL×(l(e),l(e′)))。Bl(e)表示事件日志中可观测但过程模型中无法捕获的单个活动;Bλ(t)表示过程模型中使得事件日志无法回放的单个活动。判定事件日志与过程模型之间的两个活动匹配需同时满足标签与发生位置一致。
2 检测偏差的完整信息
事件日志与过程模型在实际运行中可能存在一些不被期望的差异,而其中对日志无法回放行为的处理则是模型修复需要解决的问题。本章通过划分事件日志与过程模型的可达活动图表获得它们之间相对应的行为模式,并由此产生最优对齐来检测偏差的完整信息[23]。
2.1 划分可达活动图表
可达活动图表的划分是在精炼过程树的基础上作的改进,采用从整体到部分层层递进的搜索方法寻找事件日志与过程模型之间相对应的片段[24-25]。根据给定约束条件在回放过程中所划分的可达活动图表可以获得事件日志与过程模型之间所有满足活动最短距离的可回放片段与不可回放片段(相同活动的距离为“0”,反之则为“1”)[26]。
(2)entry(seq/conc/conf)(seq/conc/conf)exit(seq/conc/conf);
(3)|entry(seq/conc/conf)|=|exit(seq/conc/conf)|;
(6)pre(seq)>pre(conc,conf)。
根据划分后的可达活动图表可获得事件日志L与初始网系统N*之间满足活动最短距离的对应片段,并记录于表2。
表2 L与N*的片段
其中灰色阴影部分表示4对不可回放的片段,且第一组片段中包含若干个子片段。
2.2 确定偏差的发生、位置以及行为关系
最优对齐是指事件日志与过程模型之间拥有最低成本的对齐,即cost(ξop)≤cost(ξ),且∀ξ∈ξ*,∃ξop∈ξ*。为了更清楚地阐述如何构建偏差子结构,首先将图1中划分的所有对应片段转换为行为模式。并记录于表3。
表3 L与N*的行为模式
通过行为关系的一致性校验,可回放的行为模式被直接合并为两个对应模式之间的一致行为,表4中不可回放的行为模式根据定义4中的规定以及相应模式之间的差异行为进行合并。
表4 L和N*之间的可回放与不可回放行为模式
由此可获得事件日志与过程模型之间的两组最优对齐ξop1并记录于表5。
表5 最优对齐
表中背景颜色用来区分不同行为模式所产生的偏差,由于B⊆·×(BN*(C)/BL×(CBL⊆(DE)))可拆分为Bλ(t)(C)和BL⊆(DE),将最优对齐检测出的偏差分为以下五组:{EsertC}、{EsertD/EsertE}、{EsertI,EsertJ}、{EsertK}、{EsertL,EsertM}、{SkipN}。根据偏差种类的不同,使用以下两种方法分别确定它们的修复位置:①插入偏差的位置是由最优对齐中产生该偏差的非同步移动前最后一个同步移动中的变迁在网系统N*上的后置库所来确定的,记作loc(Esertl(e))=(σ(a′))·,λ((σ(a′)·)·)=a;②跳过偏差是将网系统N*上移动变迁的前置库所和后置库所分别作为隐变迁τ的起始点和终止点,记作loc(Skipλ(t))=·(σ(a))∪(σ(a))·(σ是映射函数,将活动标签转换为网系统N*上的变迁)。根据不可回放行为模式的划分,可从上述最优对齐ξop中检测到3组直接跟随的偏差:并基于它们所对应的不可回放行为模式判定每组偏差元素之间的行为关系分别为:序列、序列、并发。
通过确定可回放与不可回放的行为模式产生最优对齐,且依靠行为关系的一致性校验检测偏差元素的完整信息。由于事件日志与过程模型之间所有可回放的行为模式无需比较,仅搜索不可回放行为模式的最优对齐。由于偏差的完整信息被看作是模型修复的输入信息,这种方法能够减少最优对齐搜索的工作量且不影响模型修复的效率。
3 关于事件日志对过程模型所做的修复
本章介绍一种方法,该方法基于行为关系将事件日志与过程模型之间的直接跟随偏差构建为子结构,从而通过减少单次发生的插入偏差个数来提升精度。根据各种不可回放行为模式所产生的不同偏差行为,可对其修复进行具体的分析。
3.1 基于偏差子结构的修复操作
通过构建直接跟随偏差的子结构过程模型上的修复主要依赖于并发、序列、冲突3种行为关系。由于具有排他性的偏差元素之间不存在直接跟随关系,可以将冲突结构中每条分支上的偏差元素根据并发或序列关系构建为子结构,并分别以自循环的方式插入过程模型中合适的位置。各种不可回放行为模式中直接跟随偏差所组合的子结构类型可被概括为以下两种:Nsl-E(l(e),l(e′))/NS(λ(t),λ(t)),Nsl-E(l(e),l(e′))+/NS(λ(t),λ(t′))+。图2a和图2b描述了上述两种子结构的具体操作,它们都是以自循环的方式插入到网系统N*中的。在实际修复过程中,如果一个不可回放行为模式中包含若干个子模式,则可能导致直接跟随偏差的并发子结构嵌套在序列子结构中或者序列子结构嵌套于并发子结构中。如图2c和图2d所示,使用2.2节所介绍的方法对偏差完整信息进行检测,并将这两种特殊的偏差子结构记作:Nsl-E((l(e),l(e′))+,l(e″))/NS((λ(t),λ(t′))+,λ(t″)),Nsl-E((l(e),l(e′)),l(e″))+/NS((λ(t),λ(t′)),λ(t″))+。值得注意的,当一个不可回放行为模式中包含的偏差或者子结构都来自于过程模型时,即只会通过跳过偏差行为对该模式进行修复,则修复后过程模型与事件日志之间的适合度能够得到改善但对精度的提升没有影响,如:B(×/+)/(×/),BN*⊆(+,,×),Bλ(t)。因此,由跳过偏差组成的子结构不能对精度的提升产生帮助。
图2中的方法可以将若干个偏差活动构建为一个子结构,从而将所有直接跟随的偏差活动看作1个。事件日志与过程模型之间拟合度的度量公式为
其中:Ccost表示业务流程中的所有偏差成本,|L|+|ML|为事件日志的尺寸以及与它进行最优对齐的模型尺寸。本文方法以保证适合度为前提,因此统一使用自循环插入方式修复日志中的可观测偏差。事件日志与过程模型之间精度的度量公式为
其中Ecost是指插入偏差的总成本。准确修复表示偏差活动在过程模型与事件日志中发生的形式完全一致,而使用自循环方式修复后每个单次插入偏差的回放准确度为1/∞=0。因此,自循环插入方式只能修复迭代的插入偏差。将所有直接跟随的单次发生偏差根据特定的行为关系构建为子结构,则可以通过减少事件日志的尺寸提升精度。例如,直接跟随的n个单次发生偏差成本为Ecost′,将它们构建为一个子结构后精度为
值得注意的是,这种构建子结构的方式仅针对单次发生的插入偏差,而不适用于由日志中自循环产生的迭代插入偏差。迭代插入偏差需要使用自循环的方式单个插入过程模型,以确保正常的回放。
3.2 各种不可回放行为模式的修复
因为本节所提方法的修复目的是为了有效改善事件日志与过程模型之间的精度,所以主要介绍如何修复包含插入偏差的不可回放模式,即并发/因果模式并发/冲突模式。因果/冲突模式,以及事件日志的行为包含模式。
3.2.1 行为轮廓所产生差异的修复
行为轮廓主要指因果、并发、序列3种行为关系,本节对其中任意两种行为之间产生的差异进行修复。并发/因果模式是并发关系中的部分行为包含模式,它与并发/冲突模式分别表示事件日志与过程模型相对应模式中活动之间的行为关系为并发与因果或者并发与冲突。由于并发模式中活动发生顺序的任意性,对并发/因果模式和并发/冲突模式进行修复首先需要通过最优对齐检测出偏差的完整信息,并将具有直接跟随关系的偏差元素构建为子结构。因果/冲突模式是指两个相对应模式中活动之间的行为关系分别为因果和冲突,它们所产生的偏差行为在冲突模式中包含活动个数最小的一条分支上。对该模式进行修复可将这条分支上所有偏差元素构建为序列子结构。假设图3中初始网系统N*与事件日志L之间的对应行为模式记录于表6。
表6 可回放与不可回放行为模式
根据最优对齐检测出的偏差完整信息,图3中采用构建子结构的方式对上述3种不可回放的行为模式进行修复:①红色虚线部分是对插入偏差进行的修复,图3中分别用蓝色填充和橘色填充的库所来标注每个插入偏差/偏差子结构在过程模型上的位置以及子结构中的连接库所;②紫色虚线部分是对跳过偏差的修复,其中绿色填充的库所用来表示插入偏差与跳过偏差的共同位置。修复并发/因果模式中产生的直接跟随跳过偏差{D,E}不会对精度造成影响,这里根据行为关系将它们构建为子结构只能在一定程度上降低修复后过程模型的复杂度[27]。如图3所示,并发/因果模式与并发/冲突模式产生的差异既包括单个偏差活动也包括偏差子结构,而因果/冲突模式的差异则只有序列子结构。由于同一个位置的相同偏差重复出现多次成本仍然为1,因此从提升精度的角度考虑,可将Esert(l(e))∪{Esert(l(e)),Esert(l(e′))}={Esert(l(e)),Esert(l(e′))}看作是Esert(l(e))∪NE(l(e),l(e′))。图3基于三组直接跟随偏差之间的序列关系构建偏差子结构进行修复,即:Nsl-E(D,E)、Nsl-E(F,G)、Nsl-E(M,N)。
3.2.2 行为包含模式的修复
事件日志的行为包含模式是指在当前模式中过程模型可以捕获的行为都被记录于事件日志中,但事件日志中可观测的行为则不能完全在过程模型中被捕获[28]。根据定义4中行为包含模式的各种类型,假设图4中初始网系统N*与事件日志L之间的对应行为模式被记录于表7。
表7 可回放与不可回放行为模式
根据最优对齐检测出的偏差完整信息,图4使用红色虚线和紫色虚线分别描述了对插入偏差和跳过偏差的修复。BL⊆·×(BN*(B)BL×(BBL⊆(CD))) 的修复可被看作是Bλ(t)(B)和BL⊆(CD)两个模式,它所产生的偏差分别为:Skip(B),{Esert(C),Esert(D)}两部分。其他3个事件日志的整体行为包含模式中只包含插入偏差,且它们的修复操作是根据当前模式中包含的所有偏差及偏差之间的行为关系所构建的。因此,图4根据4组直接跟随偏差之间的行为关系构建偏差子结构对过程模型进行修复,即Nsl-E(C,D),Nsl-E(G,H)+,Nsl-E(J,K),Nsl-E(L,M,N)。这里,偏差{J,K}是整体冲突行为包含模式中一条分支上的活动,它与另一条分支上的偏差活动{I}之间具有排他性,因此将{J,K}与{I}分别插入过程模型的同一个位置。
算法1描述了各种不适合行为模式的修复操作,首先将空集赋予修复操作的集合Ro,然后主要对以下2部分进行分析:
(1)行为轮廓所产生差异的修复操作主要分为以下3种情况:①并发/因果模式。当该模式中的活动总数不超过3时,修复操作插入并且跳过后一个活动;反之,其操作是插入并且跳过后半条分支上所有活动的子结构(第5~第7行)。②并发/冲突模式,这种模式的修复操作类似于并发/因果,但它没有跳过偏差,且插入的活动或者子结构来自于两条分支中的任意一条(第8-10行)。③因果/冲突模式。该模式的修复操作仅将包含活动个数少的一条分支上的偏差行为插入过程模型,其可能是单个活动或者子结构(第11~第13行)。
(2)因果、冲突、并发关系所产生的整体行为包含模式的修复操作,以及冲突模式中部分行为包含的修复操作。整体行为包含可根据偏差之间的行为关系构建该模式中所有偏差元素的子结构(第14~第16行)。事件日志的冲突行为部分包含模式需要分别插入和跳过它与过程模型之间不相交以及相交行为中的单个活动或者直接跟随偏差的子结构(第17~19行)。
算法 1基于偏差于结构的修复操作。
输出: RO。
1: RO←∅
2: for each ei∈L do
3: for each tj∈T do
4: for each ak∈∪do
5: if l(ei)=λ(tj)=ak∧BL+((a1,a2)/((a1,…,an),(an+1,…,an+m)L))∧BN*((a1,a2)/(a1,…,an),(an+1,…,an+m)L)) then
6: RO←(SEsert(a1)∪Skip(a1))/(Nsl-E(an+1,…,an+m)∪SEsert(an+1,…,an+m)∪NS(an+1,…,an+m))
7: end
8: if l(ei)=λ(tj)=ak∧BL+/×((a1,a2)/((a1,…,an),(an+1,…,an+m)))∧BN*×/+((a1,a2)/((an+1,…,an+m))) then
9: RO←(SEsert(a1,a2))/(Nsl-E(a1,…,an)/(an+1,…,an+m)∪SEsert(a1,…,an,an+1,…,an+m)))/((skip(a1)∪skip(a2))/Ns(a1,…,an)/(an+1,…,an+m))
10: end
11: if l(ei)=λ(tj)=ak∧ B((a1,a2)/((a1,…,an),((an+1,…,an+m))) ∧BN*×/((a1,a2)/((a1,…,an),(an+1,…,an+m))) then
12: RO←(SEsert(a1/a2)/Nsl-E((a1,…,an)/(an+1,…,an+m)))/(skip(a1/a2)/NS((a1,…,an)/(an+1,…,an+m)))
13: end
14: if l(ei)=λ(tj)=ak∧B((a1,a2)/((a1,…,an),(an+1,…,an+m)))∈R(L/N*) then
15: RO←Nsl-E((a1,a2)/((a1,…,an),(an+1,…an+m)))+//×/
Ns((a1,a2)/((a1,…,an),(an+1,…,an+m)))+//×
16: end
18: R0←(SEsert(a2)∪Skip(a1))/(Nsl-E(an+1,…,an+m)∪NS(a1,…an))
19: end
20: end
21: end
22: end
23: return RO
4 评估
本章记录了本文方法与当前两种方法之间修复性能的比较结果[13]。本文方法在实验中主要根据行为关系将直接跟随偏差元素构建为子结构,并使用自循环插入的方式进行修复。
4.1 实验设置
4.1.1 工具集
当前,模型修复可以使用Prom框架进行验证,但其原始代码并没有提供本文方法中的改进部分。为保证实验结果的公平性,本文在此基础上使用Java语言编写了插件M-repair,其可以根据不同方法的性能分别校验修复后数据集的适合度与精度。实验使用Java语言编写类似于CPN Tools功能的插件PSLG,其利用活动的随机触发性自动生成常见格式或xes格式的事件日志。
4.1.2 数据集
实验使用4个数据集进行评估,它们分别来自人造业务流程和真实业务流程。因为每个业务流程中都包含一个无循环结构的数据集和一个有循环结构的数据集,所以分别记作:Da,Dla,Dr,Dlr,其中真实业务流程来自于中国一家人寿保险公司的投保流程。通过模拟4个业务流程的发生实例分别获得与它们一致的4个序列集δ*,并将数据集中存在的不可回放片段化分为以下3种:①并发因果冲突行为以及单个活动插入/跳过产生的不一致行为;②行为包含产生的不一致行为;③循环路径产生的不行为。为了指导实验的正常进行可根据上述3种情况下的不适合行为模式对发生序列进行更改,产生与业务流程不一致的执行序列集σ*,每个执行序列集与其对应的发生序列集组成一个数据集。根据执行序列集σ*中包含的所有活动及其之间的行为构建过程模型,并使用PSLG插件将其自动生成为事件日志。因为PSLG插件所生成的事件日志包含500多条不同案例的迹,所以选择可以反映所有活动及其之间行为关系的10条不同案例的迹,并在每条迹的发生次数之上模拟20次。4个数据集中的事件日志包含200~360条迹,且它们的尺寸分别为L*={5 920,5 860,6 160,8 880}。
4.2 适合度确定为1的实验评估
为保证适合度在修复后始终能够达到1,本节使用的现存修复方式与所提方法都是以自循环的方式修复插入偏差。两种方法在适合度与精度上的度量可参照表8中记录的公式,且它们之间精度的差异来自于构建偏差子结构对日志尺寸的减少。
表8 修复性能的度量公式
4.2.1 在含有迭代插入偏差数据集上的评估
图5a和图5b中分别描述了来自真实业务流程数据集的精度值比较,其中非循环部分都存在差异。图5a中的数据集没有来自于循环部分的差异,两种方法在精度上的提升仅依靠于对迭代可观测偏差的准确修复(迭代可观测偏差产生于事件日志中的自循环路径)。图5b的数据集中事件日志的一个模式有循环路径,而过程模型中与之相对应的模式则没有。由于该循环部分的不可回放模式同时由它们的非循环部分和返回路径所产生,它们统一按照非循环部分的方法进行修复。由此可知,两种方法在循环部分与非循环部分上就精度改善而言的差异是一样的。图5c和图5d中分别描述了来自人造业务流程数据集的精度值比较,其中非循环部分都存在差异。图5c只在非循环部分产生差异,因此两种方法对精度的改善与图5a一样。图5d的数据集中事件日志的一个模式有循环路径。由于该循环部分的不可回放模式仅由事件日志中包含的循环路径所产生,返回路径上没有活动,使用本文所提出的方法和现存方法都可以准确地修复由它产生的偏差。从图中4组数据可以看出,相较于现存方法而言,本文方法可以在保证适合度的基础上平均提升精度约13%,其中P与M-p分别表示现存方法与本文方法所产生的精度值。
4.2.2 在不含有迭代插入偏差数据集上的评估
图6中的4个数据集是在图5所使用的数据集基础上进行的改进,即其中4个事件日志都不包含迭代可观测偏差。由于仅使用自循环方式插入可观测偏差无法提升精度,现存方法在图6a~图6c中都始终保持初始的值。图6d中现存方法的精度值增长依赖于循环所引起的重复活动。本文方法在图6a~图6c中的精度增长点都依赖于将该模式中直接跟随插入偏差构建为子结构的修复,而图6d中的精度增长还有循环所产生偏差的修复。
5 结束语
本文提出一种新的有效方法来修复事件日志无法回放于过程模型的行为,该方法主要解决了当前模型修复方法在精度问题上的局限性。首先,在给定约束条件下划分事件日志与过程模型的可达活动图表,并由此产生它们之间的对应行为模式;然后,通过行为关系的一致性校验将对应行为模式合并为可回放与不可回放的模式并产生最优对齐。根据这种最优对齐所检测出的偏差行为关系将所有直接跟随的偏差元素构建为子结构;最终,采用自循环插入/跳过式的方法对偏差元素/偏差子结构进行修复。本文所提方法能够通过减少日志所产生的插入偏差,实现在保证适合度的前提下尽可能的提升精度。
本文方法是针对静态过程模型进行的实时修复,并没有考虑当需求与环境不断变化时过程模型在实际运行中可能产生的额外行为。未来工作将分析这种修复方式如何解决动态过程模型与事件日志之间的修复问题。