基于过程挖掘的未来感知预测模型

2015-06-01刘利钊汪建均顾晓光

系统工程与电子技术 2015年4期

关键词：位次邻接矩阵日志

刘健，刘利钊，汪建均，顾晓光

（1．南京理工大学经济管理学院，江苏南京210094；2．厦门理工学院计算机与信息工程学院，福建厦门361024）

基于过程挖掘的未来感知预测模型

刘健1，刘利钊2，汪建均1，顾晓光1

（1．南京理工大学经济管理学院，江苏南京210094；2．厦门理工学院计算机与信息工程学院，福建厦门361024）

将事件日志中蕴含的过程模型看成两紧邻活动的组合，提出两种新的过程模型。首先，利用日志信息中的活动紧邻关系构造邻接矩阵提取过程模型，该模型中每个活动仅发生一次；其次，为避免过程模型中出现回路或者环路而造成模型预测精度降低的情况发生，在构造的邻接矩阵中增加活动在事件日志中所处的顺序位次，构造含有活动位次信息的邻接矩阵，以此为基础上进一步提取过程模型，该模型中每个活动在同一个位次上仅发生一次；再次，通过矩阵中的信息可获得过程模型中每个上层节点到各个下层节点的路径与相应概率；接下来，根据事件日志中信息的类型和特征，利用过程模型对决策者所需要的信息（如活动名称、等待时间、发生概率）进行预测；最后，利用随机数据与实际数据同基于序列提取规则的过程模型预测结果进行比较，验证所提模型的实际有效性。

邻接矩阵；过程挖掘；预测；商业智能

0 引言

随着信息技术的发展和信息时代的到来，越来越多的数据信息被记录在相应的数据信息系统中，这些被记录下来的数据信息以事件日志的形式进行保存［1］，同时这些记录下来的数据信息蕴含着相关企业的生产制造或商业交易操作过程。企业如何利用这些数据信息，提取有重要价值的操作过程模型，通过模型发现现有过程的不足之处并进行改进，具有非常重要的意义。那么如何从这些以事件日志形式记录的信息数据中提取出对自己有价值的信息，已经引起越来越多企业经营者和管理者的兴趣［2］。伴随着这种需求的出现，过程挖掘这种新的过程模型挖掘技术应运而生并得到迅速发展［3-5］，过程挖掘［612］的目的是利用这些记录在信息系统中的事件日志信息提取蕴含其中的过程模型。利用过程挖掘技术通过某个企业记录在信息系统中的数据信息，能够发现企业的日常采购或销售的详细过程模型，从而管理者根据采购和销售模型建立一套相应的库存管理预测系统，根据该预测系统实现该企业库存管理的智能化控制。

随着大数据时代的到来，第一，越来越多的事件通过信息系统记录下其详细的历史过程；第二，业务流程管理与商业智能软件已经引起专家学者、软件开发者和企业管理者的关注。这些都驱动着过程挖掘这种新技术的进一步发展。

过程挖掘［3-9］自20世纪90年代开始萌芽，目前已经成为一个重要的研究领域，它可以弥补现有数据挖掘中存在的一些不足之处［13］。相比数据挖掘其优势主要表现为：①能让管理者更好地理解某产品的生产制造过程或某个商业事件的交易过程；②发现并确定实际生产制造或交易过程同理想化生产制造或交易过程之间的不同之处，从而对实际过程进行检查、调整、修改或重新设计；③对生产过程中某个活动的运行时间进行跟踪和查询；④检查和改善现有的生产制造或商业交易过程，发现机会，增加产品的产量或完善交易过程［1415］。例如：在日常医疗保健方面，基于记录在某医院信息体统中的数据信息提取该事件的常规操作流程，从而对患者目前接受的治疗过程进行异常识别，避免可能发生的不当治疗［1617］。

在日常的商业操作流程和企业生产加工制造中，根据记录在信息系统中的数据信息提取过程模型，能够对将来可能发生的活动或该活动发生的时间和概率等进行预测。通过服务推荐模型［18］，可以预测接下来最可能发生的活动，利用该模型可进行活动预测但不能对活动发生的时间和概率进行预测。通过循环时间预测方法［19］，基于非参数回归技术可以预测某个事件活动发生后到整个过程结束的时间，根据回归分析还可以预测某个活动接下来的发生概率。注解转移系统过程模型［1］，基于集合和序列算法能够预测从过程开始到其中任意活动所需时间和从任意活动到整个过程结束所需时间以及过程模型中任意两个相邻活动之间的时间间隔（interval time，IT）；该算法能够解决循环时间预测方法中存在的不足。荷兰埃因霍芬理工大学开发的过程挖掘（process mining，PROM）工具箱［20］中还包含多种进行提取过程模型的方法，如：启发式算法［8］，区域挖掘算法［9］，字母系列［21］，Petri网［22］和遗传算法［23］等。

本文创新之处：将蕴含在事件日志中的过程模型看成两个紧邻活动之间的组合，通过这种紧邻关系的组合构造邻接矩阵，进一步提取过程模型。通过邻接矩阵中包含的信息构建过程模型并计算每个上层节点到下层节点可能存在的路径、间隔时间和条件概率。本文基于邻接矩阵提取过程模型（process model based on adjacency matrix abstraction，PMAM）并利用模型进行预测，该方法与现有方法的原理不同，基于PMAM提取的过程模型法不仅可以预测接下来最有可能发生的活动，并预测当某个活动发生后接下来所有可能发生的活动，还可以同时预测达到各个活动的概率及到达时间。本文通过PMAM，针对不同案例可对邻接矩阵中的信息进行增加，通过提取的过程模型获得决策者所需要的特征，此时仅需要在过程模型中添加所需要的特征信息即可。本文利用频率信息预测接下来所有可能发生的活动概率，采用平均值作为时间预测函数［1］预测到达该活动的时间。

本文总体结构如下：首先，对信息系统中的事件日志进行简要概括，其次，基于随机数据对本文提出的邻接矩阵和位次邻接矩阵的构成过程进行详细分析并阐述其相应过程模型的提取算法和步骤；再次，利用两个随机数据案例对PMAM与现有的过程模型预测结果进行比较并分析预测结果的优劣；然后，利用一个真实数据案例对PMAM与基于序列提取规则过程模型（process model base on sequence abstraction，PMS）预测结果再次进行比较分析；最后，对本文所做工作进行总结及展望。

1 事件日志

目前在人力资源管理系统、企业生产与销售管理系统、金融证券交易系统等信息系统中都存储了大量的事件日志信息，这些日志信息都为学术的研究提供了有力的数据支撑。在学术领域，针对商业交易或工业生产中的过程模型都是假设每个事件是相互独立的，也就是说每个事件对应一个执行活动且活动之间相互独立。从信息系统角度来看，过程模型包含了业务流程全部针对执行活动的相关记录。在信息系统中记录的事件日志包含着活动的开始时间、完成时间、费用和参与人员等相关信息。

表1是一个关于航空航天与国防领域某航空公司对所研发关键零部件申请号为“B64654871”的专利申请过程［23］的事件日志信息（部分）。该事件日志中包含4个方面的信息：活动名称、完成时间、人员和费用。根据其中的活动信息，在该过程中共有5个活动发生，第一个发生的活动是“register request”，该活动完成时间是“20- 10- 2013，10：00”；第二个发生的活动是“examine casually”，该活动完成时间是“21- 10- 2013，11：00”；第五个发生的活动（最后活动）是“accept request”相应的完成时间是“07- 11- 2013，17：30”。

表1 Excel格式事件日志（该图反映了该航空公司对所研发关键零部件的专利申请过程）

数据管理系统中记录的事件日志一般有XES、XML、Word和Excel等格式。表1的事件日志信息是一个用Excel格式表示的针对专利号为A14658432的申请活动流程。通过观察可以发现该案例中的过程是由一系列相互联系活动组合，如：“register request-examine casually”，“examine casually-check ticket”，“check ticket-Decide”和“Decide-accept request”，根据该组合过程可提取出该航空公司对所研究关键零部件专利号为A14658432的过程模型。根据过程模型，管理者可以预测接下来将要发生什么活动，从而对活动进行预测。例如：当活动“Decide”发生后，接下来活动“accept request”可能会发生。在此基础之上，利用事件日志中活动对应的时间，计算任意两相邻活动之间的时间间隔。如：在上述日志信息中可知，当活动“Decide”完成后，距离活动“accept request”完成还需要74小时10分钟的时间。

2 事件日志中邻接矩阵生成

事件日志中，不同路径中两相同紧邻活动之间的时间间隔可能会不同，本文采用文献［1］中的平均值作为时间预测函数。本文利用蕴含在事件日志的活动，通过两紧邻活动之间组合构造邻接矩阵，基于该邻接矩阵提取所对应的过程模型，然后利用过程模型进行相应事件的预测（活动、概率和时间）。

2.1 邻接矩阵构造算法

本部分采用文献［1，24］中的随机数据I为例（见表2），详细描述事件日志数据信息所对应邻接矩阵构造过程的算法细节，在此基础之上，阐述基于矩阵的过程模型提取方法。

表2 随机数据I

显然，表2中含有7个不同的案例，每个案例中记录着相应该过程发生的活动名称和时间，本文假设对应时间为活动完成时间。

2．1．1 算法细节

假设事件日志中所含活动信息对应的邻接矩阵是一个（N＋2）×（N＋2）的方阵，其中，N是指事件日志中所有不同类型活动的数量，2表示人为增加的两个虚拟活动开始（START）和结束（END）。表2中含有A，B，C，D，E 5个不同类型的活动，再加上START和END，表2中的事件日志信息对应的是一个7×7的邻接矩阵。

本文通过邻接矩阵中的数据来反映这种紧邻活动的邻接关系，即：当两个活动i与j在事件日志中所有案例中的紧邻频率（frequency，FRE）之和为n时，那么矩阵中在这两个活动（i，j）的对应位置的信息是［n］，若两个活动i与j在事件日志中所有案例中没有作为紧邻活动出现过，则邻接矩阵的相应位置为空（在本文中在该位置不添加任何的信息，因此在本文中用空白进行表示，当然也可以在该位置采用空集合来替代，达到相同的效果）。利用表2中随机数据I构造的邻接矩阵如表3所示。

表3 邻接矩阵I_______________________

根据表3（邻接矩阵I）可知，针对表2中的7个案例，活动A与B紧邻的次数之和是3，活动A与C紧邻的次数之和是2，活动A与E紧邻的次数之和也是2。从而当活动A发生后，接下来活动B、C和E将会发生，这3个不同活动发生的相应概率分别是3／7，2／7和2／7。活动START与活动A紧邻的次数之和是7，活动D与活动END紧邻的次数之和也是7。由于START和END都是虚拟的活动，因此在表2中，第一个活动都是A，最后一个活动都是D。

由于表2中的时间对应活动的完成时间，案例1中活动A完成后，距离活动B完成所需时间间隔为4；案例3中活动A完成后，距离活动B完成所需时间间隔为4；在案例5中当活动A完成后，距离活动B完成所需时间间隔为6。通过文献［1，24］中提到的平均值作为时间预测函数，根据表2中时间信息，可知活动A完成后，针对上述3个案例的平均间隔时间值，还需要4．67（14／3）的间隔时间活动B才能完成，同样可以得到，距离活动B、C和E完成所需要的时间分别是4．67，4．50和9．50。

根据前面的分析，利用对应事件日志中的活动完成时间，计算两个相邻活动（i，j）之间的时间间隔，得到新的含有时间信息的邻接矩阵，如表4所示。由于活动START与END是构造邻接矩阵时，人为增加的两个虚拟活动，所以事件日志信息中的任何真实活动与这两个虚拟活动紧邻之间的时间间隔都是0。

表4 邻接矩阵Ⅱ

2．1．2 过程模型提取

根据邻接矩阵的构造过程算法细节可知，当邻接矩阵中所对应（i，j）位置数据不为空时，说明在事件日志中，活动i与j在某个或某几个案例中作为紧邻活动，那么在过程模型提取时，这两个活动之间有直接的联系，从而应用线连接起来，当在两个活动相连的线上增加矩阵中的相应信息（频率与时间间隔数值），可得到包含时间信息与频率信息的过程模型。针对表2中的随机数据（7个案例，26个活动）对应的邻接矩阵Ⅱ，提取的过程模型如图1所示。

图1 预测过程模型（基于邻接矩阵Ⅱ提取）

表2中含有的5个不同类型的活动在图1的模型中仅出现一次，此时在图1中活动B与C之间存在一个回路，根据图1中现有频率信息，无法计算出活动B与C之间回路发生的次数（无法确定活动B与C在事件日志案例中紧邻成对出现的次数）。

据文献［2，25］可知，过程模型的预测精度与模型中回路或者环路的数量呈负相关性，随着回路或者环路数量的增多，该过程模型的精度相应降低。为避免过程模型中产生回路或者环路，在邻接矩阵Ⅱ中的（i，j）处，增加活动i在事件日志案例中所发生位置对应顺序数据信息，进一步构造含有活动顺序位次的邻接矩阵。

2.2 邻接矩阵进一步构造

表2中，活动A作为第1位次的活动出现了7次，即A都是第一个发生的活动。由于每个案例中发生活动的数量与过程不同，每个活动顺序发生的位次不同，D在案例4和案例7中是第3个发生的活动，在其余5个案例中是第4个发生的活动，但所有案例中D都是最后一个发生的活动，因此无论D在哪个位次出现，距离结束（END）的时间间隔都是0（IT＝0）。

本文假设虚拟活动START在案例中对应的位次是0。在邻接矩阵Ⅱ中的（i，j）处，增加活动i在事件日志中相对应的位次，得到含有活动位次信息的邻接矩阵Ⅲ，如表5所示。

表5 邻接矩阵Ⅲ

2．2．1 过程模型提取

对比邻接矩阵Ⅲ与邻接矩阵Ⅱ中的信息，可以发现，活动D与END相对应位置的信息由（［7］＜IT＝0．00＞）变为（｛4｝［5］＜IT＝0＞；｛3｝［2］＜IT＝0＞），表示在表2中，活动D作为第3位次的活动与END相邻的是2次，作为第4位次的活动与END相邻的是5次。表2基于位次邻接矩阵提取的过程模型如图2所示。

针对表2中的随机数据，都是基于邻接矩阵提取过程模型，但是由于邻接矩阵Ⅱ与邻接矩阵Ⅲ所含有信息的不同，得到图1与图2中两个不同的过程模型。图2中同一个活动可能多次出现（如：活动C出现2次，活动D也出现2次），但是不同类型活动在同一个顺序位次上仅出现了一次，同时图2中的模型与图1中的模型相比不存在回路或环路。

图2 预测过程模型（基于邻接矩阵Ⅲ提取）

根据图2中的过程模型可知，当活动B发生在第2个位次时，接下来在第3位次上将会发生活动C，根据图2过程模型中的频率信息可知，第2位次发生活动B的频率是3，第3位次发生活动C的频率是3。第3位次中的活动与第2位次活动B相邻的只有活动C，利用活动C在第3位次发生的频率3与活动B在第2位次发生的频率3可以求得此时的条件概率，那么活动C发生的概率是1（P｛｛3｝←C／｛2｝←B｝＝3／3＝1，与此同时，活动B完成后距离活动C完成的时间是4．33。

针对表2中的随机数据事件日志信息，利用图2中的过程模型相比利用图1中的过程模型能得到更好地预测结果，原因在于邻接矩阵Ⅲ比邻接矩阵Ⅱ含有更多的信息（案例中每个活动的顺序位次信息），因此图2中过程模型更精确。因此，在实际应用中，可根据决策者对模型预测精度要求，在邻接矩阵中增加不同的信息。

3 随机数据预测结果比较

利用随机数据，将本文提出的PMAM的预测结果与文献［1］中提出的PMS的预测结果进行比较，来验证PMAM算法的可行性。

3.1 随机数据I

针对表2中的事件日志，利用过程挖掘工具PROM［20］提取PMS与PMAM（具体数据信息如图2中所示），这两种模型的预测结果比较如表6所示。

表6 PMAM与PMS预测结果

在表6中的第2个状态表示活动A是过程模型或事件日志的案例中第1个发生的活动，或者活动A是第一个位次的活动，在本文中用（“A｛1｝”）来表示这种状态。由表6可知，PMAM与PMS共在9个状态下进行预测。针对时间预测：在2个状态下得到的结果不同（“A｛1｝”和“D｛4｝”），在7个状态下得到的结果相同。在表6中：当“A｛1｝”时，PMAM有3个可能的预测值，而现有的PMS只有1个预测值。当“D｛4｝”时，PMAM只有1个预测值，而PMS有2个可能的预测值。通过表6还可以发现，现有PMS不能预测接下来发生某个活动的概率。

通过表6可知，PMS算法关注已经发生了什么活动；而PMAM算法关注当前活动所处的顺序位次及接下来可能发生的活动。利用PMS和PMAM进行预测，相同之处在于：当发生在同一个顺序位次的活动不同时，模型中的路径将会在此处产生分支；不同之处在于：利用PMS算法，模型中的路径只要有分支产生，直到最后一个活动完成路径都不可能再次合并；利用PMAM算法，若在接下来在同一个顺序位次上有相同的活动发生时，模型中产生分支的路径将会再次进行合并。

在表6中，当“D｛4｝”时，利用PMAM进行时间预测时只有1个数值。根据上面的分析可知，在案例2和案例4中：［A，B，C，D］与［A，C，B，D］因为在第2顺序位次的活动不同（B和C），路径产生了分支，但是在第4顺序位次的活动都是D，因此两条不同的路径在活动D处在第4位次时又重新进行了合并。当“A｛1｝”时，接下来第2位次上有3个不同的活动出现，利用PMAM进行预测，得到指向这3个不同活动相应的时间值，而利用PMS进行预测仅有1个时间预测值。

当事件日志中包含活动较多时，邻接矩阵阶数增加极快，此时得到的预测过程模型将极为复杂，但是利用本文的算法提取过程模型，在同一个层次每个活动仅出现一次，而基于前面分析，利用基于序列规则提取过程模型，在同一个层次上相同的活动可能出现多次，因为利用序列提取的过程模型，路径一旦出现分支将不会再合并。当事件日志中存在大量活动时，利用PMAM进行过程挖掘将会比利用PMS进行过程挖掘能节省大量的运算时间，从而可以提高运算速度。

根据过程模型中的频率信息，利用在2个状态“A｛1｝”和“D｛4｝”时的预测值，可得：

显然，在上述两种状态时，利用PMS得到的时间预测值，是利用PMAM进行时间预测的加权综合值（权重与频率有关）。

本文认为，在同一种状态下提供多种可能性的预期比仅能提供一种预期要好。针对表2中的事件日志在两种模型的预测结果进行分析后得到表7。

表7 利用随机数据I两种模型预测结果的比较

根据表7可得如下结论：

（1）概率预测：PMS不能进行概率预测，因为在PMS中不存在频率信息。

（2）时间预测：在77．78%的情形下PMAM与PMS得到相同的时间预测结果；在11．11%的情形下利用PMAM比PMS得到更好的时间预测结果；在11．11%的情形下，利用PMS比PMAM得到更好的时间预测结果；因此，利用PMAM进行时间预测与PMS进行时间预测得到相同的结果。

（3）活动预测：两个模型对活动的预测起到相同的效果，可以通过这两个模型的路径预测接下来可能发生的活动。

3.2 随机数据Ⅱ

本节利用表8中的随机数据Ⅱ，再次对PMAM与PMS的预测结果进行比较，进一步验证本文提出的算法。

表8 随机数据Ⅱ

针对表8中的随机数据Ⅱ事件日志，构造含有活动顺序位次的邻接矩阵，基于邻接矩阵提取过程模型如图3所示。利用过程挖掘工具PROM 5［20］对表8中事件日志提取PMS，将图3与PMS预测结果进行比较，从图3可知，当在4个状态即：“A｛1｝”，“B｛2｝”，“C｛3｝”和“C｛6｝”时，过程模型中的路径出现了分支；当且仅当“C｛5｝”时，过程模型中的分支路径进行合并。通过分析发现，在上述出现分支的3种状态下（“A｛1｝”，“B｛2｝”和“C｛3｝”），通过时间预测结果对比可以发现，PMS预测值是PMAM预测值的加权综合值，此时PMAM比PMS能起到更好的时间预测效果。当“C｛6｝”时，PMAM的概率预测结果为：接下来发生活动E（“adjacency E”）的概率P＝1／2，当活动C完成后，距离活动E完成所需时间为11．00（IT＝11．00）；同时可以得到接下来发生D（“adjacency D”）的概率P＝1／2，当活动C完成后，距离活动D完成所需时间为4．00，但此时利用PMS得到的时间预测值，并不是本文提出的PMAM加权综合预测值，而是其中两个预测值之一（说明某个活动不会发生）。根据PMS可知，当［A，B，C，C，C，C］这6个活动已经发生后，接下来发生“adjacency D”的概率P＝0，相应的当［A，B，C，B，C，C］这6个活动已经发生后，接下来发生E（“adjacency E”）的概率P＝0。

图3 预测过程模型（基于邻接矩阵提取规则）

利用本文PMAM中含有的频率进行概率预测，是基于已发生的前一个活动，预测发生下一个活动的条件概率，PMS是基于已发生的所有活动，预测到下一个活动的条件概率。由于在同一个状态下能提供更多预测信息，该模型能起到更好地预测效果，因此本文提出的PMAM预测效果比文献［11］中的PMS预测效果好。

针对表8中的事件日志（随机数据Ⅱ）在两种模型下的预测结果进行分析，得到如表9所示的比较数据。

表9 利用随机数据Ⅱ两个模型预测结果的比较

根据表9中的数据可得如下结论：

（1）概率预测：PMS不能进行概率预测，因为在PMS中不存在频率信息，所以PMAM进行预测比PMS得到更好的概率预测结果。

（2）时间预测：在72．22%的状态下，本文提出的PMAM与PMS得到完全相同的时间预测结果，在22．22%的状态下，PMAM比PMS得到更好的时间预测结果，仅在5．56%的状态下，PMS比PMAM得到更好的时间预测结果。因此，利用PMAM进行时间预测比利用PMS进行时间预测得到更好的时间预测结果。

（3）活动预测：通过过程模型中的路径判定接下来可能发生的活动，两个模型得到相同活动预测效果。

4 真实数据预测结果比较

为进一步说明本文所提出的PMAM在实际商业流程或企业生产过程进行预测的有效性，在该部分，利用真实数据与现有PMS的预测结果进行比较。

本文采用2003～2010年美国专利申请的相关数据［26］（种类编号B64：航空航天与国防领域，该专利申请数据总共含有24576个案例和456个不同类型的活动）。由于对456个不同类型活动进行挖掘是非常庞大的过程而且有些活动出现的频率非常低，本文对案例中出现频率最高的10个活动，选择数据中的50个案例（661个活动），利用本文的算法构造邻接矩阵。首先得到仅包含频率信息的邻接矩阵，然后在邻接矩阵中增加两个活动之间的间隔时间信息与活动在案例中的顺序位次，得到含有活动位次信息、频率信息、时间信息的邻接矩阵，依据本文的算法进行过程挖掘提取过程模型。

在利用过程模型进行预测时，在同一个状态下能提供更多预测信息，比仅仅得到一个预测信息时，能起到更好的预测效果，针对上述的专利数据，得到如表10所示的数据。

表10 利用实际数据两个模型预测结果的比较

根据表10的数据可得如下结论：

（1）概率预测：PMS不能进行概率预测，因为在PMS中不存在频率信息，所以PMAM进行预测比PMS得到更好的概率预测结果。

（2）时间预测：在49．18%的状态下PMAM与PMS得到相同的时间预测结果，在40．16%的状态下PMAM比PMS得到更好的时间预测结果，在10．66%的状态下，现有PMS比PMAM得到更的好时间预测结果。因此，PMAM比PMS进行时间预测得到更好的时间预测结果。

（3）活动预测：利用过程模型中的路径判定接下来可能发生的活动，两个模型得到相同的活动预测效果。

5 结论

本文将事件日志中蕴含的过程模型进行研究，以期利用过程模型进行预测，通过预测对生产制造和商业流程进行优化。通过事件日志信息中不同类型活动的个数N和2个的虚拟活动（START和END）构建一个（N＋2）×（N＋2）阶的邻接矩阵（方阵）。然后根据决策者与管理者的需求和模型预测精度，在所构造的邻接矩阵中增加相应的信息（如：时间间隔、活动位次、紧邻频率等）。依据邻接矩阵中对应位置处有数据信息的两个活动依据位次的先后顺序进行连接，提取相应的过程模型并在相应位置标注对应时间信息，利用该过程模型预测接下来会发生么活动、概率多大、何时发生。

本文通过2个随机数据案例与1个真实数据案例，将PMAM预测结果同PMS的预测结果进行比较分析。发现当在某个状态出现分支时，利用PMAM进行时间预测比PMS提供更好的预测值，当在某个状态几个分支进行合并时，利用PMS进行时间预测比PMAM提供更好的预测值。利用PMAM比利用PMS能得到更好的概率预测。伴随着大数据时代数据量的急剧增加，事件日志所包含活动较多时，所构造的邻接矩阵阶数也增加极快，此时得到的预测过程模型将极为复杂，但是利用PMAM进行预测将比利用PMS进行预测减少运算量，缩短运算时间。

本文利用事件日志信息中的活动紧邻关系构造邻接矩阵，基于矩阵中所含数据信息提取过程模型进行预测，通过预测对实际操作过程进行优化。将来将利用事件日志中的人员信息，构建在商业交易流程与生产制造过程中所涉及员工之间的社会关系网络，同时将从时间序列与数理统计的角度出发对时间预测函数及相应算法进行研究。

［1］Van Der A W M P，Schonenberg M H，Song M．Time prediction based on process mining［J］．Information Systems，2011，36（2）：450- 475．

［2］Huang Z，Kumar A．A study of quality and accuracy trade-offs in process mining［J］．INFORMSJournal on Computing，2011，10（3）：1- 18．

［3］Van Der A W M P，Van Dongen B F，Herbst J，et al．Workflow mining：a survey of issues and approaches［J］．Data and Knowledge Engineering，2003，16（9）：1128- 1142．

［4］Dustdar S，Hoffmann T，Van Der A W M P．Mining of Ad-Hoc business process with teamlog［J］．Data and Knowledge Engineering，2005，55（2）：129- 158．

［5］Van Der A W M P，Van D B F，Gunther C W，et al．Pro M 4．0：comprehensive support for real process analysis［C］∥Proc.of the 28th International Conference on Applications and Theory of Petri Nets，2007：484- 494．

［6］Van Der A W M P，Weijters A J M M，Maruster L．Workflow mining：discovering process models from event logs［J］．IEEE Trans. on Knowledge and Data Engineering，2004，16（9）：1128- 1142．

［7］Van Der A W M P．Exploring the CSCW spectrum using process mining［J］．Advanced Engineering Informatics，2007，21（4）：191- 199．

［8］Agrawal R，Gunopulos D，Leymann F．Mining process models from workflow logs［C］∥Proc.of the 6th International Conference on Extending Database Technology，1998：467- 483．

［9］Cook J E，Wolf A L．Discovering models of software processes from event-based data［J］．ACM Trans.on Software Engineering and Methodology，1998，7（3）：215- 249．

［10］Liu J，Liu P，Liu S F，et al．Handover optimization in business processes via prediction［J］．Kybernetes，2013，42（7）：1101- 1127．

［11］Weijters A J M M，Van Der A W M P．Rediscovering workflow models from event-based data using little thumb［J］．Integrated Computer-Aided Engineering，2003，10（2）：151- 162．

［12］Van Der W J M E M，Van D B F，Hurkens C A J，et al．Process discovery using integer linear programming［C］∥Proc. of the 29th International Conference on Applications and Theory of Petri Nets，2008：368- 387．

［13］Tan P N，Steinbach M，Kumar V．Introduction to data mining［M］．Boston：Addison Wesley，2006．

［14］Klein M，Bernstein A．Towards high-precision service retrieval［J］．IEEE Internet Computing，2004，8（1）：30- 36．

［15］Song M，Van Der A W M P．Supporting process mining by showing events at a glance［C］∥Proc.of the 7th Annual Workshop Information and Technology Systems，2007：139- 145．

［16］Mans R S，Schonenberg M H，Song M，et al．Application of process mining in healthcare-a case study in a dutch hospital［J］．Communications in Computer and Information Science，2009，25：425- 438．

［17］Yang W S，Hwang S Y．A process-mining framework for the detection of healthcare fraud and abuse［J］．Ex pert system with Application，2006，31（1）：56- 68．

［18］Schonenberg H，Weber B，Van D B F，et al．Supporting flexible processes from recommendations based on history［C］∥Proc.of the International Conference on Business Process Management，2008：51- 66．

［19］Van D B F，Crooy R A，Van Der A W M P．Cycle time prediction：when will this case finally be finished？［C］∥Proc.of the 16th International Conference on Cooperative Information Systems，2008：319- 336．

［20］Process mining research tools application［EB／OL］．［2014- 02-20］．http：∥www．processmining．org／prom／downloads．

［21］Wen L，Wang J，Sun J．Detecting implicit dependencies between tasks from event logs［C］∥Proc.of the Aisa-Pacific Web Conference on Frontiers of WWW Research and Development，2006：591- 603．

［22］Van Der W J M E M，Van D B F，Hurkens C A J，et al．Process discovery using integer linear programming［C］∥Proc. of the 29th International Conference on Applications and Theory of Petri Nets，2008：368- 387．

［23］Alves De M A K，Weijters A J M M，Van Der A W M P．Genetic process mining：an experimental evaluation［J］．Data Mining and Knowledge Discovery，2007，14（2）：245- 304．

［24］Liu J．HCS：study on algorithms and models of decision making problem based on“human-centered service”［D］．Nanjing：Nanjing University of Aeronautics and Astronutics，2012．（刘健．基于“人本服务”的决策问题算法与模型研究［D］．南京：南京航空航天大学，2012．）

［25］Huang Z，Kumar A．New quality metrics for evaluating process models［C］∥Proc.of the 4th Workshops Business Process Management，2009：52- 57．

［26］The Unite States patent and trademark office an agency of the department of commerce［EB／OL］．［2014- 02- 20］．http：∥portal．uspto．gov／external／portal／pair．

Future aware prediction model based on process mining

LIU Jian1，LIU Li-zhao2，WANG Jian-jun1，GU Xiao-guang1
（1.School of Economics and Management，Nanjing University of Science and Technology，Nanjing 210094，China；2.School of Computer Science and Technology，Xiamen University of Technology，Xiamen 361024，China）

Viewing the process model in event logs as the combination of the two adjacent activities，two novel process models are proposed．First，the process model is extracted by constructing adjacency matrix，taking advantage of the adjacency relationships of activities in the event logs．To improve the prediction accuracy of the model，loops are avoided in the process model．So，each activity in this model will only happen once．Second，the serial number of activities in the event logs to the adjacency matrix is added，constructing a new adjacency matrix with sequence information．Based on the new adjacency matrix，the process model is extracted．Each activity in this model will only happen once at the same sequence position．Third，with the adjacency matrix，the path from each prior node to next nodes in the process model and their corresponding probabilities are gotten．Then，according to the type and characteristic information of the event logs，predictions of the information are made which are needed by decision-makers，e．g．activity name，waiting time，and probability based on process model．Finally，the effectiveness of the proposed models by comparing the prediction results of random data and real data based on process models is verified．

adjacency matrix；process mining（PROM）；prediction；business intelligence

C 931

10．3969／j．issn．1001-506X．2015．04．35

刘健（1982 ），男，讲师，博士，主要研究方向为过程挖掘、决策分析。E-mail：jianlau＠njust．edu．cn

刘利钊（1983-），男，副教授，博士，主要研究方向为云计算、数据挖掘。E-mail：kollzok＠yahoo．com．cn

汪建均（1977-），男，副教授，博士，主要研究方向为供应链质量管理、数据挖掘。E-mail：wangjj0818＠163．com

顾晓光（1986-），男，博士研究生，主要研究方向为质量控制技术、质量管理。E-mail：guxiaoguang＠hotmail．com

1001-506X（2015）04-0949-09

2014- 02- 21；

2014- 10- 31；网络优先出版日期：2014- 11- 19。

网络优先出版地址：http：／／w ww．cnki．net／kcms／detail／11．2422．TN．20141119．2156．003．html

国家自然科学基金（71301075，71371099）；中央高校基本科研业务费资助项目（30920130132014）；中国博士后科学基金（2013M530261，2013M531366，2014T70527）；江苏省自然科学基金（青年）（BK20130770）；江苏省博士后科研资助计划（1301108C）；南京理工大学经济管理学院青年教师科研项目（JGQN1401）；南京理工大学紫金之星科研项目资助课题