基于Apriori算法的PSC检查船舶缺陷数据挖掘
2014-07-17姜美灵邬惠国肖英杰王露向俊
姜美灵+邬惠国+肖英杰+王露+向俊
【摘 要】 为了提高我国港口国监督(PSC)工作人员的工作效率,以近10年东南沿海诸港的PSC检查中化学品船船舶缺陷信息为背景,运用Apriori算法对其缺陷数据进行研究分析,通过生成频繁项目集,从中提取符合条件的关联规则。研究结果表明,该方法能够准确、直观地总结出船舶缺陷信息的关联性,为我国PSC检查提供有效的参考依据。
【关键词】 港口国监督(PSC);Apriori;关联规则;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”轮触礁事故促成了港口国监督(PSC)制度的形成。国际海事组织(IMO)强调落实公约标准的三重保障:IMO负责制定标准;船旗国负责实施标准;港口国负责监督检查。PSC是指港口国当局针对停泊于其港口的外国船舶,通过采取强制纠正或滞留等手段使船舶的技术状况、操纵性要求、防污染设施以及船员工作条件等诸多方面逐渐符合有关国际海事公约及相关规定的制度。PSC是船旗国履约的有效补充,是保障海上安全和防止污染的最后一道防线,是公认的消除低于标准船舶、保证海上安全和保护海洋环境的有效手段。随着相关国际海事公约修正案的生效,特别是2012年《STCW公约》马尼拉修正案的实施,对PSC检查产生了深远的影响。由于PSC检查人员对PSC制度的理解不尽相同,受本地环境、港口当局特别规定等因素的影响,各区域及各港口PSC检查的侧重点也不同,从而形成了各自独有的特点。通过分析本区域以往大量的PSC检查数据,有助于PSC工作人员做好PSC检查工作。本文依据近10年来东南沿海诸港的PSC检查数据,以化学品船为例,通过生成频繁项目集,并基于从中提取符合条件的关联规则,挖掘东南沿海诸港PSC检查工作中化学品船的船舶缺陷关系,为PSC检查提供有效的参考依据。
1 PSC检查的一般程序
目前,我国各检查站点的PSC检查程序、判断标准均不一致,且每个时期的侧重点也不同,但总体遵循一定的规则。初次检查(包括船舶文书的有效性检查以及关键性设备及操作检查)中,未发现明显缺陷,则检查结束;若发现缺陷,则记录缺陷。缺陷严重并足以构成滞留的,则采取措施滞留船舶;缺陷并不构成滞留,但PSC工作人员怀疑船舶可能存在严重缺陷且发现明显依据,则进行详细检查。在详细检查中发现严重缺陷,且足以构成滞留的,应采取措施滞留船舶。在船舶纠正缺陷后,申请复查,经PSC工作人员复查合格后,解除船舶滞留。对一般缺陷,PSC检查员给出处理意见,如需复查,经复查合格后,船舶可以开航。针对每次检查的书面记录,均须导入PSC数据库,形成电子记录。
2 基于Apriori算法的数据关系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被检测出的所有缺陷代表记录,一种缺陷代表一个项目,那么Tcount即为东南沿海诸港近10年来对化学品船进行PSC检查中存在缺陷的记录总数;xcount为PSC检查记录中存在x缺陷的记录数,(x,y)count为PSC检查记录中同时存在x和y缺陷的记录数。
Apriori算法的主要挖掘功能表现为:
(1)从项目集合中找出k-频繁项目集,其中,k代表项目集中项目的数量为k个;
(2)从频繁项目集合中生成满足最低置信度及支持度的关联规则。
2.1.2 算法步骤
Apriori算法是一种宽度优先算法,其步骤为:
(1)扫描记录T,提取每条记录中出现的项目,若该项目为首次出现,则加入候选1-频繁项目集的集合C1,并将该项目的计数值设置为1;若该项目在集合C1中已经存在,则该项目的计数值再加1,扫描完记录集T即得到候选1-频繁项目集的集合C1。对于生成的项目集,通过删除计数值小于的项目集,即可生成1-频繁项目集的集合L1。
(2)假设(k-1)-频繁项目集Lk-1已生成,则可通过Lk-1来生成Lk,将Lk-1与自身进行连接(Lk-1中的每个项目集与其他项目集相互连接),得到候选k-频繁项目集的集合Ck。
(3)对集合Ck进行剪枝,从集合Ck中删除所有(k-1)-子集不全包含在集合Lk-1中的项目集。
(4)在扫描记录集T时,其中每条记录包含集合Ck中的候选项目集,则将候选项目集的计数值加1(在进行扫描前,将计数值初始值设为0);在扫描集合Ck时,删除计数值小于的项目集,即可得到k-频繁项目集的集合Lk。
(5)重复步骤(2)至(4),直到集合Lk为空。
(6)对集合L1至Lk取并集,通过扫描数据库,对每项进行计数得到最终的频繁项目集L。
(7)在频繁项目集中搜索满足最小可信度的规则,并输出满足要求的所有规则。
2.2 基于Apriori算法的化学品船缺陷数据挖掘
2.2.1 PSC检查数据库的处理
本文选取东南沿海诸港10年来化学品船的PSC检查缺陷数据作为基础数据。为便于算法执行,对PSC数据库进行处理,将同一艘船舶的n条缺陷数据合并为一条包含所有缺陷的记录;为提高数据处理的速度,将不相关船舶数据略去,仅保留最为重要的缺陷代码及船型等数据记录为便于记录,PSC数据库将船舶缺陷分为27类,并通过数字进行标识,船舶缺陷代码及缺陷描述见表2。
由图1和图2可知,化学品船的高频缺陷主要分布在缺陷代码为05~20的范围内,因此,通过Apriori算法搜索该区域内的关联规则较为适合。新建数据库并将缺陷代码在05~20范围内的记录填充到该数据库中,利用Visual Studio平台进行运算。在设定minsup为0.3,minconf为0.7时,程序执行结果见图3。
3 结果分析
(1)通过对PSC数据库中缺陷代码项的聚合,以及观察分析缺陷频率分布,得出被检测的化学品船的缺陷主要集中在缺陷代码为05~20的范围内,占所有缺陷比率的86%。
4 结 语
本文仅对PSC数据库中的化学品船的船舶缺陷进行关系挖掘,但该方法对其他类型船舶及PSC数据库中其他字段的缺陷关系挖掘同样适用。
对于大数据的关系挖掘是一项非常庞大且复杂的系统工程。本文尝试使用Apriori算法挖掘关联规则,并相应地获得一些结论,为化学品船PSC检查提供一定的参考,以提高我国PSC检查船舶缺陷的效率。数据关系挖掘算法相比传统的概率计算方法更为快捷、高效、准确。利用Apriori算法进行船舶缺陷关系挖掘具有非常好的前景。
参考文献:
[1] 袁建忠,蔡存强,胡志武.港口国监督(PSC)决策支持算法[J].上海海事大学学报,2013,34(2):30-34.
[2] 陈超,曾向明.港口国检查制度凸现的问题及其发展趋势[J].中国航海,2006(4):78-81.
[3] 柴华昕,王勇.Apriori挖掘频繁项目集算法的改进[J].计算机工程与应用,2007(24):158-161,171.
【摘 要】 为了提高我国港口国监督(PSC)工作人员的工作效率,以近10年东南沿海诸港的PSC检查中化学品船船舶缺陷信息为背景,运用Apriori算法对其缺陷数据进行研究分析,通过生成频繁项目集,从中提取符合条件的关联规则。研究结果表明,该方法能够准确、直观地总结出船舶缺陷信息的关联性,为我国PSC检查提供有效的参考依据。
【关键词】 港口国监督(PSC);Apriori;关联规则;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”轮触礁事故促成了港口国监督(PSC)制度的形成。国际海事组织(IMO)强调落实公约标准的三重保障:IMO负责制定标准;船旗国负责实施标准;港口国负责监督检查。PSC是指港口国当局针对停泊于其港口的外国船舶,通过采取强制纠正或滞留等手段使船舶的技术状况、操纵性要求、防污染设施以及船员工作条件等诸多方面逐渐符合有关国际海事公约及相关规定的制度。PSC是船旗国履约的有效补充,是保障海上安全和防止污染的最后一道防线,是公认的消除低于标准船舶、保证海上安全和保护海洋环境的有效手段。随着相关国际海事公约修正案的生效,特别是2012年《STCW公约》马尼拉修正案的实施,对PSC检查产生了深远的影响。由于PSC检查人员对PSC制度的理解不尽相同,受本地环境、港口当局特别规定等因素的影响,各区域及各港口PSC检查的侧重点也不同,从而形成了各自独有的特点。通过分析本区域以往大量的PSC检查数据,有助于PSC工作人员做好PSC检查工作。本文依据近10年来东南沿海诸港的PSC检查数据,以化学品船为例,通过生成频繁项目集,并基于从中提取符合条件的关联规则,挖掘东南沿海诸港PSC检查工作中化学品船的船舶缺陷关系,为PSC检查提供有效的参考依据。
1 PSC检查的一般程序
目前,我国各检查站点的PSC检查程序、判断标准均不一致,且每个时期的侧重点也不同,但总体遵循一定的规则。初次检查(包括船舶文书的有效性检查以及关键性设备及操作检查)中,未发现明显缺陷,则检查结束;若发现缺陷,则记录缺陷。缺陷严重并足以构成滞留的,则采取措施滞留船舶;缺陷并不构成滞留,但PSC工作人员怀疑船舶可能存在严重缺陷且发现明显依据,则进行详细检查。在详细检查中发现严重缺陷,且足以构成滞留的,应采取措施滞留船舶。在船舶纠正缺陷后,申请复查,经PSC工作人员复查合格后,解除船舶滞留。对一般缺陷,PSC检查员给出处理意见,如需复查,经复查合格后,船舶可以开航。针对每次检查的书面记录,均须导入PSC数据库,形成电子记录。
2 基于Apriori算法的数据关系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被检测出的所有缺陷代表记录,一种缺陷代表一个项目,那么Tcount即为东南沿海诸港近10年来对化学品船进行PSC检查中存在缺陷的记录总数;xcount为PSC检查记录中存在x缺陷的记录数,(x,y)count为PSC检查记录中同时存在x和y缺陷的记录数。
Apriori算法的主要挖掘功能表现为:
(1)从项目集合中找出k-频繁项目集,其中,k代表项目集中项目的数量为k个;
(2)从频繁项目集合中生成满足最低置信度及支持度的关联规则。
2.1.2 算法步骤
Apriori算法是一种宽度优先算法,其步骤为:
(1)扫描记录T,提取每条记录中出现的项目,若该项目为首次出现,则加入候选1-频繁项目集的集合C1,并将该项目的计数值设置为1;若该项目在集合C1中已经存在,则该项目的计数值再加1,扫描完记录集T即得到候选1-频繁项目集的集合C1。对于生成的项目集,通过删除计数值小于的项目集,即可生成1-频繁项目集的集合L1。
(2)假设(k-1)-频繁项目集Lk-1已生成,则可通过Lk-1来生成Lk,将Lk-1与自身进行连接(Lk-1中的每个项目集与其他项目集相互连接),得到候选k-频繁项目集的集合Ck。
(3)对集合Ck进行剪枝,从集合Ck中删除所有(k-1)-子集不全包含在集合Lk-1中的项目集。
(4)在扫描记录集T时,其中每条记录包含集合Ck中的候选项目集,则将候选项目集的计数值加1(在进行扫描前,将计数值初始值设为0);在扫描集合Ck时,删除计数值小于的项目集,即可得到k-频繁项目集的集合Lk。
(5)重复步骤(2)至(4),直到集合Lk为空。
(6)对集合L1至Lk取并集,通过扫描数据库,对每项进行计数得到最终的频繁项目集L。
(7)在频繁项目集中搜索满足最小可信度的规则,并输出满足要求的所有规则。
2.2 基于Apriori算法的化学品船缺陷数据挖掘
2.2.1 PSC检查数据库的处理
本文选取东南沿海诸港10年来化学品船的PSC检查缺陷数据作为基础数据。为便于算法执行,对PSC数据库进行处理,将同一艘船舶的n条缺陷数据合并为一条包含所有缺陷的记录;为提高数据处理的速度,将不相关船舶数据略去,仅保留最为重要的缺陷代码及船型等数据记录为便于记录,PSC数据库将船舶缺陷分为27类,并通过数字进行标识,船舶缺陷代码及缺陷描述见表2。
由图1和图2可知,化学品船的高频缺陷主要分布在缺陷代码为05~20的范围内,因此,通过Apriori算法搜索该区域内的关联规则较为适合。新建数据库并将缺陷代码在05~20范围内的记录填充到该数据库中,利用Visual Studio平台进行运算。在设定minsup为0.3,minconf为0.7时,程序执行结果见图3。
3 结果分析
(1)通过对PSC数据库中缺陷代码项的聚合,以及观察分析缺陷频率分布,得出被检测的化学品船的缺陷主要集中在缺陷代码为05~20的范围内,占所有缺陷比率的86%。
4 结 语
本文仅对PSC数据库中的化学品船的船舶缺陷进行关系挖掘,但该方法对其他类型船舶及PSC数据库中其他字段的缺陷关系挖掘同样适用。
对于大数据的关系挖掘是一项非常庞大且复杂的系统工程。本文尝试使用Apriori算法挖掘关联规则,并相应地获得一些结论,为化学品船PSC检查提供一定的参考,以提高我国PSC检查船舶缺陷的效率。数据关系挖掘算法相比传统的概率计算方法更为快捷、高效、准确。利用Apriori算法进行船舶缺陷关系挖掘具有非常好的前景。
参考文献:
[1] 袁建忠,蔡存强,胡志武.港口国监督(PSC)决策支持算法[J].上海海事大学学报,2013,34(2):30-34.
[2] 陈超,曾向明.港口国检查制度凸现的问题及其发展趋势[J].中国航海,2006(4):78-81.
[3] 柴华昕,王勇.Apriori挖掘频繁项目集算法的改进[J].计算机工程与应用,2007(24):158-161,171.
【摘 要】 为了提高我国港口国监督(PSC)工作人员的工作效率,以近10年东南沿海诸港的PSC检查中化学品船船舶缺陷信息为背景,运用Apriori算法对其缺陷数据进行研究分析,通过生成频繁项目集,从中提取符合条件的关联规则。研究结果表明,该方法能够准确、直观地总结出船舶缺陷信息的关联性,为我国PSC检查提供有效的参考依据。
【关键词】 港口国监督(PSC);Apriori;关联规则;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”轮触礁事故促成了港口国监督(PSC)制度的形成。国际海事组织(IMO)强调落实公约标准的三重保障:IMO负责制定标准;船旗国负责实施标准;港口国负责监督检查。PSC是指港口国当局针对停泊于其港口的外国船舶,通过采取强制纠正或滞留等手段使船舶的技术状况、操纵性要求、防污染设施以及船员工作条件等诸多方面逐渐符合有关国际海事公约及相关规定的制度。PSC是船旗国履约的有效补充,是保障海上安全和防止污染的最后一道防线,是公认的消除低于标准船舶、保证海上安全和保护海洋环境的有效手段。随着相关国际海事公约修正案的生效,特别是2012年《STCW公约》马尼拉修正案的实施,对PSC检查产生了深远的影响。由于PSC检查人员对PSC制度的理解不尽相同,受本地环境、港口当局特别规定等因素的影响,各区域及各港口PSC检查的侧重点也不同,从而形成了各自独有的特点。通过分析本区域以往大量的PSC检查数据,有助于PSC工作人员做好PSC检查工作。本文依据近10年来东南沿海诸港的PSC检查数据,以化学品船为例,通过生成频繁项目集,并基于从中提取符合条件的关联规则,挖掘东南沿海诸港PSC检查工作中化学品船的船舶缺陷关系,为PSC检查提供有效的参考依据。
1 PSC检查的一般程序
目前,我国各检查站点的PSC检查程序、判断标准均不一致,且每个时期的侧重点也不同,但总体遵循一定的规则。初次检查(包括船舶文书的有效性检查以及关键性设备及操作检查)中,未发现明显缺陷,则检查结束;若发现缺陷,则记录缺陷。缺陷严重并足以构成滞留的,则采取措施滞留船舶;缺陷并不构成滞留,但PSC工作人员怀疑船舶可能存在严重缺陷且发现明显依据,则进行详细检查。在详细检查中发现严重缺陷,且足以构成滞留的,应采取措施滞留船舶。在船舶纠正缺陷后,申请复查,经PSC工作人员复查合格后,解除船舶滞留。对一般缺陷,PSC检查员给出处理意见,如需复查,经复查合格后,船舶可以开航。针对每次检查的书面记录,均须导入PSC数据库,形成电子记录。
2 基于Apriori算法的数据关系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被检测出的所有缺陷代表记录,一种缺陷代表一个项目,那么Tcount即为东南沿海诸港近10年来对化学品船进行PSC检查中存在缺陷的记录总数;xcount为PSC检查记录中存在x缺陷的记录数,(x,y)count为PSC检查记录中同时存在x和y缺陷的记录数。
Apriori算法的主要挖掘功能表现为:
(1)从项目集合中找出k-频繁项目集,其中,k代表项目集中项目的数量为k个;
(2)从频繁项目集合中生成满足最低置信度及支持度的关联规则。
2.1.2 算法步骤
Apriori算法是一种宽度优先算法,其步骤为:
(1)扫描记录T,提取每条记录中出现的项目,若该项目为首次出现,则加入候选1-频繁项目集的集合C1,并将该项目的计数值设置为1;若该项目在集合C1中已经存在,则该项目的计数值再加1,扫描完记录集T即得到候选1-频繁项目集的集合C1。对于生成的项目集,通过删除计数值小于的项目集,即可生成1-频繁项目集的集合L1。
(2)假设(k-1)-频繁项目集Lk-1已生成,则可通过Lk-1来生成Lk,将Lk-1与自身进行连接(Lk-1中的每个项目集与其他项目集相互连接),得到候选k-频繁项目集的集合Ck。
(3)对集合Ck进行剪枝,从集合Ck中删除所有(k-1)-子集不全包含在集合Lk-1中的项目集。
(4)在扫描记录集T时,其中每条记录包含集合Ck中的候选项目集,则将候选项目集的计数值加1(在进行扫描前,将计数值初始值设为0);在扫描集合Ck时,删除计数值小于的项目集,即可得到k-频繁项目集的集合Lk。
(5)重复步骤(2)至(4),直到集合Lk为空。
(6)对集合L1至Lk取并集,通过扫描数据库,对每项进行计数得到最终的频繁项目集L。
(7)在频繁项目集中搜索满足最小可信度的规则,并输出满足要求的所有规则。
2.2 基于Apriori算法的化学品船缺陷数据挖掘
2.2.1 PSC检查数据库的处理
本文选取东南沿海诸港10年来化学品船的PSC检查缺陷数据作为基础数据。为便于算法执行,对PSC数据库进行处理,将同一艘船舶的n条缺陷数据合并为一条包含所有缺陷的记录;为提高数据处理的速度,将不相关船舶数据略去,仅保留最为重要的缺陷代码及船型等数据记录为便于记录,PSC数据库将船舶缺陷分为27类,并通过数字进行标识,船舶缺陷代码及缺陷描述见表2。
由图1和图2可知,化学品船的高频缺陷主要分布在缺陷代码为05~20的范围内,因此,通过Apriori算法搜索该区域内的关联规则较为适合。新建数据库并将缺陷代码在05~20范围内的记录填充到该数据库中,利用Visual Studio平台进行运算。在设定minsup为0.3,minconf为0.7时,程序执行结果见图3。
3 结果分析
(1)通过对PSC数据库中缺陷代码项的聚合,以及观察分析缺陷频率分布,得出被检测的化学品船的缺陷主要集中在缺陷代码为05~20的范围内,占所有缺陷比率的86%。
4 结 语
本文仅对PSC数据库中的化学品船的船舶缺陷进行关系挖掘,但该方法对其他类型船舶及PSC数据库中其他字段的缺陷关系挖掘同样适用。
对于大数据的关系挖掘是一项非常庞大且复杂的系统工程。本文尝试使用Apriori算法挖掘关联规则,并相应地获得一些结论,为化学品船PSC检查提供一定的参考,以提高我国PSC检查船舶缺陷的效率。数据关系挖掘算法相比传统的概率计算方法更为快捷、高效、准确。利用Apriori算法进行船舶缺陷关系挖掘具有非常好的前景。
参考文献:
[1] 袁建忠,蔡存强,胡志武.港口国监督(PSC)决策支持算法[J].上海海事大学学报,2013,34(2):30-34.
[2] 陈超,曾向明.港口国检查制度凸现的问题及其发展趋势[J].中国航海,2006(4):78-81.
[3] 柴华昕,王勇.Apriori挖掘频繁项目集算法的改进[J].计算机工程与应用,2007(24):158-161,171.