APP下载

基于频繁模式挖掘的工程建设监管平台用户体验优化研究

2020-10-20丰景春王龙宝

科技管理研究 2020年17期
关键词:项集页面权重

丰景春,艾 力,张 可,王龙宝

(1.河海大学商学院;2.河海大学项目管理研究所;3.河海大学国际河流研究中心;4.江苏省“世界水谷”与水生态文明协同创新中心,江苏南京 211100)

近年来我国建筑行业信息化建设受到了广泛关注,例如住建部发布的《2016—2020年信息化发展纲要》中就提出要促进信息化在行业日常监管工作中的应用,建立完善的监管体制与监管模式。但我国建筑行业信息化方兴未艾,失败率却居高不下。据统计我国建筑行业信息化率为0.03%左右,仅为国际信息化率的1/10,高额投资获得的实际收益与预期回报并不相符。界面友好性是评价软件性能和质量的重要指标,一个层次复杂,入手困难的软件难以得到普及和推广。相比于其他领域,工程项目包含多个阶段,涉及多种类型的参与方,由于不同阶段不同市场主体的任务不同,使得工程建设监管平台业务结构尤为复杂,这种复杂性更要求平台界面对用户友好。针对用户进行平台结构优化一方面表现为导航合理、层次简单、查询方便等,方便用户获取相关信息与服务,另一方面表现为功能丰富,信息完整等,使平台内容满足用户所需。对平台而言,如何在“放管服”的背景下将各参与方紧密联系起来,实现信息资源共享,方便市场主体的浏览和使用,给用户提供优质体验,是当下及未来的研究热点。

随着数据挖掘技术的快速发展,基于Web挖掘的用户体验优化研究越来越多,如冯洁等[1]挖掘用户访问模式,给那些经常被用户访问,但在网站拓扑结构相距较远的页面增加链接,方便用户使用。Wu H C等[2]提出了一种利用网站拓扑结构和日志流数据检测用户访问模式的有效算法,改善网站的连通性,以适应访问者的访问模式。LIN C C等[3]使用Web挖掘技术,以蚁群算法重构网站结构,并验证了算法的实用性。LOYOLA P等[4]提出用蚁群学习优化算法预测用户行为,以提高用户使用体验。SINGH H等[5]提出了一种基于蚁群算法的电子超市链路结构优化方法,通过减少网页间的总加权距离来改善链接结构。井福荣等[6]使用Apriori算法,挖掘网页间的关联关系,进行网站结构的优化,使网站结构趋于合理。

频繁模式挖掘是关联规则挖掘的一个重要组成部分,也是数据挖掘领域的重要方法[7]。通过频繁模式挖掘可以得到用户的频繁访问模式,从而帮助管理者对平台结构和具体内容进行优化。Apriori算法是挖掘频繁模式的经典算法[8],在它基础上产生了诸多改进算法[9-10],但它们都采用固定的支持度阈值,实际应用中难以找到合理阈值,此外,Apriori 及其诸多改进算法也没有考虑数据库项目的重要性,而显然不同项目对用户的重要程度是不同的。据此,学者们对算法进行改进,提出并改进多重支持度频繁模式挖掘算法及加权频繁模式挖掘算法[11-13],此外段军等人[14]提出的AMWARMS多支持度加权算法实现了两者的结合。

随着工程建设管理信息化的发展,工程建设监管平台的建设与优化必然会提上日程。本文以工程建设监管平台用户访问路径为挖掘项目,采用多最小支持度加权频繁模式挖掘算法构建模型,考虑到支持度阈值的大小会影响实验结果,阈值设置过小会产生组合爆炸问题,阈值设置过高则稀有项目难以挖掘,本文根据路径权值大小设置不同的支持度阈值,以广西水利建设项目监管平台为例,通过挖掘平台用户感兴趣的频繁访问模式,为平台结构优化提供合理建议,从而提高用户的使用体验。

1 工程建设监管平台特性分析

工程建设监管平台将项目各阶段各参与方的信息进行整合,创建、管理完整的工程信息,强化了项目全生命周期过程管理,提高了监管效率。此外通过对平台数据的统计分析,可以掌握工程建设的进展情况,进而为管理者提供决策支持。

(1)开放性。平台中各个元素并非孤立存在的,只有同内部其他元素进行能量、信息、物质的交换,才能维持其正常运行,此外只有同外界发生交互,才能够发挥平台的价值。平台不仅要满足内部诸多功能要素之间的信息交换,还要考虑多变的外部环境要求,诸如社会发展、科技进步、政府决策、用户认知等外部环境往往对平台的发展影响深远。例如,随着建筑行业信用问题愈发突出,政府出台了诸多文件要求加强工程建设行业信用体系建设,因此信用管理是工程建设监管平台必须考虑的重要模块。工程建设监管平台需要遵循政府政策进行结构的调整和内容的变更使平台内容满足用户多变的需求,否则难以符合社会的发展,从而淘汰。

(2)整合性。整合性主要指平台功能的整合。工程建设监管平台实现的是对工程项目全生命周期内不同阶段、不同用户、不同任务的监管,包括规划、设计、施工、运营多个阶段,每个阶段任务不同且工作量繁重,还包括建设单位、勘察单位、设计单位、施工单位、监理单位等不同用户类型,不同单位的职责也不同。相较于针对某一阶段或某一用户的功能单一的系统,工程建设监管平台实现的是全生命周期内的信息资源共享,通过将不同阶段不同用户的工作进行逻辑上的整合,使之形成了一个有价值的整体,从而方便管理者的浏览与使用,提高监管效率。

(3)层次性。工程建筑项目具有的施工周期长、风险高、涉及单位众多等特点使得工程建设监管平台功能层次结构尤为复杂。水利工程监管平台通常包含项目建设信息填报、招投标管理、建筑市场管理、项目建设管理、基建项目报表、信用管理等模块,不同模块下具有不同的一级功能。以广西水利建设项目监管平台的招投标管理模块为例,它包括网上招投标、招标代理机构比选、招标报告备案、中标备案审核、评标报告备案审核等功能。在一级功能下又细分了诸多二级功能,以网上招投标功能为例,它包括了审核比选申请、比选结果录入、审核项目组、审核招标报告、审核招标公告等47项二级功能。面对工程建设监管平台的结构复杂性,如何正确表达平台基本内容及其内容之间的层次关系,方便用户获取所需信息与服务,提高用户使用体验对于工程建设监管平台而言极为重要。

2 基于兴趣度的多支持度加权频繁模式挖掘模型构建

2.1 多支持度加权频繁模式挖掘算法相关概念

频繁模式挖掘过程中重要的一步是最小支持度阈值的设定,Apriori等经典算法都将最小支持度阈值设定为固定值,这样的设定意味着算法假设数据集中项目的重要程度一样,但平台中不同页面对用户的重要程度是不同的,例如用户访问平台往往具有明确的浏览目的,相对于用户浏览的其他页面,目的页更为重要,将最小支持度阈值设定为固定值并不能反映这种不同。多最小支持度加权频繁模式挖掘算法赋予各项权值,同时动态设置最小支持度阈值,相关定义如下:

2.2 基于页面兴趣度的多最小支持度加权频繁模式挖掘模型构建

兴趣度能够反映用户对页面的喜爱程度[15]。对工程建设监管平台用户而言,不同页面路径的重要性显然不同。用户进行兴趣度数据标注能够准确获取用户的兴趣程度,但管理系统的页面兴趣度标注较为困难,目前可以根据用户的行为推断用户的兴趣,影响页面兴趣度的因素有很多,例如用户停留页面的时间、用户访问页面的次数等。相比于电子商务平台,工程建设监管平台用户大多存在着下载、新增、删除、修改等操作,用户访问工程建设监管平台的目的可能就是为了进行这些操作,它们对用户极为重要。据此本文用页面平均访问时间作为页面兴趣度,将页面层级浅的例如登录、注销、首页等页面的兴趣度设定为0,同时针对用户进行下载、新增、删除、修改等操作的页面,将其兴趣度设定为1,对用户而言这些页面具有极高的价值。假设共有兴趣个页面,在某次会话中用户对页面度的计算方法如下:

页面的权重设置为所有会话中用户的页面兴趣度均值,计算公式如下:

频繁模式挖掘算法中支持度阈值的设定非常重要,若支持度阈值设定过高,满足阈值的频繁项集将会很少,那些具有重要功能但不经常被用户访问的模式很难被挖掘,这些稀有项目可能包含重要信息。如果支持度阈值设定过低又会造成组合爆炸问题,即满足支持度阈值的频繁模式过多,算法运行效率大大降低,这两者难以同时解决。此外最小支持度阈值设定不合理可能会造成高权重的频繁模式难以挖掘出来,例如可知项集{A,B}不是频繁项集,但这部分具有较高权重,对用户来说具有重要作用。对此本文根据页面权值划分等级,给与不同权重等级以不同的支持度阈值。本文将权重范围[0,1]划分为2个区间,代表了2个不同的等级,取权重的平均值作为分界。依据权重等级设定支持度阈值的约束条件,从而得到最小支持度阈值,同时还可以在不同权重类别下设置一个最小支持度下限来防止造成组合爆炸问题,项集的支持度阈值计算公式如下:

根据公式(1),计算出项集的加权支持度,与项集对应的支持度阈值进行比较,若加权支持度大于最小支持度阈值,则该项集为频繁项集,也就是说,项集中的页面集合是用户浏览平台时的频繁访问页面的集合。基于页面兴趣度的多最小支持度加权频繁模式挖掘算法实现流程图如图1所示。

图1 频繁项集挖掘算法流程

3 实验

3.1 数据预处理

本文选取广西水利建设项目监管平台2018年10月份100多万条用户日志数据进行实验。由于原始日志大多是模糊的、不完整的、包含噪声的、非结构化或者是半结构化的随机数据,因此需要通过数据预处理将原始日志数据转化为适合进行挖掘的数据格式。

(1)数据清洗。对原始日志数据进行填充、删除等操作,并按需求保留所需字段,经数据清洗后的部分日志片段如表1所示。

表1 数据清洗后的日志片段

(2)用户识别。根据日志记录的字段,实验采用以下启发式规则进行用户识别:一是用户名称及用户ID不同为不同用户;二是用户名称及用户ID相同情况下,IP不同为不同用户;三是用户名称、用户ID及IP地址相同的情况下,访问路径域名不同为不同用户。

(3)会话识别。实验选取两种时间阈值方法,同时结合日志记录的注销页面进行会话识别:一是给用户访问平台的时间设置一个上界记录会话初始页访问时间当同一个用户访问平台某页面路径的时间将该页面加入会话中,否则,认为用户开始下一个会话。一般设定为30min[16];二是给用户访问单个页面的时间设置一个上界若同一用户访问相邻两个页面的时间间隔满足时,将页面归属为所在会话序列中,否则用户本次会话结束,为本次会话终止页面,为该用户下一个会话初始页面。一般设定为10min;三是判断用户当前访问页面是否为注销页,若否,将访问记录加入会话中,若是,用户本次会话结束。

用户登录平台的身份可以分为注册用户和非注册用户,其中用户ID和用户名称为空代表未注册用户即游客状态。由于工程建设涉及不同类型的市场主体,平台将用户分为了成套设备企业、检测单位、监理单位、监测单位、设备企业、设计单位、施工单位、招标代理机构等八种类型。由于不同类型用户登录的模块页面不同,因此,对不同类型用户访问的页面进行频繁模式挖掘。实验只考虑非游客状态下用户访问记录,删除了用户ID及用户名称为空的数据,得到70多万条实验数据,并根据广西水利信用信息网站记录的从业单位信息将用户进行类别划分,之后分别对不同类型从业单位的访问记录进行用户识别、会话识别及路径补充。实验数据中访问网站的企业数量、数据量、用户个数和会话序列个数见表2。

表2 实验数据概况统计 单位:个

3.2 实验结果及分析

以成套设备企业为例进行实验,对成套设备企业用户访问的65个页面进行频繁模式挖掘,计算得到的页面权重分布如图2所示。

图2 页面权重分布状况

实验计算得到页面权重范围为[0,0.30],权重均值为0.02,根据公式(7)得出不同权重等级下最小支持度阈值的计算方法:

图3 LS=0,β变化时频繁项集数量

图4 β=0.04,LS变化时频繁项集数量

根据图3和图4得到,随着β和LS的增大,挖掘得到的频繁项集数量均逐渐减少。取页面权重的中位数作为β的值,用频繁_n_项集挖掘到的数目总和观察不同支持度阈值前后挖掘到的频繁模式数量的差别,详见图5。

图5 划分与未划分权重等级挖掘结果比较

从图5可以看到,对不同权重等级设定不同的支持度阈值能够减少挖掘到的频繁模式数量,在一定程度上可以解决组合爆炸问题。为了评估挖掘结果的质量,取LS=0.000 2时挖掘得到的频繁模式集,对它们的权重进行分析,结果见表3。

表3 频繁项集权重描述性统计分析

由表3可知,对不同权重等级设定不同的支持度阈值能够挖掘权重高的频繁项集,使挖掘结果更加贴合用户的需求。

从实验可以看到按照权重设定不同支持度阈值能够在一定程度上实现挖掘稀有项目的同时防止产生组合爆炸问题,挖掘到的频繁项集有着更高的权重,对权重较高的项目进行优化更能提高平台用户的使用体验。

最后,以成套设备企业为例,对广西水利建设项目监管平台成套设备用户体验优化提供合理建议:统计得到http://www.gxsljg.com/gxsltpmp/ctsbTwo/enterPrintPage.action以及http://www.gxsljg.com/gxsltpmp/qrcode/export.action两个页面访问量最高,占据了成套设备企业总访问量的32.2%,这两个页面是用户进行打印操作的页面,大多成套设备企业用户访问平台的目的是为了下载相关文件,管理人员在对成套设备企业访问路径进行优化时,可以考虑将这两个页面路径的链接放在首页,方便用户快速下载打印文件。

选取权重最高的前3条以及加权支持度最高的前3条频繁_3_项集挖掘结果进行展示,结果见表4。

表4 频繁_3_项集挖掘结果

不同结果构成的用户访问模式不同,以挖掘结果中权重最高的频繁_3_项集为例,这三个页面构成的用户访问模式为查询-新增-下载,管理人员结合平台实际链接结构和业务流程考虑对这三个页面构建关联路径,方便用户进行操作。依据挖掘到的用户频繁访问模式,帮助管理人员优化平台链接结构,从而提高用户的使用体验。

4 结论

随着信息技术和互联网的迅速发展,以用户为中心的设计越来越受到重视,本文从提高用户访问体验出发,采用基于兴趣度的多支持度加权频繁模式挖掘模型对工程建设监管平台进行路径优化,为平台路径结构的优化提供参考意见。

本文分析了工程建设监管平台相关特征,可以看到,相较于电子商务领域,工程建设领域有着更为复杂的业务逻辑结构,提高工程建设监管平台用户体验同样重要。为了使权重更好地反映路径对用户的重要程度,本文将层级浅的页面设定较低的兴趣度,将进行下载、删除、新增、修改操作的页面设定较高的兴趣度,从而使挖掘结果偏向于对用户重要的页面,实验结果可以看到,挖掘到的频繁模式符合预期。由于最小支持度设置不当会造成组合爆炸和稀有项目问题,本文根据项目权重设置多个支持度阈值,实验表明,通过设置不同支持度阈值,能够确保在挖掘权重高的稀有项目的同时,防止产生组合爆炸问题。实验获得的挖掘结果为平台链接结构的优化提供参考意见,管理人员还需根据实际情况和业务逻辑进行判断。通过优化平台的链接结构,提高用户的访问体验。

猜你喜欢

项集页面权重
刷新生活的页面
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
基于公约式权重的截短线性分组码盲识别方法
关联规则中经典的Apriori算法研究
一种频繁核心项集的快速挖掘算法
层次分析法权重的计算:基于Lingo的数学模型
同一Word文档 纵横页面并存
浅析ASP.NET页面导航技术
一种新的改进Apriori算法*