基于知识图谱分析的产业创新评估预测模型研究
2018-08-11刘杰刘林志
刘杰 刘林志
〔摘 要〕[目的]知识图谱分析的自动化程度与动态性能不高,一直是其运用于产业创新研究领域的主要障碍。[方法]为解决上述难题,提出了基于知识图谱分析的产业创新预测模型;给出了该模型的框架结构、功能模块以及运作流程,详述了其中的关键算法;该模型通过灰色分图算法对产业创新项目规划进行内容界定与可能性评估,通过知识图谱生长衍化算法对产业创新未来趋势进行预测。[结果]实测结果表明,该模型比既有的预测模型,具有更高的分图收敛速度和图谱覆盖度,并具备较为精准的预测能力。
〔关键词〕情报处理;知识图谱分析;产业创新;评估预测
DOI:10.3969/j.issn.1008-0821.2018.06.021
〔中图分类号〕G203;F276 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0138-06
〔Abstract〕[Objective]The low automation and dynamic processing capability of knowledge graph analysis systems and models are major obstacles in the advance of industrial innovation evaluation and prediction applications.[Context]In order to deal them,a novel industrial innovation evaluation and prediction model was proposed based on knowledge graph analysis.And its frameworks,functional modules,and working flows were given as following.By a novel grey sub graph algorithm,the model made industrial innovation project planes content definition and possibility assessment.And a knowledge graph growth and evolution algorithm was used to predict the future trend of industrial innovation.[Results]Actual measurement results showed that the model had better sub-graph convergence rate,graph coverage,and prediction efficiency than the traditional does.
〔Key words〕information processing;knowledge graph analysis;industrial innovation;evaluation and prediction
知識图谱在图书情报学界也被称为知识域可视化或知识领域映射地图,该技术能够将知识资源及其载体有机地结合起来,并且通过对知识点(资源)与知识链(关系)构成的复杂网络进行处理,来挖掘、分析和显示这些要素之间的深层次关系。目前,知识图谱及其相关算法已在众多交叉领域得到了应用,其中产业创新管理工作中广泛应用知识图谱作为决策辅助工具与信息情报管理手段,并出现了一批新型的知识图谱应用方法与技术,包括:王学东等研究人员提出了产业衍生的知识图谱耦合机理,并对其应用前景进行了分析[1]。陈瑜等人基于知识图谱构建了战略性新兴产业创新演进框架,证明了知识图谱对于产业创新具有良好的描绘与仿真能力[2]。韩路等人研究了基于贝叶斯网的知识图谱链接预测算法,为知识图谱预测与评估工作打开了思路[3]。Ali Saleh S与Nader Nada等人总结了“信息资源—知识图谱—信息应用”的研究路径,并指出知识图谱结合时间序列计算等技术,具有广阔的管理应用前景[4-5]。Heiko Paulheim与Gaimei Lu等人对知识图谱的分图评估技术进行了研究,并证明知识图谱分图算法能够使管理者从局部视图出发获取所需信息,避免信息过量等问题[6-7]。Robert R.Hoffman和Kevin T.Knudsen等人对上述研究结果进行了论证,并且将知识图谱预测技术应用在区域经济管理等工作中,取得了良好的效果[8-9]。Yi Tay与John W.Coffey等人对知识图谱在产业创新项目评估与预测工作中的应用进行了研究,提出了分图算法在知识图谱演进中的框架与流程[10-11]。Cyrus F.Nouran、Jean-Louis Ermine以及Yu-Hui Tao等人在税收管理创新等领域应用了知识图谱预测技术,并取得了良好的效果[12-14]。Wayne G.Lutters与Byron Marshall等人研究了知识图谱分图与子图演进的框架与算法,并通过数据仿真证明了其有效性和适用性,为知识图谱的预测与评估应用打开了思路[15-16]。尽管上述研究取得了一定的理论与实践进展,并证明了知识图谱在产业创新管理中的应用价值,但在实际工作中发现上述研究成果还存在人工干预较多、预测与评估精度较差、覆盖度较低等问题。基于这些问题,本研究提出了一种基于知识图谱分析的产业创新评估预测模型IIKM(Industrial Innovation Knowledge Graph Analysis Model),并给出了其中的关键算法。
1 组成结构与处理流程
为避免重复建设,本模型的知识本体(对象结构)采用美国斯坦福的开源知识图谱资源库Protégé进行表述;而评估预测模型的组成结构与知识图谱处理流程,如图1所示:
图1 模型结构与处理流程
1.1 模型组成结构
IIKM模型主要包括以下4个功能单元:
首先是预处理单元:该单元主要对基础知识图谱与检索图谱进行预处理,从而为后续工作提供数据支持。其中,首先对专家提出的产业创新信息进行预处理,主要是将其作为检索内容进行梳理,划定检索范围与主体框架,生成检索图谱;其次是对于基础知识图谱(下文中简称:基础图谱)初步处理,主要进行内容初筛、修剪奇异分枝、最终划定可用的子图,从而减少后续任务的检索工作量。
其次是分图单元:该单元主要以检索图谱为依据,对基础图谱进行检索,最终从基础知识图谱中检索到与检索知识图谱高度关联的局部关联图谱,从而发现基础图谱中高度匹配检索要求的部分,即:初步的产业创新项目支撑现状评估。
再次是评估预测单元:该单元主要完成产业创新发展的预测与评估工作,其基本内容是对某项产业创新的局部关联图谱进行知识节点与知识链的发展预测,并通过既往的关联知识图谱发展,对其发展趋势进行评估,其中的主要操作是:首先是预测与评价空间的构建;其次是预测与评价过程的收敛达成。
最后是决策辅助单元:该单元主要将评估与预测结果反馈给专家,完成管理辅助决策任务,其中的反馈形式包括评估与预测报告、可视化报表、动态跟踪报表等。
1.2 处理流程
IIKM模型的主要处理流程包括以下4个步骤:
Step1:由预处理单元与评估专家互动,通过接收与整合评估专家提供的关于产业创新项目的资料,以文本解析的方式,提取检索要求,生成检索图谱;随后根据检索图谱,对基础图谱进行预处理,精简和剥离后得到基础图谱的检索对象子图,从而节省处理开销。
Step2:由分图单元执行子图谱识别与检索,首先提取检索图谱的特征,其次以其特征、知识节点与知识链为依据,在基础图谱中高度匹配检索要求的部分,即:局部关联图谱。
Step3:评估与预测:以局部关联图谱为基础,结合当前知识图谱的历史发展序列(时间序列),对图谱的未来发展进行评估与预测。
Step4:將评估与预测结果进行整合,以报表与报告的形式反馈给专家;专家对反馈信息进行修正,并提交给相关部门,并最终根据反馈信息对模型中的参数配置进行优化与调整。
2 关键算法
2.1 基于灰色分图算法的局部关联知识图谱
这部分算法的实质是通过灰色分图子算法,即:首先将外部信息检索要求制作成检索知识图谱;并以此为依据,从基础知识图谱中进行灰色模糊检索,得到与检索知识图谱高度匹配的局部关联图谱。初始的检索知识图谱的建立步骤如下:
Step3:知识图谱快速收敛处理:实践中发现,对图谱包络计算中的距离处理,如果全部采用欧氏距离,后续收敛效率较低;而无论基础图谱还是检索图谱,其距离均应在一套知识图谱坐标系统中生成,因此本算法采用了统一的、灰色快速收敛距离生成算法,即:
此时,基础知识图谱中符合上述分图匹配特征的知识图谱元素均属于符合匹配条件的子图。至此,根据检索知识图谱的特征矢量,可以得到符合条件的局部关联知识图谱,并用于后续的预测与评估工作中。
2.2 评估预测算法
基于知识图谱分析的产业发展预测与评估工作的实质,是对2.1节中得到的某项产业的局部关联图谱进行知识节点与知识链的发展预测,并通过既往的关联知识图谱发展,对其发展趋势进行生长衍化模拟。如上文所述,在该算法的实现过程中,有两个关键点:首先是预测与评价空间的构建;其次是预测与评价过程的收敛达成。下文将在算法描述的同时,论述这两个关键点的达成方法:
首先进行预测与评价空间的构建:
Step2:预测关键特征自动筛选:由于预测及评价使用的熵值是必须通过预测与评价空间(矩阵)进行,因此,当对某个具有b个评价及预测关键特征(同时具有m个专家建议评估参数)的空间进行特征自动筛选时,可以构建评价与预测空间,有:
其次,由于产业创新项目预测与评估工作是在专家评判框架内推进的,必须在预测与评估过程中引入人工干预变量,基于2.2节第一部分“预测与评价空间构建”所得到的预测与评估边界,本研究设计的预测与评估详细算法如下:
3 实验结果与分析
IIKM模型的效能在实际应用中得到了验证。2017年10月10日至20日间,××省经信委对未来产业创新项目的可行性进行考察。目前较为通用的方法是,基于已构建完成的省产业知识图谱数据,采用专家评判法与自动预测分析模型相结合,对各个项目进行考察,相关的软硬件环境以及关键步骤如下:
硬件环境采用了联想System x3850 X6服务器,其CPU为Xeon E7-4809,为适应知识图谱模型的海量数据处理需求,存储系统加强到32GB内存和20T外存(硬盘)。
软件环境的操作系统平台采用了Windows Server2008,数据库平台采用了Oracle 12C,图谱生成工具采用了美国搜索技术公司的VantagePoint。
数据环境根据美国斯坦福的开源知识图谱资源库Protégé标准进行搭建。其中,知识节点与知识链以图谱元素形式存储在Oracle数据库中,Protégé库作为数据库存储与VantagePoint分析工具之间的格式转换通道。目前的省产业知识图谱的数据量为知识节点19 723个,知识链94 723条(其中57%以上的知识链中关联5个以上的节点),需要依此为基础数据,对6个产业创新项目(其图谱知识节点数量为200~400;知识链数量不超过2 000)进行发展预测与可行性研究。而对应的数据处理步骤为:
Step1:基础知识图谱导入,即以Protégé为通道,将Oracle数据库中存储的数据导入VantagePoint分析工具中备用。
Step2:通过预测模型,即IIKM模型与KGDM(Knowledge Graph Detection Model)模型,分别对专家提出的产业创新要素信息进行预处理,主要是将其作为检索内容进行梳理,划定检索范围与主体框架,生成检索图谱。
Step3:IIKM模型与KGDM模型分别根据自身模型生成的检索图谱,对导入VantagePoint分析工具中的基础知识图谱进行产业创新预测,并输出预测的知识图谱,导入VantagePoint工具中进行绘制,并提交给专家。
基于上述需求、软硬件环境以及数据处理步骤,××经信委通过IIKM模型与KGDM模型进行图谱数据分析预处理,并进行了平行对比实验。实验过程是由14名产业创新研究专家组成的两个考察小组分别对两种模型进行了预测分析应用,而后两个考察小组交换预测模型,对同一任务进行处理,完成后将得到的4组结果按模型进行汇总和整理:最终得到的3种主要实验结果(图谱覆盖度、预测准确度,专家综合评价指标)如图2所示:
IIKM模型与KGDM模型得到了2组预测结果,如图2所示;2组预测结果的图谱覆盖度差别较大,体现了性能上的较大差异。图2中,图谱覆盖度可以定义为:在全局知识图谱中,通过一定的预测或发现模型处理,生成的局部知识图谱,其信息量(知识节点与知识链)占实际所需信息量(完整的局部关联知识图谱)的比例。而由图2可知,在5个产业创新项目的图谱覆盖度方面IIKM模型均具有较为明显的优势,说明其对局部关联知识图谱的挖掘效果较好,发展预测与态势评估能力较强。
如图3所示;2组结果的预测准确度差别较大,体现了性能上的较大差异。其中,预测准确度可以定义为:在全局知识图谱中,通过一定的预测或发现模型处理,生成的局部知识图谱中实际被采纳的信息量(完整的局部关联知识图谱),占到实际所需信息量的比例。而由图3可知,在5个产业创新项目的预测精确度方面IIKM模型均具有较为明显的优势,说明其能较为准确地把握和预测局部关联知识图谱的发展趋势与当前态势,能够节省较多的人工开销与系统计算资源开销。
评分結果进行累计,待5次任务完成后,计算总的平均分。最终的专家评分结果显示,IIKM模型在人机效能与实用性等方面,大大超过了KGDM模型,能够较好地为知识图谱用户服务,具有良好的推广前景。
4 总结与未来工作
基于知识图谱分析的产业创新预测模型在实际应用中取得了较好的效果,体现出较高的实用价值与推广前景。为适应我国万众创新的良好形式与产业升级大环境,还需要对该模型进行下列几方面的优化:1)是知识图谱与产业创新预测模型的普适化改造,从而为更广泛、内容更复杂的领域提供服务;2)是研究收敛速度更快的预测与评估算法,从而提高产业创新预测工作的效率;3)是扩展知识图谱的信息来源,并研究知识图谱更新的自动化方法,从而进一步降低人工干预带来的工作量,并减少主观干涉带来的不良影响。
参考文献
[1]王学东,汪园.基于专利视角的武汉市信息技术产业创新现状研究[J].现代情报,2017,37(9):144-149.
[2]陈瑜,谢富纪,于晓宇.基于知识图谱的战略性新兴产业创新研究演进分析[J].上海管理科学,2015,37(4):1-7.
[3]韩路,尹子都,王钰杰,等.基于贝叶斯网的知识图谱链接预测[J].计算机科学与技术,2017,11(5):742-751.
[4]Ali Saleh S.Balaid,Masoumeh Zibarzani,Mohd Zaidi Abd Rozan.A Comprehensive Review of Knowledge Mapping Techniques[J].Journal of Information Systems Research and Innovation,2015,2(12):58-63.
[5]Nader Nada,Mohamed Kholief,Mahmoud Ghanem.Dynamic Knowledge Management Toolkit[J].Journal of Information Management,2017,12(4):192-199.
[6]Heiko Paulheim.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J].Journal of Information Science,2016,35(10):235-257.
[7]Gaimei Lu,Danhua Su.Knowledge Mapping Analysis of Finance Research[J].American Journal of Industrial and Business Management,2015,5(1):686-698.
[8]Robert R.Hoffman,John W.Coffey,Kenneth M.Ford.STORM_LK:A Human-Centered Knowledge Model For Weather Forecasting[J].Journal of Knowledge Management,2016,35(8):542-537.
[9]Kevin T.Knudsen,Mark Blackburn.A Knowledge and Analytics-Based Framework and Model for Forecasting Program Schedule Performance[J].Procedia Computer Science,2016,5(7):319-326.
[10]Yi Tay,Luu Anh Tuan,Minh C.Phan.Multi-Task Neural Network for Non-discrete Prediction in Knowledge Graphs[J].Journal of Knowledge Management,2017,1(8):99-108.
[11]John W.Coffey.Concept Mapping and Knowledge Modeling:A Multi-Disciplinary Educational,Informational,and Communication Technology[J].Journal of Information & Knowledge Science,2016,5(2):50-56.
[12]Cyrus F.Nouran.Agent Computing,KB for Intelligent Forecasting,and Model Discovery for Knowledge Management[J].Journal of Information Processing Technology,2017,3(5):15-28.
[13]Jean-Louis Ermine,Imed Boughzala,Thierno Tounkara.Critical Knowledge Map as a Decision Tool for Knowledge Transfer Actions[J].Journal of Knowledge Management,2014,4(2):129-140.
[14]Yu-Hui Tao,Yu-Lung Wu,Jih-Kun Li.A Taxonomy of Knowledge Maps in Business Application[J].Journal of Management Information Systems,2017,3(1):12-37.
[15]Wayne G.Lutters,Mark S.Ackerman,James Boster,et al.Mapping Knowledge Networks in Organizations:Creating a Knowledge Mapping Instrument[J].Journal of Management Information Systems,2017,3(5):42-61.
[16]Byron Marshall,Hsinchun Chen,Therani Madhusudan.Matching Knowledge Elements in Concept Maps using a Similarity Flooding Algorithm[J].Journal of Decision Support Systems,2015,11(7):212-224.
(責任编辑:孙国雷)