APP下载

基于知识图谱的电网科技评审专家推荐方法研究

2023-01-03魏冠元王冠群刘紫熹王其清

青海电力 2022年3期
关键词:图谱电网专家

徐 翀,魏冠元,王冠群,刘紫熹,王其清,张 炎

(1.国网能源研究院有限公司,北京 102209;2.国网智联电商有限公司,天津 300000)

0 前言

近些年,国家逐步加大对电网科技创新的投入,并将其作为重点突破的方向,电网科技项目也迎来更大的发展空间。然而,伴随着现代信息技术的融合发展,各个学科领域间的交叉、合作项目变得越来越常见[1],再加上电网科技专家库的规模的不断增加,导致目前以人工筛选专家进行项目评审的电网企业面临挑战。具体来说,电网科技项目评审管理方面存在着项目管理人数较少,且管理人员对项目领域不了解等情况,难以应对规模日益增长的专家库和愈发模糊的学科边界所带来的评审专家遴选准确性和效率低下的问题。

为解决上述一系列问题,已有学者提出采用推荐系统算法去解决人工遴选评审专家的问题[2],主要可分为基于内容的推荐算法、基于协同过滤的推荐算法和基于混合推荐方法。文献[3]提出基于协同过滤和混合相似性的推荐算法,拟解决协同过滤算法数据稀疏和冷启动问题;文献[4]提出基于混合贝叶斯个性化推荐算法,设计了更个性化的混合推荐算法,具有一定的实用价值;文献[5]提出一种基于语义分析的推荐算法,主要针对语义的关联规则进行推荐系统的设计和实现。

为了克服评审专家推荐的冷启动问题,本文提出一种基于知识图谱的电网科技项目评审专家推荐算法,该法首先构建包含专家、研究领域、项目及其关系的领域知识图谱,再利用同义概念对齐算法进行节点融合,形成面向评审专家推荐的电网科技知识图谱,在此基础上再采用关键词描述专家和待评项目的研究领域特征,通过音形码转码实现中文关键词相似度的准确计算,得到关键词向量与领域知识图谱概念间的距离,最后根据计算出的余弦相似度找到匹配度最高的评审专家,并通过算例验证了所提方法的有效性。

1 相关理论

1.1 知识图谱技术

知识图谱的概念在2012年由谷歌公司提出[6],目的在于加强搜索引擎的性能,伴随着人工智能和互联网的不断发展,知识图谱因其高效的知识表达与强大的知识推理能力在人工智能领域得到了广泛关注。知识图谱本质上是一种大型的语义网络,它用图中节点表示实体,用节点间的连线表示实体间的关系,将复杂的实体关系映射到一个可视化的二维图形上。

知识图谱的一般构建过程可分为图1所示的知识获取、知识表示、知识融合和知识推理4个步骤,其中知识获取是知识图谱构建的基础,目的在于从数据中提取包括头实体、尾实体和关系在内的知识三元组,形成基础语义单元。本文构建面向评审专家推荐的电力科技领域知识图谱,并采用基于知识图谱的特征学习方法实现评审专家推荐。

图1 知识图谱构建过程

1.2 基于音形码的中文相似度匹配算法

字符串相似度匹配算法指通过一定的方式计算两个字符串间的相关程度,其相似程度通常用一个百分数加以表示。传统的字符串相似度匹配算法如编辑距离算法、N-gram算法等均是通过计算两个字符间的转化代价进行量化,转化代价越高,则字符串越不相关。但是由于传统的字符串相似度匹配算法大多针对拉丁文字发明,用来计算象形文字的中文字符串时会导致准确率大大降低。

对于中文字符串相似度匹配算法,文献[7]中李星提出基于时间翘曲距离的短文本语义相似度计算方法,针对短文本相似度匹配可以得到较为精确的结果,但对于单字和词语的匹配效果欠佳;文献[8]中作者提出一种基于词向量模型的改进中文序列对比算法,较传统的序列对比法提高了精确性和适应性,但更适合中文长句间的相似度对比;文献[9]中作者提出了融合词性特征的中文相似度计算方法,可以通过调整权重,使匹配结果更加准确,但该法仅考虑语义层面上的相似度,并未对中文字形信息进行考虑。综上所述,本文拟采用文献[10]中提到的基于音形码的汉字相似度对比算法。该法考虑到汉字字音、字形、笔画、结构等影响,将汉字进行重新编码再计算相似度,更适用于中文短词的相似度计算,可用来比对专家和待评项目的关键词相似性。

1.3 TF-IDF算法

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,其基本思想是:如果某个词或短语在一篇文章中出现的频率很高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力[11]。TF-IDF常用来评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

记文档语料库大小为 D = {d1,d2,… ,dN},dj表示第j个文档,N为文档个数,从所有文档中提取得到的非重复关键词构成词典T = {t1,t2,… ,tn},tk表示第k个关键词。TF-IDF 由术语词频(TF)和逆文档词频(IDF)构成,其中术语词频计算公式为

式中:fk,j表示术语tk在文档dj中的出现频次;max{ fk,j}表示文档dj中术语的最高频次。逆文档词频的计算公式为:

式中:nk表示语料库中包含术语tk的文档个数。综合可得术语的IF-IDF分数:

2 基于知识图谱的电网科技项目评审专家推荐流程

本文所提基于知识图谱的电网科技项目评审专家推荐方法如图2所示,通过构建的领域知识图谱,分别将专家关键词、项目关键词映射到各个节点,再计算其相似度得到与待评审项目最为匹配的候选专家。

图2 基于知识图谱的专家推荐算法流程

2.1 领域知识图谱构建

领域知识图谱是以领域概念作为节点,以概念间的共现关系作为边组成的关系网络图[12]。通过构建领域知识图谱,可以将生活中不同概念映射到同一节点挖掘与其他概念间的关系。对于本文所构建的电网科技领域知识图谱,需先建立图谱的基础三元组[13](h,r,t),其中h,t分属头、尾实体,r表示两实体间的关系。在本文中,实体共三类:专家、领域和项目;而关系分为:专家与专家的合作关系、专家与研究领域的关系,以及不同研究领域的交叉关系和专家研究领域与项目的相关关系。图3展示了电力专家知识图谱构成的基本结构。

图3 电力专家知识图谱构成的基本结构

2.2 关键词抽取

关键词抽取分为对专家领域关键词抽取与项目关键词抽取,目的是将输入的段落文字转化成形如<关键词,音形码,权重>的特征向量,便于下一步将向量映射到知识图谱节点。

每位评审专家都发表过一定的学术成果,比如论文、专利等。这些成果蕴含着每位专家的主要研究方向和兴趣点,是对专家进行关键词提取的核心数据。本文拟采用TD-IDF算法对评审专家论文进行关键词提取,获得专家擅长领域的关键词特征向量,并将其按照权重降序排列,再将关键词利用音形码重新编码,最终得到第i个评审专家的候选关键词特征向量Ki为:

其中:ijv表示第i个专家的所有论文集合中根据TF-IDF提取关键词并按照权重降序后的第j个关键词;ijn表示关键词ijv经过音形码重新编译的编码;ijs表示关键词ijv所对应的权重。

同理,利用TF-IDF算法对电网待审项目进行关键词提取,并将结果按照权重降序排列得第i个电网待审项目的关键词特征向量iP为:

其中:'ijv表示待审项目根据TF-IDF算法提取关键词并按照权重降序后的第j个关键词;'ijn表示关键词'ijv根据音形码重新编译的编码;'ijs表示关键词'ijv所对应的权重。

2.3 领域图谱节点映射

考虑到领域知识图谱的节点上会形成诸如电力系统、电力系统自动化和电力系统及其自动化等同一概念的不同中文表达方式,这些节点理应在知识图谱上被合并为同一节点,当不进行此项操作时会造成知识图谱语义发散,进而影响评审专家推荐的精度。针对此问题,本文采用基于机器翻译的同义概念对齐方法针对相同概念的不同表达形式的领域关键词进行合并。

设C为概念集合且 C = {c1,c2,… ,cn},将每个领域关键词设置为一个中英文对照的集合即ci= {chi,eni},则基于机器翻译的同义概念对齐算法可表示为:

则对应领域知识图谱一个节点的概念可表示为:

通过机器翻译,可将知识图谱某节点表示为类似{配电网自动化、配电自动化、自动化配电、配网自动化,Distribution network automation,distribution automation,dms}的概念集合,从而有效解决语义发散问题。

为了解决节点对齐问题,本文将专家关键词向量和项目关键词向量重新根据音形码进行编码,再分别与领域知识图谱的领域节点间通过编辑距离计算实现加权转换,实现专家关键词向量、项目关键词向量映射至知识图谱同一节点,获取专家和项目最为匹配的领域特征向量。

将式(7)知识图谱节点概念利用音形码规则进行重新编译,编译结果记为 ci' = {< ci1, ci'1>,<其中ci'j表示概念cij利用音形码编译后的编码,由式(4)得到评审专家关键词特征向量Ki=(,vi2,ni2,si2>,…),将两个音形码n1与n2之间的编辑距离用函数ED(n1,n2)表示,则专家某个关键词vij与知识图谱领域节点ck之间的相似度sim( vij,ck)可表示为:

则通过相似度计算和排序,可得到专家关键词 iK映射到知识图谱节点的向量PAi为:

其中:simij取值为

同理可得到电网待选项目关键词映射到知识图谱节点的特征向量PBi为

2.4 相似度匹配

根据式(9)和式(10)可得到评审专家和待评项目映射到知识图谱节点的特征向量PAi和PBi,本文采用余弦相似度算法计算二者之间的匹配相似度,见式(11)。

利用该公式,可以计算出待选项目与所有评审专家的匹配分数,实现项目专家的最佳匹配。

3 算例分析

3.1 实验评测指标

令u表示推荐人,()R u表示根据人工推荐方式做出的推荐列表,()T u表示使用推荐算法做出的推荐列表,则推荐结果准确率可表示为:

推荐结果的召回率可表示为:

综合考察的F分数可表示为:

3.2 实验结果分析

本文根据某电网企业科技项目的研究领域分类,从知网选取27 915篇论文构建了电网科技领域知识图谱(图4),采集该企业科技评审专家库相关专家发表的15 000篇论文基础数据,提取专家擅长领域的关键词。将该电网企业某年度科技项目中的50个待审项目作为所提评审专家推荐方法测试数据,为进行对照,分别采取人工推荐、传统向量相似度计算和贝叶斯推荐方法作为对比。

图4 学科知识图谱

本实验中,为了增强推荐算法的准确性,采取K近邻法。其中,近邻数K分别选择10、20、30、40,实验结果取5次试验的平均值。由于本场景基于内容推荐的特殊性,一般算法难以在本场景下进行运用,故本文分别采取知识图谱算法(KGR)、向量相似度算法(vsREC)和贝叶斯算法(BPR)进行对照,其结果如图5、6所示。

图5 不同近邻数K下的准确率

实验结果表明,随着近邻数的增加,3种算法推荐均在K=10时取得最优值。由于BPR在实验过程中存在矩阵过于稀疏问题,导致推荐结果准确性大幅落后于其余二法。并且相较于传统的向量相似度计算方法,本文提出的基于知识图谱的向量映射方法在整个阈值内准确性优于传统计算方法,在实际推荐过程中可以有效解决专家与项目之间的模糊推荐问题,使推荐结果更具准确性。

图6 不同近邻数K下的召回率

4 结论

本文通过构建领域知识图谱,关键词提取、音形码转码、向量映射、相似度匹配实现电网项目与领域专家的匹配。在构建知识图谱时,从大量论文中抽取出概念间的相关关系,利用同义概念对齐算法进行节点融合,构建科学知识图谱。再根据TF-IDF算法抽取论文、专家关键词并运用音形码进行转码。将转码后的关键词利用编辑算法进行关系映射,计算出关键词向量与领域知识图谱概念间的距离,最后根据计算出的余弦相似度找到匹配度最高的评审专家,实现专家和待审项目的匹配过程。通过实验验证,本文提出的基于知识图谱的内容推荐算法能够较好的实现专家的遴选,对于提升电网科技项目评审质量与效率具有积极意义。但本文算法仍存在一些诸如关键词提取阈值设置、同义概念对齐等问题,在后续的工作中,笔者会进一步改进算法,在更大数据集上验证并提高推荐精度。

猜你喜欢

图谱电网专家
高清大脑皮层发育新图谱绘成
基于图对比注意力网络的知识图谱补全
计及SOC恢复的互联电网火储联合AGC控制策略研究
致谢审稿专家
穿越电网
绘一张成长图谱
电网调控技术在电力系统中的应用
电网基建施工现场注意事项及改善
主动对接你思维的知识图谱
请叫我专家