APP下载

以技术图谱为核心的电网企业科技创新数字化平台研究

2021-09-28华斌赵三珊陆启宇黄兴德张堰华

中国科技纵横 2021年14期
关键词:图谱实体数据库

华斌 赵三珊 陆启宇 黄兴德 张堰华

(1.国网上海市电力公司,上海 200120;2.国网上海市电力公司电力科学研究院,上海 200437;3.上海久隆企业管理咨询有限公司,上海 200052)

电网企业涉及的技术领域广泛、高端装备密集,是我国科技创新的中坚力量。在能源革命和数字革命相融合的趋势下占领电力技术与互联网技术的融合高地,成为企业创新的重中之重。随着大数据时代的到来,信息的规模化、实时化、碎片化趋势不断加剧,科技决策者识别技术前沿、热点面临更大挑战,科研人员搜寻、整合、分析科技资源面临更大难度。电网企业有必要建设数字化服务体系,为破解大数据时代的科技创新难题提供解决方案。

1.科技创新工作面临的数字化挑战

1.1 科技创新工作的数字化现状

电网企业的信息化工作启动较早,早在2010年左右就着手构建公共数据模型,部署各类业务信息系统。目前,科技工作管理系统服务于日常科技管理和业务开展,包含科技项目管理、实验室管理、科研团队管理、技术标准管理等模块,经过长期使用,系统中沉淀了大量数据资源,包括项目建议书、可研报告、项目成果、实验室列表、人才清单等,为数据价值的进一步挖掘奠定了基础。此外,电网企业还高度重视科技文献资源的数字化,通过自建或购买的方式,拥有了10余种国内外文献数据库,例如,中国知网期刊数据库、中国知网学位论文数据库、国研数据库、超星读秀全文数据库等。

1.2 存在问题及数字化提升的必要性

总的来说,电网企业以往的数字化工作集中于业务系统、科技资源建设两方面,已经难以适应数字化时代对科技创新提出的新要求,具体体现在3个方面。

(1)文献资源分布零散,信息查找存在不便。企业购买及在建的各个数据库之间相互独立,查找文献需要以不同的登录账户和密码登录,反复登录不同的数据库,文献查找的效率较低。(2)数据关联尚未建立,难以开展深入分析。科技创新相关的各类数据,如论文、专利、项目、人才等均孤立存在,尚未构成拓扑结构网络。因此,难以开展数据关联分析,难以提供深层次洞见。(3)辅助决策支撑较弱,数字智能有待挖掘。现有的信息系统侧重于业务管理,然而科技创新中还存在着大量决策类工作,如技术布局、合作方优选、立项优选等。目前,这类决策主要依赖专家根据以往经验制定,缺乏数据驱动的量化决策依据。

2.知识图谱应用于科技创新工作的相关研究

知识图谱由谷歌公司于2012年提出[1],是一种用图模型来描述知识和建模世间万物的关联关系的技术方法,知识图谱由节点和边组成,节点可以是实体或是抽象的概念,边可以是实体的属性或实体之间的关系[2]。知识图谱可以很好地辅助机器进行语义的理解和语言的生成,从而在智能搜索、自动问答、智能推荐、智能决策等各个领域得到广泛应用[3]。

在科技创新领域,一些文献对知识图谱的应用方向进行了探讨。陈璐等基于中国知网收录的1627篇文献,利用Citespace绘制作者、机构、关键词知识图谱,分析我国高校科技成果研究领域的主要力量、研究热点、研究趋势等[4];刘磊等基于CSSCI收录的4228篇论文,利用Citespace绘制科技成果转化研究知识图谱,分析我国科技成果转化的研究热点和前沿领域[5];刘志辉等通过构建科技创新评价指标知识图谱,建立指标与指标、指标与数据、指标与可视化的关联,实现指标的自适应评价计算[6];周园春等介绍了科技大数据知识图谱在科技实体推荐、科技社区发现、科技实体评价、学科交叉及学科演化研究等方面的应用[7]。此外,还有一些文献对科技创新知识图谱平台的建设进行了研究。胡吉颖等依托中国科学院文献情报研究中心,构建基于知识图谱的科技大数据知识发现平台,实现论文、专利、标准、项目等10类科研实体的智能语义发现,支持语义搜索、科研综述、主体聚合分析、学者画像等功能[8];于升峰基于期刊论文、专利文献、科技成果、机构人才等数据库,构建科技智库知识图谱,实现专家画像、聚类分析、趋势分析等功能[9]。

3.技术图谱及其对科技创新工作的价值

3.1 技术图谱的内涵

电网企业从科技创新数字化需求出发,借鉴知识图谱相关研究,提出了技术图谱这一理念。技术图谱是反映能源互联网领域的技术领域、研究、关键词、研究者、研究机构及其之间拓扑关系的网络结构图谱,其本质是能源互联网技术的知识图谱。技术图谱中实体的关联关系如图1所示。

图1 技术图谱中实体的关联关系

3.2 技术图谱的特征

技术图谱的核心是基于图的数据组织方式与可视化展现形式,与传统的数据结构及呈现形式相比,具有以下4个方面的显著优势:

(1)实体关系更加直观:技术图谱由节点和边构成,每个节点代表一个科技创新相关实体,如关键词、研究者、研究机构等,每两个节点之间的连线构成边,反映实体之间的关系,比如研究者和机构的隶属关系、关键词间的共现关系等。因此,技术图谱可以全面、客观地呈现能源互联网技术体系以及科研生态系统。

(2)知识发现更加高效:技术图谱以图的方式为孤立的单点数据之间建立联系,通过复杂网络算法开展数据分析,可以发现隐藏信息。例如,通过开展节点中心性分析、社团分析、路径分析等,可以有效发现技术集群、研究热点、科研团体、学科带头人等,从而提高对科技创新工作的洞察力。

(3)信息匹配更加精准:搜索与推荐是互联网时代人们获取信息的重要方式。技术图谱对科技创新相关的实体、属性和关系进行描述,为搜索和推荐提供丰富的背景知识,有利于搜索引擎理解用户意图,实现语义搜索;有利于推荐算法深层次发现用户兴趣,提高推荐精度。

(4)决策支撑更加量化:在技术图谱上应用知识推理技术,可以根据已知的知识推导出新知识,从而发现科技创新各类实体的特征标识。通过补全和泛化实体“标签”,并量化“标签”权重,自动形成科技创新实体的全方位画像,实现智能化辅助决策,降低对经验的依赖。

3.3 技术图谱在科技创新中的应用场景

电网企业的科技创新全过程包括科技规划、选题立项、研究开发、成果转化、科研人才培养等工作模块。技术图谱可以应用于以下5类主要场景中,为科技创新工作提供有力支撑。

3.3.1 基于技术图谱的可视化展示

技术图谱擅长复杂关系的刻画,科技创新工作中存在的主要关系包括,文献与技术领域的隶属关系、文献之间的引用关系、研究者之间的合作关系等。因此,电网企业可以依托科技文献数据构建各类关系网络,实现对科技创新要素关系的可视化全景展示。

(1)技术方向共现网络:图中的每一个节点代表一个技术方向,节点大小代表该技术方向的文献数量,连接节点的边代表一篇文献同时属于两个技术方向。因此,节点越大代表该技术方向的文献越多,连线越粗代表同时属于两个技术方向的文献越多。

(2)文献共被引网络:图中的每一个节点代表一篇文献,节点大小代表该文献被引用的总次数,连接节点的边代表两篇文献同时被另一篇文献引用。因此,节点越大代表该文献被引用得越多,连线越粗代表两篇文献越倾向于被共同引用。

(3)关键词共现网络:该图谱中每一个节点代表一个关键词,节点大小代表所有文献中该关键词的出现频次,连接节点的边代表两个关键词同时出现在一篇文献中。因此,节点越大代表该关键词越常见,连线越粗代表两个关键词越倾向于同时出现。

(4)作者合作网络:该图谱中的每一个节点代表一位作者,节点大小代表该作者参与的所有文献数量,连接节点的边代表两位作者共同参与某一篇文献发表。因此,节点越大代表该作者越高产,连线越粗代表两位作者越经常合作发表文献。

3.3.2 基于技术图谱的图计算

技术图谱以图作为数据模型表达关系,可以通过图计算的方式寻找图谱中节点间的隐含联系,为科技创新工作提供深度洞察力,典型的应用场景包括路径发现、社团发现和关键节点发现。

(1)路径发现。路径发现是探索网络中两个节点之间主路径的一种算法,通过定义节点起始和终止节点,从起始节点开始遍历关系直到到达终止节点,累计遍历权重最大的路径即为主路径[10]。路径发现可以用于梳理研究脉络或人脉网络。例如,在关键词共现网络中运用路径发现,可以识别研究主题之间演变的主要脉络和重要节点,为多个项目协同立项提供参考;在作者合作网络中运用路径发现,可以发现两位研究者合作的主要人际链条,为联系外部专家提供中间引荐人人选。

(2)社团发现。社团发现是探索图上多个节点之间亲疏关系的一类算法,代表性的包括Louvain和LPA算法。其中,Louvain算法基于模块度发现社团[11],具有良好的效率和稳定性;LPA算法基于标签传播发现社团[12],由于其简单易实现、执行时间短受到广泛关注。社团发现可以用于识别技术集群或研究团队。例如,在技术方向共现网络中运用社团发现,可以识别关系密切的技术团体,团体内的技术应考虑协同立项和研发;在作者合作网络中运用社团发现,可以识别经常合作的科研团队,为组建项目团队成员提供重要参考。社团发现的应用如图2所示。

图2 社团发现示意图

(3)关键节点发现。关键节点是网络中处于凝聚性或枢纽地位的节点,代表性算法包括节点的度[13]、接近度[13]、介数[14]等。关键节点发现可以用于识别重要实体。例如,关键词共现网络中的关键节点一般为热点研究主题,作者合作网络中的关键节点一般为高影响力的技术专家。关键节点发现的应用如图3所示。

图3 关键节点发现示意图

3.3.3 基于技术图谱的检索

搜索引擎是互联网基础应用之一,传统搜索引擎以文本分析为核心,根据网页之间的超链接返回结果,往往不能满足用户的需求。技术图谱支持语义搜索,能有效提高搜索结果的全面性和准确性。

(1)扩大召回范围。例如,用户查询关键词“上海市电力公司”时,传统搜索引擎会返回包含关键字“上海市电力公司”的网页。技术图谱提供的语义网络,支持按照主题而不是字符串检索,因此,搜索引擎会进行实体的等价推理和上下位关系推理,将研究机构为“国网上海电力”“国网上海电科院”“浦东供电公司”等的科技文献一并召回。

(2)提升对用户搜索意图的理解。例如,用户查询关键词“上海电力公司”“虚拟电厂”时,传统搜索引擎会返回包含关键字“上海市电力公司”“虚拟电厂”的网页,因为搜索引擎没有理解用户是想知道“上海市电力公司”在“虚拟电厂”领域的科技文献。技术图谱作为背景知识,可以丰富对科技文献的描述,因此,搜索引擎将根据“上海市电力公司”“虚拟电厂”两个实体与科技文献实体之间的链路关系返回搜索结果,匹配更加精准。

3.3.4 基于技术图谱的推荐

电网企业拥有海量的科技资源,用户在资源搜索中存在信息过载问题,推荐系统作为一种信息过滤的手段,能有效提高搜索效率和精度。传统的推荐系统一般采用协同过滤算法,可能存在用户和物品交互的稀疏性问题,过拟合风险较大[15]。技术图谱是文献、作者、机构等科技创新要素的语义网络,可以为推荐提供丰富的辅助性信息,大大提高推荐的精准性。具体表现在以下方面:

(1)以文献的属性信息为辅助性信息:如果存在“研究A-属性-属性值A”以及“研究B-属性-属性值B”的三元组关系,且属性值A=属性值B,那么可以向对文献A感兴趣的用户推荐文献B。

(2)以文献的引用关系为辅助性信息:如果存在“研究A-引用-研究 B”的三元组关系,那么可以向对文献A感兴趣的用户推荐文献B。

(3)以作者合作网络为辅助性信息:如果存在“作者A-研究-作者B”的三元组关系,则作者A、作者B之间存在合作关系,那么可以向作者B推荐作者A感兴趣的文献。

3.3.5 基于技术图谱的辅助决策

在科技创新工作中,管理者面临着为科研项目遴选合作方、评审专家,团队成员等问题,传统上一般依赖管理人员的经验决策。以技术图谱为依托,为科研机构和人才构建画像,得到高度精练的特征标识和量化的评价结果,可以有效提高相关决策的科学性。基于技术图谱的辅助决策实现步骤如下:

(1)明确决策需求。决策需求来源于业务场景,以为某项目优选项目经理为例,项目和人才所属专业领域的高匹配性,是人才优选的首要需求。因此,运用自然语言处理技术,采用分词算法对项目建议书进行词语切分和解析,采用TF-IDF、TextRank、主题模型等提取算法提炼出选题中的关键词以及对应的权重值,作为该课题所属的技术领域标签。

(2)项目标签的语义泛化。将项目的技术领域标签与技术图谱中的“技术领域”类实体进行匹配,从匹配到的实体出发,采用随机游走算法,利用技术图谱提供的实体间关联关系,计算各实体节点被访问到的概率,概率高的“技术领域”类实体可以作为项目的新标签,从而实现项目标签的泛化。例如,从初始技术类实体“可再生能源”去技术图谱中随机游走,很可能找到“风力发电”“水力发电”等在项目中未提及但语义相关性强的实体。

(3)人才标签补全。以科研人员的合作网络为依托,利用知识推理去扩充、补全人才标签。知识推理技术旨在依据现有的知识信息推导出新知识,包括实体关系、属性等,或者识别出错误关系。例如,某科研人员并未发表过某技术领域的文章,但根据该科研人员的合作网络,大部分密切联系人都拥有该技术的标签,则可以推理出该科研人员也应该拥有这个标签,从而找到科研人员的缺失标签。

(4)生成候选清单。在技术图谱中筛选身份信息是公司科研人员、技术领域标签与项目标签相匹配的人员,形成项目经理候选人列表。接着,构建推荐值计算模型,考虑“年龄”“曾承担项目数”“曾承担项目评审得分”“以往项目成果质量”等高度相关的因素,科学设置各指标权重,计算生成推荐得分,根据推荐值从高到低选出适合的项目经理。

4.科技创新数字化服务平台构建方案

以公司领导、科技管理者、科研人员、人才管理者为服务对象,构建科技创新数字化平台,为技术图谱各类应用场景的落地提供数字化载体。科技创新数字化平台整体上包括3层结构:数据资源层、智能分析层和智慧应用层。如图4所示。

图4 企业级科技创新数字化平台的总体构想

4.1 数据资源层

数据资源层集成了海量的企业内、外部数据,根据原始元数据的特点,对数据进行补足、去重、剔除异常值、分类、索引等处理,构建面向科技创新工作的数据仓库。目前,电网企业的外部数据库主要包括中外文论文数据库、期刊数据库、专利数据库、标准数据库、科技成果数据库等,内部数据库主要包括科技人员数据库、项目立项数据库、项目评审数据库、项目成果数据库、实验室数据库、企业标准数据库等。以上数据库均属于结构化数据库,可以利用数据收割工具直接导出元数据。

4.2 智能分析层

智能分析层集成了各类数据分析工具,可以对数据资源层中的元数据进行处理和运算,形成技术图谱内核,对智慧应用层构成支撑。主要数据分析工具包括以下3类:

(1)自然语言处理工具:大部分科技数据以文本的形式存在,如论文、专利、标准等,自然语言处理工具包括分词、词性标注、命名实体识别、文本分类等工具,可以将人类语言转化为计算机能够理解的语言,从而提炼文献的主题关键词。

(2)技术图谱构建工具:技术图谱的构建涉及知识抽取、知识融合、知识存储、知识加工等核心技术。在知识抽取中,利用图映射、D2R转换工具抽取结构化数据,利用包装器抽取半结构化数据,利用词典、统计机器学习工具等抽取文本数据;在知识融合中,利用空间向量模型、语义模型、社会网络模型等算法进行实体消歧,利用Hobbs算法、C4.5决策树算法等实现共指消解;在知识存储中,利用Neo4j图数据库对实体和关系进行映射;在知识加工中,利用神经网络模型、Path Ranking算法等开展知识推理。通过以上工具的运用,将论文、专利、标准中蕴含的技术要素信息,如技术领域、关键词、作者、机构等,最终以节点和边构成的网络状图谱呈现。

(3)技术图谱分析工具:技术图谱是复杂网络的一种表现形式,以图论为基础的各种图算法都可以对技术图谱进行有效分析,包括,路径发现算法、社团发现算法、中心性算法等;此外,相关分析、回归分析、因子分析等传统算法也是数据分析工具的重要组成部分。

4.3 智慧应用层

智慧应用层面向公司领导、科创管理者、科研人员和人才管理者,围绕其工作场景设计可视化界面及应用功能,提供科技创新数字化服务的一站式解决方案。主要包括:

(1)技术图谱可视化:构建技术图谱可视化展示界面,形成共现网络、共被引网络及合作网络,使科技创新人员能够全面概览能源互联网领域的技术领域、科研机构、研究人员等。(2)基于技术图谱的图计算:构建图计算分析引擎,用户可以选择分析类别及具体算法,开展中心性分析、社团分析、路径分析,从技术图谱中挖掘潜在信息。(3)科技资源检索:构建一站式检索入口,可根据用户输入的关键词横跨多个数据库检索,并利用技术图谱实现语义搜索,提高检索结果的准确性。(4)科技资源推荐:构建基于技术图谱的推荐系统,依托丰富的语义信息,实现主动精准推荐。(5)数字化辅助决策:根据公司领导、科创管理者、人才管理者面临的常见决策场景,设计“战略合作方优选”“项目专家优选”“项目团队成员优选”等辅助决策模块,提供量化决策依据。

5.结语

电网企业是我国建设创新型社会的主力军,在大数据时代,信息的极大丰富化、复杂化对科技创新提出了新挑战,同时,数据存储、处理及分析技术的逐步成熟,也为科技创新数字化提供了有利条件。本文以电网企业为例,介绍了技术图谱的内涵、特征及应用场景,并提出了基于技术图谱的科技创新数字化服务平台的构建方法,可以为我国企业推进科技创新数字化转型提供参考和借鉴。

猜你喜欢

图谱实体数据库
绘一张成长图谱
前海自贸区:金融服务实体
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
补肾强身片UPLC指纹图谱
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
杂草图谱