面向科技智库的知识图谱系统构建
2021-06-06于升峰
摘要:[目的/意义]科学知识图谱作为新兴的知识发现工具和可视化知识分析平台,可以辅助科技智库洞察科技领域的发展脉络,预测未来科技发展趋势。[方法/过程]本研究遵循科技智库的工作逻辑和流程,构建科技活动全要素的科学知识图谱,并开发知识图谱分析发现系统。实施知识获取、知识融合和知识计算。[结果/结论]实现知识深度挖掘、知识隐含关系发现、趋势预测和其他智能化决策应用。
关键词:科技智库 知识图谱 可视化 知识库 趋势预测 辅助决策
当前全球科技创新步入空前活跃期,以信息技术、生命科技、新能源、新材料等为引领的新一轮科技革命正孕育爆发,引导着全球产业变革加速推进,影响着人们的生产生活方式,重构着全球科技创新的发展格局和竞争力。科技智库是科技创新领域的智囊和参谋,对科技和产业的超前预测、战略研究和政策评估深刻影响着经济社会的治理,全球高端科技智库的作用日益凸显,表现出走向世界智库中心舞台的趋势[1]。而今科技智库已经由传统的单纯依赖专家经验判断转向依靠现代信息技术和专家智慧综合分析研判,尤其是通过构建科学知识图谱系统,运用大数据分析、知识挖掘、人工智能和可视化等技术,进行复杂运算和分析,支撑研究战略和结论。
知识图谱是2012年由谷歌提出的基于互联网语义搜索而构建的大数据本体和概念关联关系知识库体系,科学知识图谱运用了知识图谱的核心理念和技术,综合运用图谱学、计量学和科学数据库技术,构建科学技术知识谱系,揭示多重知识单元和知识组织间的时间、空间等复杂关系,可推演新知识结构和科技发展趋势。
本研究分析了我国科技智库探索信息化、數据化、智能化辅助决策的发展脉络,结合科技智库的研究需求和知识图谱的技术功能特征,构建了科技智库科学知识图谱系统,设计了系统数据模型和计算模型,研究了应用范式和运行流程,并实证应用于前沿技术跟踪监测,验证了其可行性和应用价值。
1 研究综述
2015年国家出台《关于加强中国特色新型智库建设的意见》[2],迎来了智库大发展的机遇。在科技智库领域,中国科学院系统、中国科协系统、高校科学管理学院以及全国各地的科技情报机构是骨干力量。这些机构长期从事科技情报服务、科技决策咨询、科技政策研究和技术预见等工作,20世纪90年代初期,就开始探索建设和应用数据库系统辅助研究,如中国科技情报所重庆分所的科技期刊题录数据库、清华大学的科技文献原文数据库、北京科技情报所联合全国科技情报机构建设的科技成果数据库等,2000年之后,随着WEB2.0技术兴起,开始将数据仓库、信息挖掘、知识发现等技术运用到科技决策咨询研究方面的探索,2005年中国科学院资源环境科学信息中心吴新年等[3]基于科技情报学研究的需求提出了将各类不相关联的科学学科数据库统一构建到一个平台上,建立数据仓库,通过数据加工和挖掘算法实现统一检索,并设计了不同权限用户的构想,之后在数据获取和知识处理、数据挖掘和运算等方面做了诸多探索,中国科学院文献情报中心谭宗颖等[4]运用本体技术对信息进行组织,运用文本聚类技术挖掘科技主题和相互关系,构建科技智库科技发展前沿监测跟踪平台,预测科技发展趋势;逯万辉等[5]通过深度学习算法,对期刊文献进行分群建库,建立科学知识结构库;苏晓娟等[6]综合运用科技大数据、人工智能,构建中英双语料库,2015年之后,中国科学院文献情报中心开始探索基于知识图谱技术的科研主体、科研活动、科研成果等面向科研全过程链条的知识组织构建,开发新型知识检索发现服务,胡吉颖等[7]基于全球海量科技数据建设的学术知识图谱构建了研究人员、机构、期刊、论文、项目、基金、专利等实体相互关联的复杂网络,实现了知识层面的数据融合与集成,并以知识图谱为核心搜索引擎,完成了科技大数据知识发现平台的建设;王颖等[8]设计和实现科研实体知识抽取、实体对齐和关系发现、知识融合与语义丰富化的知识图谱构建方法。
知识图谱是2012年由谷歌提出的 [9],是为实现更智能的搜索,它的本质是语义网络(semantic network)知识库,节点代表实体和概念,实体之间的链接线代表关联关系,概念和关联关系构成了知识库,百度、搜狗等搜索引擎都先后推出了自己的知识图谱系统,提供更强大的基于语义的搜索服务。科学知识图谱运用到科技领域,国内尚没有明确一致的定义,汤建民[10]认为科学知识图谱是以可视化图谱的形式展现学科发展总体图景、亲族关系和演化历程等,刘则渊[11]等认为科学知识图谱是以知识域为对象,是呈现科学知识的发展过程和结构关系的一种图像,是用可视化的知识图形来呈现序列化的知识谱系。在知识图谱的应用研究方面,由于其具有较高的技术难度和较大的资源投入的特点,国内目前更多应用于商业价值高的搜索引擎领域和互联网金融行业,如百度(Baidu Knowledge Graph)、搜狗(知立方)等,而在科技智库这类公益性研究和公共政策服务为主的领域,尚处于探索起步阶段,目前有实质进展的仅有中国科学院文献情报中心在探索建设基于知识图谱的科技大数据知识发现平台[7],是包含人员、机构、期刊、论文、项目、基金、专利等结构化可计量数据的学术知识网络图谱,更加注重学术的特征,这符合中国科学院探索科学前沿的需求。
本研究构建的科技智库科学知识图谱是围绕科技智库战略研究功能设计的可视化知识库系统,遵循科技智库的工作逻辑,数据来源既包含各类学术产出数据(论文、专利、成果、人才、机构等),还创新性引入替代计量数据,包括科技新闻资讯、新媒体、自媒体动态、垂直社交平台言论等,充分体现当今科学技术发展的动态性和经济社会各领域的交叉融合性。替代计量数据的结构多样化、信息描述不规范化和文本抽取多噪音等特征,使数据融合的技术实现难度增大,对实体映射、关系识别、知识融合、实体链接和知识推理等技术交叉运用提出了挑战,在科技智库领域尚没有成熟研究可借鉴。
2 科技智库特征和智能化需求
美国宾夕法尼亚大学的《2015年全球智库报告》[12]认为科技智库是发现和了解人类社会所面临的挑战,而后找到解决方法去克服它们,尽力持续开展能源、环境、教育、公共卫生、基础设施建设等领域的相关研究,提供这些领域科技推动进步方面的相关政策建议。中国科学院科技战略咨询研究院万劲波等[13]将科技智库定义为“以科技战略政策科学研究为主要职能,以科技战略政策决策咨询为主要功能的专业政策研究和咨询机构”;于升峰等[14]认为科技智库是汇聚社会各界智慧,研究科技创新发展规律,为决策机构提供知识产品,并向社会传播政策信息的组织,通过广泛联接政府和科技、经济、社会各界,影响科技创新政策的制定、选择和实施。可见国外学者对科技智库的定义,站在全人类发展的视角,提出了面临挑战、研究策略和政策引导应用,而国内学者定义是从目标导向出发,直接围绕政策应用路径相关问题展开,隐含了其中的研究范畴、策略和方法,其实是殊途同归,就是要发现和识别科技创新的发展规律,并加以引导和应用。
全球科技智库普遍具备3个方面主要特征。一是专业化特征。科学研究具有自身的研究方法和研究规律,科学学科分类精细、纷繁复杂,科技智库需要具备很强的专业性,对各领域全球发展态势要有准确的把握。二是多学科融合特征。现代科学技术发展呈爆炸性、交叉性、迭代性趋势,需要科技智库具备多元化、融合性、前瞻性特征,擅长研究领域交叉、学科交叉、产学研融合等复杂问题,把科学问题放到社会发展的大视野中,提出多视角、综合性、全方位的政策建议。三是知识处理信息化、智能化特征。现代科技发展日新月异,全球科技竞争异常激烈,与科技有关的信息、知识和逻辑关联爆炸性指数级增长,科技创新和经济社会发展交叉融合呈现多元化趋势,处理复杂性、综合性问题的需求更加突出,科技智库对知识工具依赖性越发明显,亟需强有力的智能化知识处理工具支撑。
科技智库的信息化、智能化特征是前两个核心竞争力特征的有利支撑,美国宾夕法尼亚大学智库与公民社会项目认为,以人工智能技术等为代表的第四次工业革命催发了四股社会趋势,其中大数据趋势在变革社会发展的同时,同样将极大影响智库的研究模式和效率。高水平科技智库必须具备强大的大数据处理和智能化分析能力,这甚至成为一些全球顶尖智库的核心优势,比如美国布鲁金斯学会就建有交互式智能数据分析系统,通过大数据多维度可视化的方式进行复杂数据的智能过滤、智能筛选和智能分析,并通过平台共享机制实现全球智库专家的合作交流[15]。
3 科学知识图谱的系统构建
3.1 总体目标
科技智库在科技创新战略研究方面具有不可替代的核心优势,一是在遴选科技优先发展领域方面,二是在预测关键核心技术方面,三是在谋划构建科技创新系统方面[16]。科技智库对智能化分析方法的需求强烈,科学知识图谱作为新兴的知识发现工具和可视化知识分析平台,可以为科技智库的更高要求提供可能,它通过揭示知识组元、知识族之间关联、结构、融合和演化的复杂关系,可以发现科技领域的发展脉络,预测未来发展趋势。本研究基于此需求构建科技活动全要素的科学知识图谱,开发知识图谱分析发现系统,实现知识深度挖掘、知识隐含关系发现、隐含趋势预测和其他智能化应用。
3.2 系统设计
本研究把科技智库知识图谱作为搜索引擎,构建复杂网络关系实体的可视化知识库四层运算体系结构:第一层是知识获取,抽取各类数据源中的科技活动实体、概念及关联属性,分别构建知识库;第二层是知识融合,通过建立本体、实体和客体映射关系,将不同源数据、不同结构数据和不同属值数据的知识库融合成统一知识库;第三层是知识计算,通过知识图谱的运算和推理,发现知识内部隐含关系、隐含规律和隐含趋势;第四层是决策应用,包括语义检索、可视化分析、跟踪检测和规律预测等。
3.2.1 知识结构 基于科技智库的需求模型,构建科学知识图谱的知识结构和知识关系,依据知识词汇与本体概念的映射关系,先对结构化数据进行知识抽取,即对期刊论文库、专利文献库、科技成果库、机构库、人才库、项目库、基金库等结构化、规范化数据库进行数据抽取,对不同数据结构进行标准化、实体化处理,抽取研究者、机构、时间、标题、科研方向、合作关系等科研实体,同时抽取实体之间的关联关系和语义组织;而后依据本体概念与数据源词汇的映射关系,对科技资讯、网站信息、社交信息和自媒体信息等替代计量数据进行数据采集、数据清洗、数据解析、知识抽取、实体化处理、抽取本体、抽取语义组织和关联关系。不同源数据依据相同的本体概念与源词汇映射的关系构建的知识集,不同的词汇指向相同的实体。知识图谱的概念模型是经抽象化的相关实体概念的关系图,包括概念、属性、类型、关系、域及值域,对应主题(subject)、研究人员(researcher)、机构(institution)、基金(fund)、项目(project)、会议(meeting)、时间(date)、地点(site)、合作者(research team)等,实体间关系包括贡献关系(contribution)、隶属关系(membership)、资助关系(supportive)等(图1)。
3.2.2 知识获取 结构化数据和非结构化数据的知识抽取和实体关系抽取,结构化数据包含数据库、数据表和结构化文本等按映射关系进行规范化处理,构建标准知识库。非结构化数据包含web、Twitter、Wechat等信息,先要提取正文即過滤广告信息后的文本信息,并运用自然语言处理技术对文本进行实体识别,与结构化数据抽取的标准知识库进行实体链接,将候选实体链接到标准知识库上面,并通过构建同义词表的方式完成不同实体描述的对应关系。实体关系识别是通过语义解析和实体间的依存关系分析,识别关键语句中词向量和角色的关系。
3.2.3 知识融合 把不同数据源抽取的知识和实体关系融合成统一的知识库[17],核心是构建标准化数据词典和数据关系词典即构建本体,把本体作为锚定,在不同数据源进行知识抽取时,建立起实体与本体的映射关系,采用实体匹配和模式匹配技术消除不同数据源的抽取值不同的数据噪音,这种本体融合技术既要融合本体中描述相同的客体的不同术语,也要融合相同客体的数据术语差异,客体、实体、本体形成唯一映射关系,不同源数据、不同结构数据融合成统一知识库。这里本体的构建是根据科技智库的需求,可以灵活调整数据词典和数据模型,遵循科技活动的特征和分析需要(图2)。融合后的大型知识库根据科技智库应用场景采用MYSQL关系型数据库索引,并采用成熟的SPARK和HADOOP技术进行大数据运算。
3.2.4 知识计算 通过知识图谱计算和推理,发现隐含知识、隐含关系和隐含趋势。运用自然语言处理、机器学习技术和智能语义技术,对大规模协同合作知识库进行知识运算和情报分析,发现科学知识图谱中的隐含知识,包括知识之间的隐含关系、通过数据推理处理后的知识隐含规律和知识的关联路径等。通过链接预测可以发现知识的移动规律,包括科研机构、科技专家的流向与合作网络关系。通过知识图谱的知识计算可提供大量智能决策应用,比如智能化知识搜索,结合用户智能画像,提供个性化智能搜索结果;通过跟踪前沿技术,发现知识组织关联关系和脉络趋势;通过领域技术隐含关系可发现技术发展规律随时间、地域和其他影响因素的变化等(图3)。
3.2.5 决策应用 通过科学知识图谱的计算和推理,可以实现科技智库所需的多种智能化应用。本研究列举的可视化分析,可以通过直观的方式,呈现某领域核心技术随时间演进的规律,从而预测领域技术的发展趋势和市场对该领域技术需求的发展脉络;智能检索可以针对科技活动的相关要素和关联关系,反馈科技智库专家基于语义的检索需求[18];隐含关系发现,可通过融合知识挖掘帮助科技智库专家发现技术族、研发人员和研发机构的时间、空间、实体、虚拟等维度上的复杂合作关系;还可以提供扩展性应用,比如通过提取领域交叉技术,不确定性技术,产业低关注度企业高聚焦度技术等,辅助识别颠覆性技术[19]等。
4 应用实证
基于本研究的科学知识图谱,在垂直领域实证构建深海潜器装备技术可视化知识库,通过文献计量算法和替代计量算法实施领域前沿技术跟踪监测。主要进行核心研发专家和机构精准画像、主体聚类分析和技术发展趋势分析,通过可视化的方式全景扫描深海潜器领域的技术、专家、机构、合作网络、热点技术、高关注度技术和技术发展趋势,供智库专家深度分析识别领域发展态势、隐含规律特征,提出未来发展策略等,其中通过融合替代计量知识库,包括web新闻、Wechat、Twitter等动态信息,丰富了知识分析结论的动态属性,突出跟踪监测特征。
4.1 精准画像
专家和机构精准画像如图4所示,基于知识图谱的计算,精准提取深海潜器领域专家和机构的知识特征和知识关联描述特征,识别专家、机构的研究方向、核心贡献、合作网络和全球影响力。
4.2 聚类分析
聚类分析图如图5所示,是基于文献计量算法,通过词频分析、共词分析、热词云图和热词发展趋势聚类分析,识别基础研究前沿、技术发展前沿和高关注度技术前沿,以及基礎研究、技术发展和产业技术需求相互作用共同演化发展趋势。
4.3 趋势分析
图6趋势分析图是通过技术热点分析、技术发展趋势分析和技术发展历程描述,计算推理深海潜器领域技术发展趋势,同时本研究构建的知识图谱提供了开放的模型,可以通过设定基础研究前沿、技术发展前沿和媒体关注度的不同权值,模拟推演领域技术发展的未来图景。
5 结语
科学知识图谱是围绕科技智库的战略研究需求构建的可视化知识库,是将各类独立的、散乱的数据源、知识库、网络信息进行融合,按科技智库定义的知识图谱引擎进行索引,既提供文献计量、专利分析等标准功能,又开发了联合挖掘、深度分析、智能搜索等拓展计算功能,并提供可视化表达。本研究探索构建的科学知识图谱,在垂直领域进行了应用实践,基本功能实现很好,拓展功能上还有待进一步深入研究,尤其在科学知识图谱与知识推理和人工智能技术的深度融合方面,极具应用价值。
参考文献:
[1] 袁秀, 李培楠, 万劲波, 等. 从知识到政策: 科技智库的知识转化机制[J]. 科技导报, 2019, 37(12): 9-13.
[2] 中共中央办公厅、国务院办公厅印发《关于加强中国特色新型智库建设的意见》[EB/OL]. (2015-01-20)[2020-06-20]. http://www.gov.cn/xinwen/2015-01/20/content_2807126.htm.
[3] 吴新年, 孙成权. 学科情报研究与科研决策支持平台建设构想[J]. 情报杂志, 2005(6): 14-16.
[4] 谭宗颖, 王强, 苍宏宇, 等. 科技发展前沿信息监测与分析平台的构建[J]. 科学学研究, 2010, 28(2): 195-201.
[5] 逯万辉, 谭宗颖. 基于深度学习的期刊分群与科学知识结构测度方法研究[J]. 情报学报, 2020, 39(1): 38-46.
[6] 苏晓娟, 张英杰, 白晨, 等. 科技大数据背景下的中英双语语料库的构建及其特点研究[J]. 中国科技资源导刊, 2019, 51(6): 87-92.
[7] 胡吉颖, 谢靖, 钱力, 等. 基于知识图谱的科技大数据知识发现平台建设[J]. 数据分析与知识发现, 2019, 3(1): 55-62.
[8] 王颖, 钱力, 谢靖, 等. 科技大数据知识图谱构建模型与方法研究[J]. 数据分析与知识发现, 2019, 3(1): 15-26.
[9] AMIT S. Introducing the knowledge graph: Things, not strings[EB/OL]. [2020-07-10]. http://googleblog.blogspot.co.uk/2012/05/introducing-knowledge-graph-things-not.html.
[10] 汤建民. 学科知识图谱的绘制及在学科发展监测与评价中的应用[J]. 情报理论与实践, 2009, 32(10): 55-59.
[11] 刘则渊, 陈悦, 侯海燕. 科学知识图谱: 方法与应用[M]. 北京: 人民出版社, 2008: 3-11.
[12] MCGANN J G. 2015 Global go to think tank index report[EB/OL]. [2020-07-19]. http://repository.upenn.edu/cgi/viewcontent.cgi?article=1009&context=think_tanks.
[13] 万劲波, 李培楠. 国家科技智库体系建设态势及政策建议[J]. 数字图书馆论坛, 2017(3): 6-10.
[14] 于升峰, 肖強. 科技智库战略决策平台构建研究[J]. 智库理论与实践, 2020, 5(1): 22-27.
[15] 秦佳佳. 浅探布鲁金斯学会数据可视化应用及对我国智库的启迪[J]. 中国管理信息化, 2019, 22(14): 157-159.
[16] 王雪, 褚鑫, 宋瑶瑶, 等. 中国科技智库建设发展现状及对策建议[J]. 科技导报, 2018, 36(16): 53-61.
[17] 漆桂林, 高桓, 吴天星. 知识图谱研究进展[J]. 情报工程, 2017, 3(1): 4-25.
[18] 牛海波, 赵丹群, 郭倩影. 基于BERT和引文上下文的文献表征与检索方法研究[J]. 情报理论与实践, 2020, 43(9): 125-131.
[19] 王超, 许海云, 方曙. 颠覆性技术识别与预测方法研究进展[J]. 科技进步与对策, 2018, 35(9): 152-160.