数据驱动的科研机构发展态势感知技术研究
2022-10-08许文文徐霄骥
许文文,徐霄骥,马 勋,张 峰
(中国电子科技集团公司信息科学研究院 认知与智能技术重点实验室,北京 100086)
0 引 言
科研机构是以社会和经济需求为导向,有明确研究方向和任务并持续有组织地开展相关研究与开发活动的机构[1]。全面了解和掌握科研机构发展态势,是提升创新能力、开展机构间协同创新的重要基础。然而,随着科学技术的迅猛发展,科研机构的科研活动范围越来越广泛,科研成果呈多源化、海量化的速度增长。如何将海量异构的科研数据快速、精准、高效地组织成高价值业务数据,挖掘出科研机构的特征,支撑机构发展态势认知,成为学术界亟待解决的重点问题,具体体现在以下方面。
(1)海量异构的科研数据融合不足。受限于技术手段和人力成本开销,目前科研机构相关分析主要基于论文或专利等单一数据进行,在认知完整性、准确性等方面存在不足,需要开展在论文、专利、项目及科研动态资讯等数据融合基础上的综合分析。
(2)机构科研情况认识不清。大多数研究只是针对科研机构某些属性进行统计性分析,缺乏对科研机构的研究与开发活动属性的综合、全面的梳理。
(3)机构发展趋势认知不深。现有分析主要依靠人工经验进行概略和粗放式进行,在准确性和预见性方面存在不足。
多源信息融合、知识图谱等技术的发展为上述问题的解决提供了可能。多源信息融合技术能够将多种(同类或异类)信息源的数据进行综合,获得研究对象的较全面的描述和刻画,使得信息系统具有更好的性能[2]。知识图谱可对海量数据进行重新抽象、整理和组织,以更加合理、有序、直观的方式将知识展示给用户,使之能更加有利于人的理解和认知,从而更加有效地指导决策[3]。本文采用多源信息融合、知识图谱构建与分析等技术,汇聚融合多个信息源的科研数据,抽取出机构、技术、专家等科技实体,通过对科技实体间关联、组合、聚类等分析,建立科研机构画像,开展机构科研动向分析等,为科研机构的技术布局、研发动向等认知提供辅助支撑。
本文主要贡献在于:提出了一种数据驱动的科研机构信息感知与融合框架,支撑对数据的要素抽取、关联融合、分析挖掘,提高科研资源的深层次挖掘利用效率;提出了一种基于图谱的科研机构画像技术,实现对科研机构的综合全面梳理;提出了一种基于关联挖掘的科研机构动向分析技术,支撑机构技术发展布局洞察,为机构行为的预测提供支持。
1 科研机构信息感知与融合框架
现阶段,科研领域的数据呈现多源化、海量化的增长趋势,极大地丰富了可利用的资源。与基于单一数据源的分析相比,基于多源信息融合的科研机构分析能够更全面地反映科研机构的整体研究与开发活动情况,更准确地定位机构的研究重点、热点和预测领域研究趋势[4]。
数据融合是有效提升相关任务准确率的手段[5]。本文结合数据爬虫、自然语言处理、数据挖掘等技术,开展以科研成果、科研项目、科研新闻动态等为主要内容的科研数据感知与处理研究,构建科研机构信息感知与融合框架,集成文本挖掘、图谱构建等算法和模型,支撑对数据的要素抽取、关联融合、分析挖掘,提高科研资源的深层次挖掘利用效率。科研机构信息感知与融合框架如图1所示。
图1 科研机构信息感知与融合框架
数据源层,覆盖机构网站、科技成果、社交媒体网站、资讯网站等开源数据以及内部数据,获取、收集科研机构的专利、论文、社交账号动态及新闻资讯等信息,实现信息的汇聚,为后续数据挖掘分析等提供数据支撑。具体地,采用定源跟踪与开放式获取相结合的多源数据采集方法获取数据,并且建立多源信息监测、长期跟踪机制,实现数据的定期更新。
数据治理层,基于汇聚的科研数据资源,结合文本挖掘、机器翻译、知识图谱构建等技术,以及人工辅助矫正的方式,开展科研机构、专家、技术等实体识别、实体间的关联关系抽取、实体对齐以及实体融合等处理,构建机构库、专家库、技术库、项目库及成果库等科研资源库,构建以科研机构为核心的异质关联知识图谱,实现多源信息的融合以及数据的关联化、层次化、图谱化,支撑科研资源的深度挖掘与利用。
数据分析层,在科研资源库和机构关联知识图谱的基础上,结合复杂网络分析、机器学习、数据挖掘等技术,开展基于图谱的科研机构画像、机构科研动向分析等研究,形成针对科研机构的一套深度分析工具集,实现对机构科研产出、技术布局、研发动向等的认知。
业务应用层,支撑科研机构检索、机构合作分析、机构发展态势感知、科研机构推荐、新兴技术发现、机构技术布局洞察等服务,为掌握最新科技动向、科学判断、果断决策等提供辅助支撑。
2 基于图谱的科研机构画像技术
机构画像是通过分析机构的固有属性以及动态行为和变化,提炼出以机构为核心的各类属性特征,实现对机构的多个维度的综合展示和分析。科研机构画像可以真实、全面、准确、动态地描绘科研机构的特征[6],支撑机构检索以及对相关机构的筛选、统计或对比分析等。
科研机构除具有普通社会主体的法律特征、行为特征、经济特征以外,在研究与开发活动中还形成了自身的科研特征,如研究领域、科研产出及科研合作等。特别地,机构合作已成为科研合作[7]的主要形式之一。对其合作结构的研究,有助于把握科研机构合作的规律和态势[8]。按照特征类型,可以将科研机构画像分为基本属性画像、业务属性画像及关系属性画像。基本属性画像主要通过机构成立时间、所在地址、机构类型及简介等基本属性标签对机构进行刻画。业务属性画像主要通过机构涉及领域、科研产出、奖项荣誉等属性标签对机构进行刻画。关系属性画像主要通过机构科研合作关系、机构隶属关系、科研引用关系等属性标签对机构进行刻画。
基于图谱的科研机构画像处理流程如图2所示。首先,获取机构的基本属性信息,它是科研机构开展相关研究与开发活动的基础。机构成立时间、所在地址、机构类型、机构简介、机构法人以及组织架构等信息可以通过机构官网、机构相关成果、机构相关新闻资讯等获取。其次,通过对科研机构涉及的项目、发表成果、产品等进行文本分析和统计分析,识别出机构涉猎的科研领域、相关技术产出和产量,构建机构业务属性画像。最后,在关系属性画像方面,通过对机构科研成果的分析,主要是对其论文、专利、奖项等科研成果的署名信息进行解析,构建出机构间的合作关系。机构间合作的科研成果越多,它们之间的科研合作关系越紧密。可以采用社团发现、网络重构、图分割等技术,分析机构间关系的紧密程度,进而识别机构科研合作圈。通过对机构组织架构、主管单位属性、机构发展历程的分析,可构建机构的层级隶属关系。
图2 基于图谱的科研机构画像处理流程
3 基于关联挖掘的科研机构动向分析
科研机构动向分析是对一段时间内科研机构活动情况进行分析挖掘,得出其行动或技术发展的方向。科研机构动向分析能够洞察机构的技术发展布局,为机构行为的预测提供支持。
当前,社交媒体与科研活动的联系日益密切。社交媒体让科研过程管理更加公开透明[9]。科研机构的社交媒体数据能够反映机构的参与项目情况、研究进展信息、招聘需求信息等。机构新闻资讯是由机构本身或第三方反映机构活动的信息。相比论文、专利等科研成果,科研机构的社交媒体信息、资讯信息具有高时效性、内容丰富性等特征,为机构动向分析提供了有力数据支撑。
关联分析能够提高数据的价值和利用率。当数据内容具有时间、空间上的联系时,关联分析可以将相似的数据进行汇总,提取出有用的知识[10]。本文基于科研机构的社交媒体信息、资讯信息等,运用关联分析技术进行动向事件提取,形成事件集合,从时空关联挖掘、实体关联挖掘等角度,挖掘事件间的时序和关联关系,建立事件间的因果关系和发展脉络,形成科研机构活动情况的动向信息。动向事件包含时间(发生时间、涉及时间)、地点(发生地点、涉及地点)、参与者以及内容描述等要素。
基于关联挖掘的科研机构动向分析处理流程如图3所示。首先采用向量空间模型(Vector Space Model,VSM)对科研机构相关的社交媒体信息、资讯信息等文档进行向量化表示。采用改进的tf-idf(term frequency-inverse document frequency)的 词语特征权重表示方法,将每篇文档表示为一个向量,便于进行文本聚类和关系建模等处理。得到文档的向量表示模型后,通过聚类将文档集合中描述不同内容的文档区分开来,将相似内容的相关文档聚为一类,即每类代表一个事件。其次进行关键词提取,通过文本聚类可以将文档集中相关性强的文本聚集在一起,形成一个话题,并从聚类得出的每个事件中抽取出一些关键词对事件进行描述。再次,进行关联关系建模,通过事件之间的时序规律、关联关系、因果规律挖掘以及关联度的大小对事件的关联关系进行判断,构建出事件关联关系模型。最后,结合专家知识预判科研机构的发展动向。
图3 基于关联挖掘的科研机构动向分析处理流程
4 结 语
科研机构态势感知能够提升管理工作、辅助决策。不同源的信息能够从不同的角度反映科研机构的研究与开发活动情况。本文提出了一种数据驱动的科研机构信息感知与融合框架,实现了对官方网站、期刊论文、专利文献、社交媒体、新闻资讯等多种渠道的信息采集,并对异构信息进行汇聚融合,形成规范统一、持续更新的科研机构数据。针对机构科研状态的认识需求,本文提出了一种基于图谱的科研机构画像技术,实现综合性、关联性的机构科研情况分析。针对科研机构发展趋势认知的需求,本文提出了一种基于关联挖掘的科研机构动向分析技术,支撑机构技术发展布局洞察,为机构行为的预测提供支持。下一步将针对具体领域开展科研机构发展态势实证分析,对方法进行优化,对分析功能进行完善。