基于本体的科研机构标签体系研究
2022-07-02郭红梅曾建勋
郭红梅,曾建勋
(中国科学技术信息研究所,北京 100038)
1 引 言
科研机构是以社会和经济需求为导向,有明确研究方向和任务并持续有组织地开展相关研究与开发活动的机构。作为国家科学研究的主体,它们是科技资源和科学成果的主要创造者和发布者,在长期从事科学研究的过程逐步形成了各自的特色,并建立了复杂的关联关系。科研机构丰富的属性特征和关联关系是进行知识组织、资源关联、科研管理和评价的重要基础,如何从科研活动及其海量、多样化、非结构化的科研成果中挖掘隐含的属性特征和关联关系,提炼科研机构各自的特点并赋予相应的标签一直是科研界关注的重点。科研机构具有名称、性质、学科、行业等多种属性,而且存在层级、合作、引用等多种关联关系,这些多样的属性和复杂的关系具有本体特征。本体作为一种能在语义层面对知识进行描述的概念模型,能很好地对科研机构的属性进行定义和描述,并可基于知识推理来挖掘隐性的语义关系。因此,本文探索基于本体的方法和思维来构建科研机构画像标签体系;为满足更细粒度的机构索引和管理需要,不仅针对一级科研机构,更深入到下属二三级机构的标签体系构建。
本文贡献主要包括三个方面:①对机构的精准画像可以支撑以机构属性标签为入口的检索和导航。机构画像过程中对机构的地域、性质、职能、学科、行业等多种属性进行了标签化,标签化后的机构不再是孤零零的名称,而是一个个内涵丰富的实体,可按照某种或某些标签对机构相关的资源进行检索和导航,对具有相同标签的机构进行关联检索,将具有某种或某些特征的机构同时检索出来并进行推荐,弥补了传统上仅按照机构名称对机构进行关联、对机构相关资源进行组织、检索和导航的不足。②支持更精细的统计分析和科学评价需求。机构画像不仅对一级机构,也对其下属二三级等更细粒度机构的标签化,可实现从深层次对机构的理解和把握,支持按照某种或某些属性标签对处于不同层级的机构进行遴选、统计、聚类或对比分析,而且可按照某种特征准确定位与某机构最相关、最细粒度的关联机构,满足多元化的信息支撑服务。③支持机构知识图谱的构建。在画像过程中构建了科研机构之间的合作、引用和层级关系,形成了复杂的关系网络,可通过机构知识图谱将科研机构丰富的特征标签和关联关系构建成一个完整的知识体系,当用户搜索某机构时,机构知识图谱可以提供该机构最全面的摘要,让用户快速得到机构的科研、学科、行业、关联机构等详细标签,辅助用户在短时间内获取所需信息,深入和广泛地了解机构之间的关系。
2 国内外相关研究
对机构本质的认识经历了虚拟主义理论、现实主义理论和名义主义理论三个阶段。虚拟主义理论认为机构是由权利和义务相关对象组成的、独立存在的虚拟实体;现实主义理论认为机构是由不同的成员构成的、人为赋予的、独立存在的真实实体;名义主义理论认为机构是由所拥有的成员及其成员之间的关系构成的、具有复杂社会关系的独特实体,该理论是构建机构本体的基础[1]。在名义主义理论基础上,学者们对机构给出了更多具体的定义。Hodgson[2]认为机构是规范社会交流行为的、既定和普遍存在的社会规则系统。Scott[3]认为机构是保证社会稳定的规则、规范和文化认知结构。Searle[4]与Johannesson 等[5]认为机构是通过人的交流交互来创建和维持的,但独立于人类的信念而存在,交流交互是机构存在的本质,并提出利用本体来描述和揭示机构的特征。
随着机构本质理论体系的逐渐成熟,国内外学者认识到机构是复杂的社会实体,有多种构成要素并具有自身特征,他们探索了多种方法来提炼机构的特色之处并赋予标签以实现画像的目的,按照画像对象的不同将相关研究细分为面向机构相关主体的画像和面向机构自身属性特征的画像。
2.1 科研机构主体特征的画像方法研究
对科研机构主体的画像又称为用户画像,用户画像概念最早是由Copper[6]提出的,他认为画像是基于用户真实行为数据而构建的虚拟模型;随着研究的深入开展,其内涵越来越丰富。用户画像是实现大数据环境下精准化信息服务的重要工具,近年来在人工智能、数据挖掘、信息检索、图书馆、健康医疗、商业营销等领域得到广泛的研究和具体应用。
Eke 等[7]总结了信息检索和推荐领域中用户画像最新的研究进展,包括用户特征的提取、画像的技术和方法、画像的过程,以及画像的效果等。曾建勋[8]指出,数字图书馆服务必须将用户需求与知识创造相结合,从多维度对用户的属性特征进行细分和描述,以能够在知识创造过程中提供精准服务。刘海鸥等[9]对用户画像的概念、构成要素、模型等进行总结,将用户画像方法分为基于行为的画像方法、基于兴趣偏好的画像方法、基于主题的画像方法,以及基于人格特性与用户情绪的方法。Liang 等[10]构建动态用户和词嵌入模型对Twitter 上动态用户进行画像。陈泽宇等[11]在LDA(latent Dirichlet allocation)主题模型和神经网络模型的基础上,采用森林分类算法对用户属性进行分类以实现用户画像。Gu 等[12]参照MagicFG 画像模型,对大数据环境下Web 用户的行为进行画像。
2.2 科研机构自身特征的画像方法研究
科研机构是具有多种属性特征的社会实体,其属性可细分为相对稳定的静态属性和随时间变化的动态属性。静态属性在机构官网上均有介绍,容易识别,描述相对简单。动态属性较为复杂,如何对其进行准确标签化,国内外学者进行了很多探索。本体作为重要语义知识描述工具,可实现对机构属性和关系的综合全面描述和关联揭示,学者们探讨了多种机构本体的构建方法。此外,为满足具体应用场景的个性化需求,学者们也深入探索了针对某些具体属性的描述方法。
2.2.1 科研机构的本体描述模型构建方法研究
学者们探讨了多种机构本体的构建方法,通过构建本体模型来对机构的属性及交流交互过程中形成的复杂关系进行定义、描述和揭示。马里兰大学构建了高校本体,定义了描述高校及相关活动的元素, 如 学 生、 教 员、 课 程、 科 研 成 果 等[13]。Chakhmoune 等[14]基于本体构建了机构知识记忆模型,对相关的人、资源、技术等进行描述和定义。Passerini Glazel[15]研究机构本体中的属性类型与表征符号的关系。Eriksson 等[16]提出支持不同信息架构的机构本体。2010 年,Epimorphics 公司构建了政府机构本体[17]。为促进数据的共享,增强互操作性,W3C 对Epimorphics 机构本体进一步扩展,发布新的机构本体,旨在支持多个领域机构信息的关联数据发布[18]。叶壮壮[19]将Wikidata 和DBpedia 两个知识库已有机构属性进行融合来构建科研机构本体。金家琴等[20]探索数字人文数据基础设施建设中的机构本体构建方法。胡雪环[21]从科研机构的属性、关系、演化路径以及层级结构等方面探索科研机构本体的构建方法。
2.2.2 科研机构的属性描述方法研究
学者们针对某种或某类属性的描述方法进行了深入研究。曾建勋等[22]针对科研机构名称构建了机构规范文档的语义化描述模型,并引入Schema 词汇表对其进行描述。Johannesson 等[5]提出了机构概念描述模型,从角色、规则、权利、责任和过程角度对机构进行描述,并定义了不同实体的描述准则。Asumeng 等[23]基于机构的变革过程理论和实施理论提出机构描述发展模型,用于评价分析机构在发展过程中的特征、相似性、差异性、劣势和优势。孟琳[24]通过对多源知识进行数据获取、信息融合和挖掘,对机构的核心成员、机构兴趣等动态属性进行抽取和画像研究。Taneja[25]认为高校网站首页上不同标签字段的检索浏览情况可反映学生对高校的关注情况,从而辅助学生进行高校的选择;通过对国外高校网页元数据字段的浏览分析发现,学生更关注学校的研究领域、学术项目、地理位置和科研环境。Galan 等[26]研究发现,高校的课程设置、声望、评价评议、就业情况、学费等是学生在择校中比较关注的属性。Kettunen[27]研究了与高等教育机构相关联对象的特征,关联对象包括影响机构发展的其他组织、客户以及内部的员工和学生等。
国内外学者通过构建本体、描述模型或挖掘算法对机构的属性和关系、用户行为等进行显性化描述方面,积累了很多有益的理论和实践经验,不断丰富着机构画像方法技术体系,但仍存在以下几点不足:①大多研究只是面向具体应用需求,针对科研机构某些具体属性进行定性描述,没有从整体上对科研机构的属性和关系进行综合全面的梳理,而且已有的研究主要集中于对一级机构属性和关系的描述揭示,很少涉及其下属更细粒度机构的分析。②对科研机构的行为特征描述揭示不够,已有的画像研究主要集中在对科研机构成员或具体科研用户行为特征的描述,很少有研究在用户之上对机构行为及其关联关系进行描述揭示。③科研机构画像的目的是支撑以机构为单元在文献检索、分面导航、定标比超、统计评价分析等方面的应用,但目前大多方法还处于理论探索阶段,缺乏具体场景下应用效果的验证。因此,本文以科研机构在知识组织、关联揭示和检索导航等应用场景的具体需求为导向,综合分析科研机构的特征和关联关系,基于本体思维构建一套能准确定义和描述科研机构属性与关系的标签化方法体系,且不局限于对一级科研机构的描述,还适用于对下属二三级机构的描述。
3 面向科研机构画像的本体模型构建
科研机构作为国家科学研究的主体,处于社会关系网络之中,除了具有普通社会对象共有的经济特征、法律特征、行为特征等以外,在从事科学研究的过程中逐步形成了自身的科研特征,如学科、行业、研究主题等。此外,科研机构之间还建立了合作、引用等关联关系,这些特征和关系可通过科研机构相关的属性进行揭示。本文借鉴Johannesson等[5]提出的概念模型,采用自下而上的思想构建科研机构本体模型,根据各属性在机构发展中的作用将它们分为物理层、特征层和规则层,如图1 所示,不同层的属性相互作用,共同支撑机构的持续发展。最底层是物理属性层,主要包括科研机构所依赖的物理主体、物质和行为,对特征层属性起支撑作用;最顶层是规则层,主要包括科研机构所要承担的责任和所有遵循的合约、规则、法律等文件,对科研机构进行约束控制;中间层是特征层,主要对科研机构的基本信息、科研成果、科研行为和机构主体等进行描述。科研机构主体通常指机构的法人和成员,基本信息属性主要包括机构简介、发展历程、联系方式等描述字段,通常利用文本或图像表示;物理属性用于描述科研机构的硬件设施等;行为属性用来描述机构在科研活动中的行为;科研成果属性用于描述机构的产出特征;功能和性质属性主要对科研机构的性质职能特征进行描述。物理层和规则层通常不直接体现科研机构的特征进行描述;特征层的各个属性用于描述揭示机构的不同特征面,它们并不是孤立存在的,而是相互关联、相互作用,共同对机构本体进行限定描述。
3.1 科研机构本体的标签体系研究
科研机构本体由多个属性相互作用共同描述限定,通过对各个属性和关系的总结分析,凝炼出科研机构在社会关系、社会属性、科研活动等方面需要描述的属性特征,如图2 所示。社会属性主要是科研机构作为社会实体所具有的身份地位、权利义务、目标任务和性质职能等;基本属性主要包括机构的通用描述信息,如机构名称、地域归属、联系方式、发展历程等;关系属性是指科研机构在参与科研活动过程中,与其他社会实体产生的关联关系,如名称变更、拆分、合并等过程中产生的沿革关系,科研成果合作产生的合作关系,以及机构组织架构中得到的层级隶属关系;科研属性是对科研行为的描述,包括产生的科研成果、主要活动领域、关联机构等。
图1 科研机构本体模型
图2 科研机构本体的属性特征
科研机构标签化就是利用标签体系勾画科研机构在从事科研过程中所形成的社会属性、关系和领域的过程,精准、细粒度且结构化的标签体系是机构画像的基础,其广度和粒度对机构画像的精确性有较大影响。因此,首先要提炼科研机构的标签,形成机构标签库,包括特征标签、关系标签等。对科研机构本体中各实体的属性和关系的抽象凝练得到科研机构在基础属性、社会、关系和科研四个方面的特征,按照各属性特征在机构画像中的作用和关系将它们分为三类,分别是描述信息标签、关联关系标签和关联机构标签,从三个维度构建标签体系,如表1 所示。
表1 科研机构本体的标签体系
3.2 科研机构本体的标签化流程研究
科研机构的静态属性相对稳定,如机构名称、地域信息、联系方式、创立时间等;动态属性由静态属性衍生而来,并随着内容扩充和时间推移而变化,如机构的活动领域、关联机构等。静态属性获取方式较为简单,而动态属性标注过程相对复杂,需要基于机构行为、科研成果和已有的静态属性综合推理得到。因此,在机构属性标签化过程中按照获取的难易程度分层次进行标注,具体流程如图3所示。首先,获取机构的基本属性信息,它们是识别和构建机构关联关系的基础,也是对科研活动进行描述的基础,机构名称、地域归属、联系方式、发展历程等可以通过本地收割或远程采集(从已构建的机构规范库、文献及相关成果库,以及机构官网等)获取。其次,基于已标注属性和机构本体中不同实体之间的关联和作用,识别机构间的关系,例如,对机构名称变更过程的分析可以得到机构实体的沿革关系,对机构主管、主办单位属性的分析可构建机构的层级隶属关系,对科研成果参与机构的分析可构建机构间的合作关系,对科研成果研究主题的分析可得到机构间的学科、行业或研究兴趣的相似性关系等。最后,基于构建的关系数据,利用主题分析、规则和知识推理的方法识别主要关联机构,并计算每个关联机构的关联强度,从而为某机构推荐相关或相似的机构,实现机构间的科研合作和定标比超。
图3 科研机构本体的标签化流程
4 科研机构特征的标签化方法研究
4.1 基本属性的标签化方法
重点选取能够揭示机构科研特征的、相对复杂的动态属性进行标签化。机构的性质和职能决定机构的社会责任和发展方向,对机构的发展有指引导向作用,是标注机构学科和行业的基础。活动领域标签是进行科研管理评价、统计分析、识别竞争对手和合作团队的前提和基础,而且随着科学的发展,机构的活动领域也在不断调整和扩充,远超越了创建之初的设想,所涉及的学科和行业范围会越来越广。因此,本文以表征科研机构性质职能和活动领域的学科类别和行业类别以及关联机构为例,来论述科研机构属性特征的标签化过程。目前科研机构的画像、排名和评价研究大多针对一级机构,由于一级机构多是综合性机构,所赋值的活动领域特征标签粒度较粗,不能满足从更细学科粒度上进行科研管理的需要,因此,本文构建的标签体系主要针对下属二三级机构的特征进行描述,更专指、更具体,满足从更细的学科和层级粒度对科研机构进行评价和管理。
4.1.1 性质职能的标签化方法
由于机构在发展历程中新建、更名、拆分、合并等现象频繁发生,故根据机构存在的时效性将其分为连续体和非连续体。连续体是指在较长一段时间内持续稳定存在、具有实体形式的机构组织,如某所高校或研究所等;非连续体则是由于社会发展需要,在一定时期内存在,一般需要依赖其他实体机构而存在,如国家重点实验室。根据不同层级机构间的关系和是否有独立法人地位,又将连续体分为独立体和依赖体,比如,某高校是独立体,而它下属的院系需要依赖高校实体而存在,属于依赖体,具体如表2 所示。
根据科研机构所从事的重点业务,对一级机构及其下属机构分别进行性质特征描述。将一级机构独立体划分为高等院校、科研院所、医疗机构、企业、学协会等,将独立体下属的依赖体划分为管理部门、业务部门、服务部门等。
表2 机构性质职能标签的特征词
4.1.2 学科属性的标签化方法
科研机构的学科类别通常体现在机构的名称、科研成果和人才培养三个方面。机构名称是创建时所赋予的,它能标识机构最初设置的目标和研究方向,很多高校和研究所名称中就存在标识学科类别的词语,如中国医科大学(医学)、中国药科大学(药学)、中国政法大学(法学)、中国科学院化学研究所(化学)、中国科学院声学研究所(声学)等。由于机构的名称相对固定,不会轻易更改,本文将从机构名称中得到的学科类别称为静态学科。此外,机构在发展过程中所从事的研究领域会随着需求进行调整,比如,为满足社会或科技需要,或为了发展机构特色,或为了追求国际热点等,机构布局新的研究领域,本文将其称为动态学科,通常体现在科研成果和人才培养的学科方向。静态学科和动态学科从不同角度揭示了机构的学科布局,因此,机构学科类别的标注应综合静态学科和动态研究领域两方面的特征,如图4 所示。
目前存在多种学科范畴分类标准和体系,常用的有《中华人民共和国国家标准学科分类与代码》(GB/T 13745—2009,简称《学科分类与代码》)、国务院学位委员会和教育部颁布的《学位授予和人才培养学科目录》《中国图书馆分类法》和Web of Science(WoS) 数据库的JCR(Journal Citation Reports)期刊学科分类体系。由于使用目标不同,不同分类标准中所设置的学科粒度存在差异,比如,《学位授予和人才培养学科目录》和《学科分类与代码》相比,前者在医学和管理学领域划分得比较详细,后者在经济学和语言学领域划分得比较详细。为兼顾不同的分类体系和中国科研机构的学科特点,将几种学科体系进行映射、合并融合。
图4 科研机构学科属性的标签化
由于不同机构命名没有特定规则,对于静态学科类别的标注,需要预先构建不同学科领域的特征词典,然后依据机构名称中的特征词来标注机构的学科类别。为充分准确地构建不同学科下的特征词典,选取各领域共4300 个高被引机构作为训练数据,对40 多万条二三级机构名称进行预处理,抽取能表征机构学科类别的词语映射到相应学科中,构建各学科的特征词典,表3 列出了部分学科所标注的特征词。将机构名称与已构建的学科类别词典进行匹配,实现不同层级机构静态学科的标注,对于无法按照特征词映射上的机构,分别与4 种分类体系的最细粒度层级进行比对,若匹配上,则取其上级类值。
科研成果是机构参与科研活动的主要产物,科研成果的学科分布可反映机构关注的领域,揭示研究主题随着时间的演化和转移;文献是科研成果的主要形式,因此,本文以文献资源为核心来分析机构的动态学科特征。文献的学科类别可以分别从发文期刊和施引期刊的学科获取。发文期刊的学科是机构主动选择的,而施引期刊的学科是外部学者对文献的理解,是客观自发的行为,二者从不同角度揭示机构的研究主题分布,可以相互验证和补充。此外,科研机构担负着人才培养的责任,所设置的学科和专业可反映机构的特色、发展策略和研究领域,因此,收集不同层级机构所设置的本科专业,以及授予的硕士、博士研究生学位方向,补充文献的学科领域。
表3 学科属性标签的特征词
4.1.3 行业属性的标签化方法
科研机构在从事科研活动、服务社会和支撑国民经济发展的过程,会产生一定的社会经济效益,通常体现在不同的行业类别中,对机构行业类别的标注有助于对比机构科研成果的应用效果或服务社会的成效,尤其是一些以技术研发为主的科研机构,在成果转化过程中为不同行业带来了较大的社会效益。科研机构所涉及的行业主要集中在教育,科学研究和技术服务,信息传输、软件和信息技术服务,卫生和社会工作等类别中。国民经济行业分类在不同行业的分类详细程度存在差异,比如,制造业较为详尽,而在科研机构比较集中的教育及科学研究和技术服务业,分类则较为粗略。为了准确标注各机构的行业,并尽量保证各机构的行业在可比的层级上,按照实际需求对不同大类下的行业类别进行层级调整,比如,将Q841 医院(Q 卫生和社会工作)与C27 医药制造业(C 制造业)调整为同一层级,尽量保证不同行业分类体系保持在相同粗细粒度上进行标注和对比。
4.2 关联关系的标签化方法
机构间存在层级关系、发展沿革关系、科研合作关系和科研引用关系等多种。层级关系通常体现在机构的组织架构和科研成果的机构署名中。沿革关系用于描述机构发生变更前后,新旧机构之间的替代与被替代关系,通常包含两种情况:一是机构自身的变化,主要包括普通更名、改制更名、升格更名、转设更名等;二是涉及多个机构的名称变更,主要包括合并更名、合并转设更名、拆分更名等。合作关系构建主要基于科研成果,若两个或多个机构同时参与一项或多项科研成果(科技文献、专利、基金项目等),则这些机构两两之间具有合作关系;此外,将标识同一资助项目的科研成果的机构也视为合作关系。引用关系主要反映在科研成果的参考文献中,一般分为直接引用关系、共被引关系和耦合关系,引用关系越强的机构之间研究主题越相似。
4.3 关联对象的标签化方法
关联机构是指与某科研机构关系比较紧密的机构,主要体现在两个机构的科研活动或科研成果的交互程度,集中在合作或引用关系较强的机构,因此,将合作强度和引用强度较大的机构均视为关联对象。关联对象的标注是识别合作伙伴和竞争对手的基础,二者存在交叉重叠,通常合作密切的机构也是同领域内科研实力相当的机构,存在竞争关系。
4.3.1 合作机构的标签化方法
合作机构的识别主要基于科研成果中的署名机构来判断,出现在同一科研成果中的机构即为合作机构,合作的科研成果越多,机构间的合作关联强度越大。本文主要基于公开发表的文献、专利和基金项目中的署名机构来识别合作机构。除了作者署名机构字段外,部分文献、专著和专利数据中还具有基金项目字段,本文将标识同一基金项目的科研成果的署名机构也视为合作机构。分别计算某机构与各领域中其他机构的合作强度,强度较高的即为该领域内所识别出的合作机构。
4.3.2 对标机构的标签化方法
对标机构通常是指综合实力与本机构水平相当的机构,它的识别需要权衡科研机构的活动领域、人员规模、科研产出、学术影响力和国际地位等各方面的属性特征,运用知识推理的方法,依据综合性评判结果来确定,并不局限在同层级机构中。活动领域相同是指两个机构在相同分类体系下,学科或行业领域一致。科研人员规模相当是确保两个机构体量一致,具有可比性和公平性。在科研人员规模相当的情况下,通过科研产出指标和学术影响力指标来测度不同领域中的对标机构;科研产出通常利用科研成果论文量来衡量,学术影响力利用引文数量来衡量,其他科研合作指标和社交媒体指标等可以作为辅助,在必要情况下使用。对标机构的识别是与领域相关的,按照机构所属的科研领域可将机构分为专业领域机构和综合性机构,对于某综合机构,如果查找某具体领域的对标机构,那么推荐出的对标机构可能是单领域机构,也可能是综合机构的下属子机构。如果要推荐某综合性机构的对标机构,不关联某具体学科,那么推荐的对标机构也应该是综合机构,按照领域分别计算其与某综合性机构的相关性,然后将各领域相关性进行综合排序来推荐相关机构。
5 实证研究
对科研机构来说,活动领域和合作机构是两个重要的属性,因此,本文重点选取这两个属性进行机构特征标签的实证研究。选取《中国高被引分析报告2019》[28]中物理学领域的高被引机构天津大学和清华大学为示范机构,对它们的活动领域和合作机构进行识别和标注。
2011—2018 年,《中国高被引分析报告2019》[28]遴选出的物理学领域的64 种期刊上共发表学术论文62682 篇,其中天津大学第一作者发文625 篇(截止到2019 年被引1443 次),清华大学第一作者发文935 篇(截止到2019 年被引1416 次)。从第一作者高发文期刊来看,天津大学发文主要集中在《物理学报》《光学学报》《光谱学与光谱分析》等期刊上,清华大学发文主要集中在《中国物理快报(英文版)》《物理与工程》等期刊上(表4)。从天津大学发文期刊细分领域可知,它在物理学的主要活动领域是光学,清华大学则以力学和工程为主。
从表5 可知,天津大学和清华大学在物理学领域的主要合作机构上存在差别,二者没有交叉重叠。天津大学的主要合作机构是南开大学、天津师范大学、中国科学院半导体研究所等,清华大学则主要与西北核技术研究所、中国科学院物理研究所、中国工程物理研究院等机构合作。此外,对于同一个机构,从其与不同机构合作发文的期刊来看,合作的具体研究主题也存在差别。例如,天津大学与南开大学、中国科学院半导体研究所的合作发文集中在光学和激光领域,与天津师范大学、河北工业大学的合作发文则集中在光谱学;清华大学与西北核技术研究所、中国工程物理研究院的合作发文集中在激光领域。
表4 天津大学和清华大学在物理学领域第一作者高发文期刊
表5 天津大学和清华大学主要合作机构与合作发文期刊
从天津大学和清华大学在物理学领域的活动领域分析可以看出,在较粗学科分类粒度上机构的研究领域虽然相同,但在细粒度研究主题上却存在很大差别。从合作机构来看,不仅它们合作的机构有差异,对于同一个机构,其与不同机构的合作主题也会存在很大差异。因此,只有构建机构全面的、细化的标签化体系,才能对机构进行准确描绘和客观评价。
6 结 语
本文通过对科研机构的属性特征的深入分析,采用自下而上的思想构建了包含物理层、特征层和规则层的本体模型;凝炼了科研机构在社会关系、社会属性、科研活动方面的主要特征和标签体系;按照属性特征获取的难易程度,提出分层次标注流程,为以机构为单元的服务应用提供理论支撑。本体模型能够从语义层次上对科研机构的概念、属性及关联关系进行全方位的定义和描述,不仅能揭示科研机构的学科、行业等属性和科研行为关联,还可以通过简单的知识推理形成语义化的关系网络,满足语义环境下检索和导航等服务应用需求,是揭示科研机构复杂属性和关联关系的优选工具。以科研机构本体为基础的机构画像可在对机构属性特征和关系进行知识推理和关联挖掘的基础上,提炼各个机构的特征,构建更细粒度和广度的标签化体系,辅助用户快速直观了解某个机构的特色、发展水平、活动领域等,从更为全面客观的角度提供对机构的信息挖掘和分析,对具有相同特征标签的机构进行分析,便于机构与机构之间进行比较,辅助宏观决策和预测科研机构的发展趋势,识别潜在合作伙伴和竞争对手等。本文以科研本体模型和标签体系的构建理论研究为主,通过对天津大学和清华大学在物理学科的活动领域和合作机构的标注可知,细粒度标签化有助于全面深入了解科研机构的属性特征,准确识别关联机构。下一步将根据具体应用场景对标签化方法体系进行优化,构建支撑不同服务需求的科研机构标签体系。