面向特征挖掘的知识单元学科归属判定方法对比研究
2023-11-21操玉杰向荣荣王施运
操玉杰,向荣荣,毛 进,王施运
(1. 华中师范大学信息管理学院,武汉 430079;2. 武汉大学信息管理学院,武汉 430072)
0 引 言
当代社会重大科技突破和研究成果越来越依赖于多个学科的交叉融合。学科交叉本身已成为一个重要的科学研究对象,开展“跨学科学”[1]研究,探索学科交叉一般规律和方法,有助于充分发挥学科交叉在科技创新中的作用和价值。已有较多定量研究利用引文关系、作者合著等从学术出版物中揭示跨学科研究活动的知识交互特征和规律[2]。然而,引文关系、作者合著等信息仅是知识关互关系的间接测度,即文献和作者并不是知识的直接承载物。相较而言,部分学者近年来开始从文献文本中直接提取能够反映细粒度知识内容的知识单元,进而从知识内容角度来量化测度学科之间的知识传播和知识整合,以期更准确地揭示学科交叉规律[3-4]。同时,情报学研究中基于文献的跨学科知识发现,旨在从跨学科领域的文献中挖掘得到来自不同学科的知识内容之间的关联关系,其研究对象也是细粒度知识内容。结合已有研究[5-6],本文使用知识单元作为细粒度知识内容的度量单位,认为其是指具有独立知识含义和完整知识内容的词或词组,是相关概念的统称:知识元是不可再分、最小粒度的知识单元[7],知识实体是微观层面上的部分知识单元[8],术语是表达特定概念的词或词组[9]。基于细粒度知识内容的跨学科学研究和知识发现研究,能够服务于学科交叉相关的科技政策、科研管理和科研活动,促进交叉学科和交叉科学的发展。
无论是基于知识内容的跨学科学研究,还是基于文献的跨学科知识发现,知识单元的学科归属判定均是重要的基础性工作和任务。结合学科关联视角[10],本文将知识单元的学科归属理解为知识单元依托于某一学科的程度,知识单元的学科归属度越高,则其与该学科的知识关联性越高,其知识产生背景、知识应用过程均与该学科具有较高关联,同时与学科中其他知识也具有高度的连接性。有效判别知识单元的学科属性,能够保障学科间知识关系测度和知识单元关联发现的准确性。然而,目前交叉研究领域的知识单元学科归属判定仍然是一个难点,面临着多方面的挑战。现有方法主要针对文献或机构等粗粒度知识对象,而关于如概念、术语、词语等知识单元[5]的学科归属识别研究相对较少,鲜有研究针对知识单元提出适应性的优化方法。目前,相关研究一般借鉴相似任务中的识别方法,在文献的学科分类基础上,进一步采用多种统计指标或机器学习方法来判定知识单元学科归属。知识单元的学科归属与术语领域归属度计算存在一定的关联:术语领域归属度通过测度术语的领域专业性和区分性来反映术语自身在特定领域中的重要程度。然而,这些研究尚存在如下不足:一是现有研究一般仅实现了知识单元的学科归属方法,进而应用在后续任务之中,较少在同一数据集上对比不同方法的性能;二是在理论层面,已有方法一般只依赖知识单元的部分特征来设计方法,未能系统地梳理知识单元的特征体系并评估特征的重要性。
鉴于此,本文借助16 种可用于判定知识单元学科归属的常用测度模型,解析出知识单元的学科重要度、学科相关度和学科区分度3 种学科维度特征体系,厘清各个方法所使用的特征组合情况,进而构建交叉研究领域测试集开展方法对比实验,根据词频和学科覆盖度区分不同类型的知识单元,对比分析不同方法对不同类型知识单元的学科归属判定性能,从而挖掘出对学科归属判定性能有贡献和价值的知识单元特征及其组合。本文系统性地揭示了对于学科归属判定方法产生影响的知识单元特征体系,有利于优化知识单元的学科分类方法,提升细粒度知识内容计量的精确性,促进跨学科学发展,也有助于改进跨学科知识发现方法,以促进交叉科学研究活动的开展。
1 相关研究概述
1.1 学科分类体系
科学研究具有结构特征,学科分类有利于人类对知识体系形成清晰认识[11]。现有学科分类体系繁多,常见的包括Web of Science (WoS) 学科分类[12]、Scopus 学科分类[12]、ESI (Essential Science Indicators)学科分类[13]和《中国图书馆分类法》[14]等。不同分类体系的差异体现在学科覆盖范围、学科分类层级、学科与期刊的关联3 个方面。其中,在学科覆盖范围方面,当前学科分类体系均覆盖较广,基本覆盖自然科学、社会科学、生命科学、医学等;在学科分类层级方面,较多学科分类体系包括2 个或3 个层级;在学科与期刊的关联方面,以Web of Science 为代表的英文学科分类体系均提供学科与期刊的对应关系,以多对多为主,而《中国图书馆分类法》未提供学科与期刊关联关系。上述学科分类体系为知识的学科分类和跨学科研究提供了数据基础。WoS 学科分类体系因期刊的学科类别获取难度低、学科覆盖面广而在跨学科研究中使用最为广泛[15]。
1.2 知识的学科分类方法
在科学计量和科技知识发现研究领域,学者们尝试对不同粒度的知识对象识别其学科归属,包括研究领域、期刊、论文、作者和关键词等知识对象。多数研究基于学科分类体系中的期刊学科对应关系,通过“学科-期刊-论文”关联获得知识对象的学科分类[16-17]。这种简单承袭方法认为论文及论文中的作者、关键词等均隶属于论文刊载期刊的学科分类,但对于论文和更细粒度的知识对象而言,这种方法具有较大的随机性:其默认知识只要在学科中出现过即归属于该学科。为了优化这种学科分类方法,学者们尝试利用统计阈值来提升知识的学科专指性。例如,吕双[18]认为一个前沿领域发表在某个学科的核心论文数超过该领域总论文数的20%时,可判定这个前沿领域属于该学科;华萌等[19]提出文献数分类法来确定期刊的学科分类,认为期刊隶属于文献占比超过20%的学科;范晴晴等[20]通过论文参考文献期刊的学科类别统计出占比10%以上的一种或多种学科作为论文所归属的学科。除了期刊的学科信息外,作者通信信息中的机构名称也可以用于判定作者和论文的学科归属[21]。
为进一步提升学科分类的精度,部分研究者尝试利用知识在学科语料中的统计信息来挖掘知识与学科之间的关联特征。计算原理来自Kageura 和Umino 于1996 年提出的“术语度”,认为术语在给定领域和背景语料库的统计信息可区分与领域关联度较大和较小的术语,并以此识别领域术语[22]。基于这种对比不同语料中统计信息的思路,学者们提出了相关方法衡量知识单元的学科归属。吕双[18]在词频基础上考虑学科论文在背景语料库的词汇覆盖度特征,设计关键词的学科隶属度指标。Fattah[23]利用词汇在学科内外的分布差异比例衡量词汇对某学科的重要性,认为该比值最大的学科为词汇的归属学科。刘丽帆等[24]使用卡方值观察名词块与学科的相关性特征,认为名词块与学科相关度越高,其能代表学科的可能性越大。
除了上述统计方法外,机器学习也被应用于知识的学科分类。Uysal 等[25]提出区分特征选择器(distinguishing feature selector,DFS),综合考虑学科词频占比、词汇与学科相互依赖程度和词汇在学科内外的分布差异,用机器学习方法筛选出具有学科独特性的词汇。杜涛[26]在词频逆文档频率(term frequency-inverse document frequency,TF-IDF)特征基础上,借用机器学习方法对SCI(Science Citation Index)论文进行一级学科归属判别。部分学者也开始关注知识单元的类型对学科分类的影响,如胡昌平等[27]认为高频词对领域代表性存在天然缺陷。在知识单元学科分类实现基础上,学者们进一步引入上下文语境、结构位置、引文内容等特征开展了知识单元的语义分类研究。例如,陆伟等[28]认为学术文本词汇在特定上下文环境中承载了特定的语义功能,结合机器学习方法将关键词划分为研究问题、研究方法和其他;Wang 等[29]考虑了引文内容及篇章结构特征,将方法章节引文内容中的知识对象进行人工分类标注,包含14 类计算机方法。
综上所述,知识的学科分类方法研究整体呈现研究对象细粒度化、分类模糊性降低、分类方法复杂度升高的趋势。知识单元的学科归属判定不仅是大势所趋,也需要进一步提升方法性能。进行特征挖掘以寻找影响知识单元的学科归属判定性能的关键特征,对优化学科分类方法至关重要。
2 研究方法
2.1 研究思路
知识单元的学科归属判定可视为一个分类任务:已知一个给定的学科集合,根据知识单元的特征由分类算法自动赋予其一个学科标签。识别和发现关键特征对提升知识单元学科分类性能具有重要影响。为此,本文尝试借助16 种知识单元学科归属测度模型,分析模型所纳入的特征,并对比不同方法的效果,以挖掘出有效的关键知识单元特征或特征组合。本文梳理了现有学科归属测度方法及其特征维度,设计了对比研究框架,如图1 所示。
图1 词汇学科归属判定方法对比研究框架
该对比研究框架包括3 个环节:①测试集构建。选择一个交叉研究领域,识别词汇及其学科信息,构建一个知识单元学科归属测试数据集。②学科归属判定。分别将16 种方法应用在测试数据集上,判定测试集中每个词汇在背景语料库中的学科归属,并转换为是否属于医学的二分类结果。③特征组合性能对比。本文归纳了所梳理的学科归属判定方法涉及的知识单元特征及特征组合,通过对比分析,探讨不同特征或特征组合对学科归属判定效果的影响。
2.2 知识单元学科归属测试集构建
本文针对交叉领域的知识单元,识别其所归属的学科。因此,需要构建一个交叉领域的数据集,获取该领域的知识单元,并进行学科分类。由于学科归属判定方法一般会利用知识单元在关联学科中的统计信息,因此,除了获取交叉领域数据之外,还需要收集该领域的关联学科的数据集。本文构建知识单元学科归属测试集的操作如下:在评价和比较学科归属测度方法性能时,需要构建包含面向学科归属判定需求的交叉领域知识单元集、标准学科相关知识单元集的测试集,以及支持学科归属测试方法计算的学科知识单元集。
(1)交叉领域及关联学科数据集
选取近年新兴医学交叉领域“计算医学”[30],对该领域知识单元进行学科分类。在WoS 核心合集中以主题词computational medicine 进行检索,时间范围为1999—2022 年,检索时间为2022 年8 月15日,共获得文献6113 篇。分别统计计算医学领域发文分布和WoS 学科分布,如图2 和表1 所示。可以看出,计算医学领域文献数量呈现指数增长趋势,处于蓬勃发展态势中,发文量排名前20 位的学科主要分布在医学、生物学、计算机科学和化学等学科大类中,数量分布较为均衡,具有典交叉领域特性。从表1 中选择归属于不同学科大类且发文量较高的4 个关联基础学科,即放射学、核医学和医学成像(radiology, nuclear medicine & medical imaging),计算机科学跨学科应用(computer science, interdisciplinary applications),基因遗传学(genetics heredity) 和化学- 多学科(chemistry, multidisciplinary)。基于JCR(Journal Citation Reports)获取4个学科的核心期刊列表,按照“放射学、核医学和医学成像”前25 本期刊所占该分类论文比例(27.67%)进行等比抽样,采集期刊论文题录数据。
表1 计算医学领域文献的WoS学科分布
图2 计算医学领域文献的时间分布
分别针对计算医学领域和4 个学科的文献数据集,利用python 的spaCy (https://spacy.io) 程序包从能够表征文献核心内容的标题、摘要和关键词等题录文本中抽取名词短语,进行清洗和词形还原等预处理,作为最终的知识单元。本文将计算医学领域文献数据集称为交叉领域语料库,将其所关联的4 个学科基础文献数据集作为背景语料库。交叉领域语料库和背景语料库的基础情况如表2 所示。
表2 学科领域语料库基本情况
(2)知识单元学科归属测试集
构建知识单元学科归属测试集的目标是收集一个词汇集合,并赋予每个词汇相应的学科归属标签。然而,目前较难获取词汇的学科标签,也无相应的数据集可以借鉴和使用。根据计算医学领域论文涉及的WoS 学科分类来看,主要涉及的学科大类包括医学、计算机科学、生物学、化学等。鉴于可操作性,本文以医学学科为知识单元归属的目标学科,构建数据集。由于数据规模和数据获取难度问题,本文仅使用4 个关联学科来表征这几个学科大类。
首先,从计算医学领域知识单元中选取现在多个学科(需包括医学)中的数量将词汇视为待判定交叉领域知识单元,共获得31366 个词汇。只出现在一个学科中的词汇,其学科归属较为简单,可将知识单元出现的学科视为其归属学科。
其次,利用MeSH(medical subject headings)医学主题词表来判定上述知识单元是否归属于医学学科,认为在MeSH 词表中出现的词汇属于医学学科。医学主题词表[31]是美国国立医学图书馆(National Library of Medicine,NLM)编制的最具权威性的医学领域动态主题词表,其覆盖了医学领域的规范性叙词概念,该词表每年都会进行版本升级、主题增删,主题词表收录时考虑了词汇的稳定性和新颖性[32]。对31366 个词汇依次使用MeSH 在线文本匹配功能(https://meshb-prev.nlm.nih.gov/MeSHon-Demand),判断其是否为MeSH 主题词。通过以上操作,共发现4348 个词汇属于医学学科,占总量的13.86%。由此可知,知识单元学科归属测试集共包括31366 个词汇,其中4348 个属于医学学科,27018 个不属于医学学科。
2.3 学科归属测度方法
知识单元学科归属判定方法一般是根据知识单元即词汇在各个学科中的统计特征来确定该知识单元最可能从属的学科。本文在统计分析词汇信息基础上,实现学科二分类任务,即根据词汇的统计指标,结合判定规则判定一个词汇是否属于学科“医学”。本文基于现有研究[10,13,33-34]梳理了16 种可用于知识单元学科归属的判定方法。本节分析了这些方法所考虑的词汇特征或特征组合,以及具体的学科归属分类判定规则。
2.3.1 16种方法的计算公式和判定规则
表3 梳理了16 种知识单元学科归属方法的计算公式和判定规则。其中,计算公式以学科内外词频和文档频为基础计算知识单元与学科的某种关系指标。判定规则用于判断知识单元是否属于某个学科,其依据主要有两种:一种是根据某学科内的指标值排名情况进行判定,如热度、期望交叉熵和领域相关度3 种方法均是将某学科中指标值靠前的知识单元视为归属于该学科。靠前阈值取学科归属测试集中属于医学的词汇占比(前13.86%)。另一种是通过对比不同学科间的指标值进行判定,如在互信息方法中,分别计算知识单元与多个学科的互信息值,然后选择指标值最大的学科视为该知识单元的归属学科。根据判定规则获得知识单元在背景语料库中的对应医学、生物学、计算机科学和化学4 个学科的学科归属,并转化为是否属于医学的二分类结果。
表3 知识单元学科归属测度方法
2.3.2 知识单元的特征维度
根据学科归属测度指标涉及的统计项和指标设计原理,将知识单元特征归纳为学科重要度、学科相关度和学科区分度3 个方面。
(1)学科重要度
学科重要度(importance,I)主要描述词汇对特定学科知识内容表征的重要性,学科内出现越多或者相对越多的词汇对学科越重要。词汇出现情况通常可以用学科语料库中词汇热度或词汇论文覆盖率来描述,即
其中,IF(i,j)表示词汇i在学科j内的热度;freq(i,j)表示词汇i在学科j内的出现频次;freq(all,j)表示学科j内所有词汇的累积频次。
其中,ID(i,j)表示词汇i在学科j内的词汇论文覆盖率;doc(i,j)表示学科j内包含词汇i的论文数;doc(all,j)表示学科j的所有论文数。
(2)学科相关度
学科相关度(relevance,R) 主要描述词汇在统计语料库中与特定学科的关联程度。在背景语料库中词汇在特定学科中的出现占比越大,词汇与学科的相关性越高。词汇的学科占比通常可通过学科词频占比和学科论文占比来描述,即
其中,RF(i,j)表示词汇i在学科j内的学科词频占比;freq(i,j)表示词汇i在学科j内的出现频次;freq(i,all)表示背景语料库中词汇i的所有累积频次。
其中,RD(i,j)表示学科j内包含词汇i的学科论文占比;doc(i,j)表示学科j内包含词汇i的论文数;doc(i,all)表示背景语料库中包含词汇i的所有论文数。
(3)学科区分度
学科区分度(discriminability,D)是词汇对学科特性的表征能力。对学科特性表征能力高的词汇,应该在学科内尽可能多地出现,同时在学科外尽可能少地出现[35]。借鉴术语度计算原理[36-37],学科区分度可以通过词汇在给定学科和背景语料库中的统计信息来计算。以词频和文档频率来计算的两种方式分别为
其中,DF(i,j)表示词汇i在学科j内外的学科词频占比;freq(i,j)表示词汇i在学科j内的出现频次;freq(all,j)表示学科j的词汇累积频次;freq(i,all)表示词汇i在背景语料库中的所有累积频次;freq(all,all)表示背景语料库中所有词汇的累积频次。
其中,DD(i,j)表示学科j内外包含词汇i的学科论文占比;doc(i,j)表示学科j内包含词汇i的论文数量;doc(all,j)表示学科j的论文数;doc(i,all)表示背景语料库中包含词汇i的所有论文数;doc(all,all)表示背景语料库中的所有论文数。
2.4 对比分析实验设计
2.4.1 性能评价方法
在实验时,统计31366 个词汇在医学、计算机科学、生物学和化学等学科数据集中的词频和文档频率,运用16 种方法判定每个词汇的学科归属,转换为是否属于医学的二分类结果,进而与测试集进行匹配评估方法性能。
本文采用精准率(precision)、召回率(recall)和F1 指标进行性能评价。测试集知识单元数量为S,学科归属判定方法得到的医学知识单元数量为T,所命中的测试集医学知识单元数量为St。
精准率衡量学科归属判定方法的准确程度,其公式为
召回率衡量学科归属判定方法的完备程度,其公式为
F1 是精准率和召回率的调和平均值,用于综合评价指标分类性能,其公式为
需要注意的是,事实上16 种方法在本文数据集中判断的结果是词汇是否属于放射学、核医学和医学成像,而不是医学大类。本文构建的基于MeSH的测试集中可能存在部分概念属于医学领域,但不属于该二级领域,故所得到的指标值比真实指标值偏大。尽管如此,本文认为这种评价方法也有其合理性,因为可以认为,不属于MeSH 中的词汇也不能归属于该二级领域,即对负样本的评价相对准确。
2.4.2 知识单元分组
词频和学科覆盖是两种公认的与知识单元的学科特征表征能力紧密相关的属性特征。在实验结果分析时,本文将对不同词频和学科覆盖的知识单元进行分组分析。
现有研究认为处于不同词频区间的知识单元对学科领域代表性存在差异,如高频词对领域代表性存在天然缺陷[31],而非高频词更能反映类别的特征[38]等。本文借助基于词频、词量、累计词频占比动态取值的方法[39],依据交叉领域知识单元集在学科知识单元集中的频次统计,将词汇划分为高频词、中频词和低频词3 种。
知识单元同时出现的学科数量,即学科覆盖情况,在一定程度上反映了知识单元的学科通用性或专业性[40]。该特征同样可理解为知识单元对学科领域特征的表征能力,从而影响知识单元的学科归属判定。本文统计了交叉领域知识单元集中词汇在学科知识单元集中同时出现的学科数量。本文的实验将词汇按学科覆盖情况划分为覆盖二学科、覆盖三学科和覆盖四学科3 种类型。
2.4.3 对比分析的总体思路
为进一步挖掘究竟哪些特征或特征组合用于知识单元的学科归属测度能够获得较好的学科判定性能,本文分析了现有的16 种学科测度方法所考虑的具体特征或特征组合,如表3 所示。在知识单元的词频分组和学科覆盖分组基础上,本文设计了对比分析思路,包括3 项具体对比分析:①针对所有知识单元,对比分析不同特征组合下的性能差异。②针对不同词频分组知识单元,对比分析不同特征组合下的性能差异,并分析不同词频分组知识单元间的性能差异。在领域知识分析中,不同词频的知识单元的判别难度不同,对于领域知识分析的价值也不一样。分别考察学科归属方法在高频词、中频词和低频词中的性能,有助于理解特征组合对于不同词频知识单元的学科归属区分性能影响。③针对不同学科覆盖知识单元,对比分析不同特征组合下的性能差异,并分析不同学科覆盖知识单元间的性能差异。通过以上对比分析进行特征挖掘,以获得通用情境下和特定情境(如不同词频或学科覆盖)效果最好的特征或特征组合。
3 结果与分析
3.1 学科归属测度方法性能总体对比
为了比较不同特征组合下的知识单元学科归属测度方法的性能,分别运用16 种学科归属测度方法进行学科归属判定,并计算性能评价指标值,进而结合各方法考虑的知识单元特征组合进行分组分析。对相同特征组合的各方法性能进行统计,得到7 组特征组合的性能。图3 列出了每组特征组合的精准率、召回率和F1 值的箱型图,表4 列出了每种特征组合下各方法的精准率、召回率和F1 值的排名与指标值。
图3 7种特征组合下的学科归属测度方法性能(四分位箱型图)
由图3 和表4 可以观察得到不同特征组合对于学科归属测度方法的影响,相关发现如下:
(1)对于测试集中所有词汇而言,知识单元学科归属测度效果最好的3 组特征组合依次为I、I+R+D 和I+D。其中,只考虑特征组合I 的综合性能远高于后两种,而在加入学科区分度D 后性能有所下降,但在综合考虑加入学科相关度R 时则性能有所回升。特征组合I 和特征组合I+D 两种组合性能优势体现在精准率上,而特征组合I+R+D 的组合性能在精准率和召回率上均较为靠前。由此可以认为,能带来高精准率的特征组合I 是知识单元学科归属测度方法的必要特征选择,3 种特征的综合考虑则能够在保障精准率的同时也提升查全率,以保障较为均衡的整体性能。
(2)效果较好的学科特征组合中排名靠前的学科归属测度方法为TF、DR、DP、FW 和DFS。前3种指标同时考虑词频和文档频,会获得较高精准率和低召回率,且体现为仅考虑学科内的情况下精准率和综合性能更高。后两种指标当只考虑词汇在学科内外的文档覆盖情况时,能够获得较为均衡的精准率和召回率。同时还观察到,即使考虑相同的特征组合,具体方法设计也能较大程度地影响方法性能。例如,在考虑学科重要性I 的方法中,TF 和DR 方法明显优于ECE 方法。
(3)受数据不平衡分布影响,排名靠前学科特征选择与方法性能评估通常体现为高精准率和低召回率。在测试数据集中,属于医学与不属于医学两种分类词汇数量比约为1∶6。这决定了交叉领域知识单元集中实际属于医学的词汇较少,降低了判定结果中属于医学的概率,在性能上表现为召回率较低。
3.2 不同词频区间知识单元的性能对比
为了探讨特征组合对不同词频区间知识单元的学科归属测度性能影响,本文进一步分组对比了16种学科归属判定方法在不同词频区间知识单元上的性能。表5 列出了测试数据集中的词频区间划分结果,共识别出高频词222 个、中频词7570 个和低频词23574 个。
表5 知识单元词频区间划分
从图4 列出的不同词频区间的学科归属测度方法性能来看,不同频次词汇的综合性能排序为中频区>高频区>低频区,F1 值分别为26.61%、22.43%和16.50%。这一观察部分佐证了高频词与非高频词对于学科领域代表性存在差异的观点。在此基础上,进一步发现了高频词的学科归属测度结果没有中频词的表现好,但优于低频词。高频次可能是概念范畴较大的通用型词汇,也可能是领域中非常重要的词汇;对于前一种情况,其可能涉及多个学科,因而区分难度较大。对于低频词而言,其出现频次信息较少,相关指标值可能受到随机因素影响,因而区分难度最大。
图4 不同词频区间的学科归属测度方法性能
如图5 所示,进一步对3 种词频区间的知识单元考察7 种特征组合下的学科归属测度方法性能,结合纵向词频对比和横向特征组合对比,可以看出:①特征组合I+R+D 在3 种频次中综合性能均排在前3 位,并且3 种频次区间的F1 值排序为中频区>高频区>低频区;②一些特征组合有性能优势词频区间,其中特征组合D 和特征组合R+D 仅在高频词中综合性能F1 值排名第一和第二,特征组合R 在中频词综合性能F1 值排名第三,特征组合I 在低频词综合性能F1 值排名第一;③从不同特征组合的方法性能分布来看,大部分特征组合在中频词上能够获得较好的性能。
图5 不同词频区间的特征组合性能对比
由此可知,针对不同频次区间知识单元,可以采用不同的特征组合方法来进行更好的学科归属判定。对于高频词而言,注重学科区分度(D)的特征组合表现出了相对较好的性能,即需要进一步判定高频词是否具有高学科区分度。对于低频词,其涉及的学科相对较少,注重知识单元对于学科的重要性(I)能够表现出较好的学科归属性能。
3.3 不同学科覆盖知识单元的性能对比
本文进一步对比不同学科覆盖的知识单元学科特征组合效果。按照学科覆盖情况将测试集中的知识单元划分为二学科、三学科和四学科,分别包含5636 (占17.97%)、8417 (占26.83%) 和17313(占55.20%)个词。3 组知识单元的整体性能如图6 所示。综合性能F1 值排序为四学科(25.39%) >三学科(16.68%) >二学科(7.82%),整体呈现出词汇所覆盖的学科越多,学科归属判定效果越好。可以推测,词汇出现的学科越多,其学科间的差异性更能被统计指标所捕获,因此,这些学科归属判定方法能更加准确地给出判定结果。
图6 不同学科覆盖知识单元的学科归属判定性能
分组计算7 种特征组合对应的学科归属判定方法性能。图7 为这3 组不同学科覆盖词汇列出了不同特征组合方法的性能结果,可以看出:①特征组合I 和I+R+D 在3 种学科覆盖类型下有较好的精准率和F1 指标值,尤其在四学科覆盖情况下最好,说明了学科重要性对于判断学科归属的重要性;②特征组合R、I+R 和I+R+D 的召回率较高,说明从学科覆盖视角,对于涉及多学科的知识单元而言,依据学科相关性能够发现更多的知识单元;③各组加入学科区分度D 的特征组合在四学科覆盖的知识单元组中的相对性能显著提升,说明针对涉及多个学科的知识单元而言,在学科重要度基础上应重点补充学科区分度。
图7 不同学科覆盖特征组合下的性能对比
3.4 学科特征组合的通用性分析
为进一步挖掘在不同情况下性能表现较好的通用特征选择,本文汇总知识单元特征组合与不同知识单元分组下的49 种“分组-特征组合”性能,并进行对比分析。表6 归纳了7 种特征组合在整体、高频、中频、低频、二学科、三学科和四学科7 种情况下的整体性能F1 值的排名,并以粗体突出每种知识单元类型中排名前3 位的特征组合。排名靠前的特征组合反映了其在该情况下的适用性。由表6 可以看出:①特征组合I 和I+R+D 的通用性较强,I 的性能最优,I+R+D 在更多场景中表现较好;②特征组合D 的通用性弱,但在特定知识单元类型高频词中性能突出;③特征组合I+R 在各场景性能均较差,是可以优先剔除的特征组合选择。
表6 49种分组中学科特征组合综合性能的F1值排名
4 总结与讨论
相较于引文内容和引文关系这种间接的测度方式,论文研究内容如知识单元,可以更好地揭示学科特征[41]。其前提是需要筛选能够代表学科领域的知识单元特征以更好地判定知识单元学科归属。本文从学术文献的知识单元出发,梳理了现有学科归属测度方法及其利用的知识单元学科特征,并在不同词频区间和不同学科覆盖度的知识单元分组中进行性能对比,以挖掘特征对学科归属测度的影响,为优化学科归属判定或分类方法提供支持。
在“计算医学”领域开展实证研究,构建了待分类词表和测试数据集,判定词汇是否属于医学学科,借助学科归属测度模型性能的对比分析,进行影响知识单元学科归属判定的特征挖掘:①总体来看,综合使用学科重要度、学科相关度和学科区分度指标的方法在各组分析中均表现出较好的性能,同时学科重要度在多个分组的表现都较好,由此说明学科重要度是3 种特征中最重要的一项;②高频词和低频词的学科归属难度大于中频词,对于不同词频区间知识单元,可以选择不同的策略,高频词需要注重学科区分度,低频词需要重点考虑学科重要性;③针对涉及多个学科的知识单元而言,在学科重要度基础上加上学科区分度能够显著提高精准率,从而提升整体性能,学科相关性则有助于提高召回率。
本文的理论意义与实践启示:①系统梳理了16种文本重要性和文本分类相关的指标方法,并移植于交叉领域知识单元的学科归属研究,从理论上对这些方法进行了剖解;②通过对16 种方法的学科重要度、学科相关度和学科区分度组合特征对于其性能的影响分析,揭示了知识单元学科归属的知识单元特征影响机理,能够对未来的研究方法提供理论指导;③发现了不同词频和不同学科覆盖度词汇适用的特征,能够为学科分类判定实践提供具体建议。
本文尚存在一些局限。一是受MeSH 词表参照标准的限制,仅能进行面向医学的二值学科判定,无法对尚未被MeSH 词表收录的新兴医学概念进行判断;二是受到研究数据规模和处理能力的影响,在构建测试数据集时,仅抽样医学、计算机科学、生物学和化学的二级学科的部分论文,无法完全反映知识单元在学科中的真实分布情况。未来,将进一步借助机器学习方法在知识单元特征组合的基础上优化知识单元学科归属判定方法,并在跨学科知识流动、研究领域跨学科交叉程度研究等场景中展开应用研究。同时,需要指出的是,知识单元与学科的关联性也可以通过其与学科中其他知识单元的关联关系进行判断,本文仅关注了知识单元自身,而未考虑这种结构关联性。