生物医学文献中的术语识别研究
2016-05-30周玉新
周玉新
摘 要:随着生物医学知识的发展,生物医学文献的数量的增长呈现爆炸性趋势,越来越多生物文献中有效数据的采集和整合都需要复杂的信息技术。其中,成功的术语识别是获取存储的文献信息的关键,但由于生物医学术语的复杂性,术语识别已经成为当前生物医学文献挖掘中的瓶颈,已经成为自然语言处理和生物医学文献挖掘的一个重要研究课题。文章概述了术语识别中的一些先进方法,讨论了主要方法和一般趋势,并对该领域进一步工作进行了描述。
关键词:术语识别 生物医学文献 自然语言处理
随着生物医学知识的快速发展和计算机网络的普遍应用,生物医学文献数量呈现井喷式增长,这激起了自然语言处理和信息技术领域对生物医学文献挖掘的兴趣,而这些都普遍依赖于生物医学文献中关键的一步——术语识别。其目标是识别文本中的术语并捕获其隐含的意义,将这一过程自动化使得大规模处理生物医学文献成为可能。
一、术语识别
在最近几年中,识别生物医学文献中的术语是NLP和IE中最具挑战性的研究主题之一。尽管已经有许多可用的术语资源,但文本中的许多术语仍然无法被正确识别。阻碍术语标识被成功识别的障碍包括大量的词汇变化、术语同义以及术语同名等几个方面。此外,生物医学文献中的术语是不断变化的,虽然在生物术语命名方面有指导性的方针,但是当领域专家发现或创造一个新的术语时往往并不遵循这些规则,从而导致根本没有一个合适的判定标准去判断一个名词是否是合法的术语。术语识别的任务是标记指示域概念存在的一个或多个相邻词,它的主要目标是区分一个或多个词是否是术语,术语识别通常与术语分类相结合。术语识别过程可以看成是一个普通的二元分类,它将自由文本中的词汇单元分类为术语和非术语。术语识别用于识别文献中的相关术语,自动术语识别系统(ATR)的性能通常在精度和召回率两个方面进行评估。精度是正确识别的术语数与识别的术语数之比,而召回率是正确识别的术语数与样本中术语数之比。一个优秀的ATR系统应该具有高精度和高召回率,但这两者之间往往会出现矛盾,这样就需要综合考虑它们,最常见的指标是F值,它是精度和召回率的加权调和平均:F值=((α2+1)*精度*召回率)/ α2*(精度+召回率)在下面的小节中,将讨论不同的ATR方法。我们首先讨论基于词典的生物医学术语识别方法,然后讨论基于规则的系统,它主要使用术语内在的证据来定位潜在的术语。此外,我们也讨论了主要依赖于上下文信息等外部证据的统计和机器学习方法。
二、主要方法
1.基于词典的方法。ATR使用现有的数据资源即术语词典来定位生物医学文献中的术语,但是如果直接使用词典/数据库查找,文中的许多术语将无法被识别,从而得到非常低的精度和召回率。Hirschman等将一个简单的模式识别用于识别文献中的基因,采用取自FlyBase的扩展基因名列表作为词典。该方法获得了相当低的精度。如此低的精度的主要原因是同名,即使我们在进行术语识别时进行过滤,丢弃掉较短的名称,也不会得到很高的精度。一些ATR方法利用额外的处理组合词典以用来支持术语识别过程。Krauthammer等提出了一个基于近似串比较的方法来识别基因和蛋白质名称以及它们的变形。在该实验中,系统获得了71.7%的精度和78.8%的召回率。
2.基于规则的方法。基于规则的方法试图通过重建与被用于创造术语相关的术语构成模式来发现新的术语,主要通过手工制作规则来描述某些术语类的通用命名结构。但是,由于规则通常是非常具体的,将它们应用到其他实体非常困难。Ananiadou提出了一个基于一般语法的方法,他提出了一个四级有序形态来描述术语形成模式,系统使用了形态统一语法和一个具有特殊词缀、词根实例的词典。一些系统使用了基于更简单模式的方法,该模式建立在给定术语类的词形和词汇特点基础上。例如,Fukuda等主要依靠简单词法模式和词形特征识别蛋白质名称。他们的系统PROPER利用了“核心”和“特征”两个组件,“核心”是指支撑意义核心的那些词,而“特征”是指描述术语功能和特征的关键词。
3.基于机器学习和统计的方法。各种机器学习和统计技术被用于ATR。统计方法主要是解决通用术语的识别,而机器学习方法则通常用来进行专门实体类的识别,因此往往将术语识别和术语分类整合在一起。机器学习系统利用训练数据学习用于术语识别和分类的有用特征,但是可靠训练集的存在本身就是一个问题,因为它们并没有被广泛提供。除此之外,基于机器学习方法的主要挑战是选择一个可用于术语实例精确识别和分类的特征集,另一个挑战是属于边界的检测,这是识别中最难学习的部分。在术语识别中,一些监督机器学习方法被用于ATR。例如,Collier等使用隐马尔科夫模型和特定的字形特征来发现文献中的术语。根据字形的相似性,每个候选的术语被分配到与训练集中术语最相近的一个类,学习的结果依赖于训练集的质量。除此之外,一些研究人员使用支持向量机进行命名实体的识别。Kazama等在GENIA语料库上训练了一个多类别支持向量机。为了解决数据稀疏问题,该方法在位置相关特征,以及词缓冲和HMM状态特征基础上预测这些复合标记。其他一些研究人员对基于支持向量机的术语识别和分类方法用一些其他特征进行了实验。例如,Yamamoto等组合了边界信息和词汇的形态特征,“生物医学”和句法特征。在上述三种基本方法基础上,许多方法组合了不同的方法和各种不同的资源用于术语识别任务,利用混合方法进行术语识别通常比单独使用一种方法或在单一资源上学习有更好的性能。
三、结语
术语识别是NLP中一项基本技术,是生物医学文献挖掘中的关键一步。但目前自动术语识别的研究仍存在问题,针对这些问题,已经有人提出了相应的思路及解决方案。另外,术语识别的方法众多,针对生物医学文献中术语的不同特征,多特征及多算法的融合已成为目前的主流,如何有效融合不同的特征识别算法将成为主要的发展趋势。并且,基于机器学习的方法已经成为生物医学文献中自动术语识别的热点。
参考文献:
[1]游宏梁,张巍,沈钧毅,等.一种基于加权投票的术语自动识别方法[J].中文信息学报,2011,25( 3) :9-16.
[2]汤青,吕学强,李卓,施水才. 领域本体术语抽取研究[J]. 现代图书情报技术. 2014(01).
[3]贺敏,龚才春,张华平,程学旗. 一种基于大规模语料的新词识別方法[J]. 计算机工程与应用. 2007(21).