本体构建相关文献综述报告

2019-11-30张婷

电子技术与软件工程 2019年1期

文/张婷

1 概念学习

概念学习阶段主要包括术语提取和概念形成两个任务。目前，概念学习阶段首要集中于术语抽取的研究。现有的术语抽取研究首要分为四类：语言学方法、统计学方法、机器学习方法和混合方法。

1.1 语言学方法

运用语言学方法来进行的术语抽取通常情况下是来分析某个领域之内的术语的词性组成，提取出领域内术语的词性构成模板来提取术语。最开始是基于词语的词性(part-ofspeech，POS)标注为基础来进行术语抽取，在20世纪70年代，Earl发现术语一般为名词，采用研究词性模板((A|N)+|((A|N)*(NP)?(A|N)*)N来筛选频率超过一定闽值的词语作为术语，之后的很多研究都在此基础上进行；Klingbiel结合词典与词性来选择特定的语法结构作为术语的候选词；Bourigault运用浅层语法分析来获得名词短语作为术语；Justeson研究后认为术语不仅可以由单词构成，即单词术语，还可以由多个词组成的复合术语，并且他们以为大多数术语由形容词、名词或介词短语组成，最终呈现的动词、副词或连接词很少。

他们采用((A|N)+|((A|N)*(NP)?(A|N)*)N这一词性模板，并结合词典来获取候选术语；提取候选术语的思想一出现，很多研究都各自提出了复合术语的模板，包括Dagan等提出的Noun+模板，Frantzi等提出的(Noun|Adjective)+Noun模板等。此外，Sabou提取名词短语的运用信息如词素，词根和语句中的方位。除了英语言语的方式术语抽取研究，中文领域的相关研究中也提出一些模板或规则来进行术语抽取，王昊等依据合成规则构造术语的方法来获取术语；王柏林利用规则方法从学术文献中抽取术语。

1.2 统计学方法

通过运用统计学的方法来进行术语抽取，主要是通过术语的一些统计学特征来区分领域术语及普通词语，例如基于术语的领域性，领域术语要较普通词语在某一领域的出现频率高。Pantel等在复合术语的抽取中采用互信息与对数似然方法；Gelbukh等采用对数似然进行术语抽取；刘剑等以及李江华等采用互信息和信息嫡进行术语抽取。除了复合术语内部词语的搭配强度，复合术语最左及最右的词语与语料中左邻及右领的词的搭配强度也可用于考查复合术语的独立性，丁杰等用左右边界嫡确定专利术语边界，该左右边界嫡就是通过确定术语与其左词及右词搭配出现的关联程度来考查该术语的独立性。

1.3 机器学习方法

此外，统计机器学习(Machine Learning，ML)方法也被应用于术语的抽取中。关于特征的选择问题，术语抽取常用的特征有统计特征及语言学特征等，统计特征指利用一些统计学方法获取的特征值，包括文档频率、反文档频率和TF-IDF；语言特征主要指词类特征。Collie使用隐马尔可夫模型提取生物范畴的术语，并提取了23个特征。包括数字、大写字母、罗马字符、连字符等；Shen采用隐马尔可夫模型，辨认词典的功用，包含：较为简明的特点，字词的形态特征（如前缀或后缀）、词性特征、语义触发功用，名词，和特别的动词；张承志使用条件随机域提取出16个特征：除了根本的功用，如字、词的长度，和讲话的一部分，它还包含衍生功用，如频率差等等。机器学习方法效果的好坏程度高度依赖于提取的特征集，当特征提取地较为完备时，可以获得比较高的准确率以及召回率，因此，选择什么样的特征集是机器学习方法研究的重点。

1.4 混合方法

混合方法即结合上述几种方法来进行术语抽取的方法，一般可以分为三种：第一种是首先利用语言学方法提取语料中的候选术语，再采用统计学方法对提取的候选术语进行排序；第二种与第一种相反；第三种是首先提取特征集，再采用机器学习的方法来抽取术语。

Frantzi等人提出的C值/NC值方式。该方法是归于第一类的方法。首先，需要利用语言学的方式从语料库之中提取名词的短语，然后选用统计学方法来抽取复合术语。Lossio-Ventura结合了两种方法来抽取复合术语，第一种方法是LIDF-value(结合语言学模板，IDF以及C-value方法)，是一种结合了语言学及统计学的方法，第二种是TeRGraph(基于图信息的术语排序方法)，是一种基于图的方法(统计)，基于图的方法假设术语的邻接术语越多，则越不具备领域性，然后采用了Dice coeff icient来计算图中由边连接的两个术语间共现。Ittoo结合了语言学和统计学方法来抽取复合术语(主要用于抽取2词复合术语)，他们采用了语言学方法进行候选术语抽取，然后采用了cube互信息(MI3)，并结合英文Wikipedia语料集来进行术语抽取。张雷瀚提出一种多策略融合的领域术语抽取方法，结合语言学方法及统计方法，构造术语的逆向词性规则和领域停用词表，利用PATTree和C-value方法获取候选术语，再对比单一文档和领域文档集来计算术语领域度，通过排序获取最终的术语。

2 等级关系抽取

关系抽取又包括等级关系抽取(taxonomic relationships)及非等级关系的抽取(nontaxonomic relationships)，中文关系抽取主要集中在命名实体间的关系抽取，对于本体概念间的关系抽取研究很少，大多基于词典、模板等进行概念关系抽取，效率不高。概念间等级关系获取的主要任务是构建概念间的上下级关系，主要有四种方式：语言学方式、统计学方式、基于图的方式和混合方式。

2.1 语言学方法

该方式主要经过形状剖析、句法剖析、依存结构剖析和语义剖析来识别层次联系。如果存在包括层次联系的句法模式，则经过提取和总结频繁句法模式来标识联系。Hearst采用bootstrapping算法扩展到更多的模板，用于抽取上下位关系；Pantel等结合Web与语言学模板的方法进行了语义关系的抽取；王昊等提出了结合以文档一术语空间为核心，结合形式概念分析的方法来进行等级关系的构建；汤青等结合句法分析与规则匹配来进行概念等级关系的抽取。根据言语的方式辨认词之间的高精度关系。缺点是根据言语模板的方式通常需要专家常识来开发模板。在模板的扩展过程中需要耗费大量的成本，可移植性较差。

2.2 统计学方法

统计学方法通过对大规模语料库的计算处理，发现规则，从而发掘联系。该方法与言语、范畴无关，具有很强的可移植性。但是，它十分依赖于语料库的质量和规模，使得命名联系类型变得困难。层次联系抽取可以看作是一个聚类或分类问题。根据聚类的层次联系识别方法主要有两种：层次聚类和非层次聚类。董洋溢等采用了混合了余弦相似度的核函数方法来进行概念等级关系的抽取，将这一任务转化为分类任务。

2.3 基于图的方法

根据图的方法一般涉及图节点的概念、表明联系的图的边以及丈量概念之间间隔的概念之间的边数。Kozareva主张运用根据图的方法来从有向图中结构。给定根节点和一些分层概念，运用预定义的模板，从而能够发现新的从属概念；Velardi为每个概念（在文档集或Web中）找到定义，然后运用分类结果。结构有向图模型，其中边是概念之间的联系；运用根据图的方法来度量概念之间的相关程度，而且运用语句之间的空间间隔来丈量语句的相似性。

2.4 混合方法

Suchanek结合了语言学模板机器学习算法——支持向量机从文本中获取概念联系；Cimian将聚类算法和言语模板相结合，从互联网上提取上下文信息，提取上下文联系；Rios-Alvarado组合言语学习模板和clu斯特林算法对文本中的概念来进行等级关系抽取；张晓勇结合深度学习与聚类方法从条件随机场抽取的候选术语集中获取概念等级关系；王昊利用形式概念分析来获取主题概念，并采用主题概念格进行概念等级关系的获取。

3 非等级关系抽取

概念非等级关系的抽取通常包含两个任务：

（1）从语料中抽取出可以组成概念非等级关系三元组的元素，包括相关的概念对以及描述概念对关系的动词；

（2）命名概念之间的联系。由于概念非层次联系提取元素较多，因而概念非层次联系提取的研讨通常采用多种方式进行提取。依据这些抽取工作中运用的方式，可以分为两类：一类是语言方式；另一种是统计学方式。

3.1 语言学方法

语言学方法是利用语言学模板的方法来获取概念非等级关系三元组。Berland利用WordNet作为资源，采用模板对概念间的部分一整体关系进行抽取，生成候选概念对，再利用统计学方法进行排序；Nenadi采用了三种模板(词典一语义模板、复合名词模板、上下文模板)来获取MEDLINE中的术语，上下文模板用于获取语料库中特征明显的术语，然后获取特定内容中的另一个术语、动词和介词，然后根据模板长度和频率的排序规矩对模板进行排序，并使用上述模板取得三个类似度。度，然后加权生成终究的类似度值，并调整权重参数；Sanchez使用动词模板获取领域语料库中的动词，然后将非层次联系的概念与Web相结合，然后以非层次联系命名联系。在汉语非层次联系获取的研讨中，俞凡首先定义了汉语非层次联系提取的规矩，然后结合关联规矩发掘，提取非层次联系的概念；何宇结合句法分析和词典特征对专利领域的非等级关系进行获取；赵明等。采用句法分析来获取概念间的非等级关系。基于模板的方法关键在于针对不同类型的关系进行模板的提取，但是需要穷尽所有的关系类型模板并非易事，这种方法只适用于获取特定的非等级关系。

3.2 统计学方法

统计学方法一般利用术语对的共现或者相似度来抽取非等级关系。Kavalec先通过语言学方法获取语料中的动词，通常概念非等级关系中的关系由动词表示，再将窗口范围限定在N个单词的距离内，在窗口中挑选两个词来生成“概念-动词-概念”三元组，再根据三元组的频率来排序，获取高频三元组为候选三元组，然后利用条件概率来计算概念对与动词的相关性。Punuru提出了VF*ICF方法(类似于TF-IDF的方式)来计量动词注释关系的能力，先获取相关概念对，再从领域语料中获取候选关系三元组(，SVO)，采用对数似然方法来测量概念间的关联程度。秦兵首先采用实体之间及关系指示词的位置限制来获取候选关系三元组，再采用全局排序和类型排序来挖掘关系动词，最后利用动词及句式规则对关系三元组进行过滤。

关联规则挖掘通常也被用于挖掘概念对之间或概念对与动词之间的关系，Villaverde在获取了候选非等级关系三元组的基础上，利用相关规矩发掘方法在候选三元组中得到概念对与动词之间具有较强相关规矩的三元组，但是该文章只关注了概念对与动词之间的关联度，并没有衡量概念与概念之间的关联程度。Gulla对比了利用关联规则挖掘及向量空间模型两种方法在非等级关系抽取中的效果，他们将非等级关系分为三类：不相关、相关和高度相关。结果表明，获取的关系可以借助相似度算法来获取，最终他们关联规则挖掘与相似度算法相结合进行了非等级关系的获取，其效果很好。