APP下载

维吾尔语多词领域术语的自动抽取

2015-04-21田生伟

中文信息学报 2015年2期
关键词:互信息维吾尔语词频

田生伟, 钟 军,禹 龙

(1. 新疆大学 软件学院,新疆 乌鲁木齐 830008;2. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;3. 新疆大学 网络中心,新疆 乌鲁木齐 830046)



维吾尔语多词领域术语的自动抽取

田生伟1, 钟 军2,禹 龙3

(1. 新疆大学 软件学院,新疆 乌鲁木齐 830008;2. 新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046;3. 新疆大学 网络中心,新疆 乌鲁木齐 830046)

多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。

维吾尔语;多词领域术语;互信息;对数似然比率;相对词频差值

1 引言

领域术语是人类科学知识在自然语言中的结晶,人类科学探索的成果都要以领域术语的形式在自然语言中记录下来[1]。领域术语的变化在一定程度上反映了一个科学领域的发展变化。现阶段在基于开放语料的术语抽取实验中,三字及三字以上领域术语的抽取精度只有 66.63%。所以多词领域术语,包括维吾尔语多词领域术语,其抽取成了自动术语抽取(Automatic Term Extraction,ATE)的一个亟待解决的难点问题。

维吾尔语是我国语言组成的重要部分,使用人数众多。维吾尔语多词领域术语的抽取将在一定程度上有助于维吾尔语领域术语标准化工作的开展,对整个维吾尔语文化事业的发展将起到一定的推动作用。

为了便于读者阅读,现说明本文的组织结构如下: 文章第2节介绍术语的特征和主流抽取方法;对于维吾尔语多词领域术语抽取面临的困难和解决方向将在第3节进行详细说明;本文提出的维吾尔语多词领域术语抽取方法将放在第4节予以介绍;第5节将对方法进行全面说明;实验结果与分析会在第6节全面展开;最后在第7节将总结本文的工作,提出下一步的研究方向。

2 领域术语抽取的相关研究

2.1 领域术语的特征 领域术语是各学科中的专门用语。领域术语具有以下两个特征: 一是具有领域性。领域术语是表达各个特殊概念的专业用语。领域术语一般只在一个或几个特定的领域中流通,只被该特定领域的文章使用;二是具有语言完备性。作为领域文本的构成单元,领域术语也是一种语言符号,其符合语言学中的语法、语义、语用等方面的规律。

2.2 术语自动抽取的方法

对术语现象最早进行研究的是英国的Firth等人。Firth在1957年提出了上下文理论,强调上下文信息对术语的重要性。随后由于自然语言处理技术(Natural Language Process,NLP)的迅猛发展,很多术语抽取方法和系统被开发出来,这其中包括基于词典的方法。该方法主要利用领域专家编纂好的词典进行匹配,但是由于词典的更新速度较慢,并且对于词语的分类没有完全统一的标准。所以,当前用得较多且技术成熟的是以下三种方法。

2.2.1 基于规则的方法

基于规则的方法通过人们总结的术语特定的语言结构和模式完成对术语的抽取。其主要利用词法、句法信息识别术语,人工构造规则模板实现术语的识别与抽取。基于规则的方法实现比较简单,尤其是对低频术语的抽取效果较好[2-3]。但这种方法需要的成本较大,耗时耗力,维护更新慢,并且规则的完备性和合理性较难得到保证。

2.2.2 基于统计的方法

基于统计的方法又分为两种: (1) 基于统计量度的方法。该方法主要思想是利用术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取术语。词语的互信息(Mutual Information,MI)[4]和对数似然比率(Log_likelihood Ratio,LLR)[5]是比较常用的统计方法。(2)基于机器学习的方法。即构建训练语料,根据某种机器学习算法对训练语料学习生成模型,采用模型对测试语料进行术语抽取实验。

2.2.3 基于规则和统计混合的方法

为了更好地利用规则和统计方法各自的优点,有学者在自动术语抽取中将语言学规则和统计方法结合使用,称为混合方法。该方法一般先将语料分词、词性标注、语言学准则过滤、停用词过滤等获取候选领域术语,再采用统计方法计算参数,设置阈值得到最终的领域术语[4,6-9]。

3 领域术语抽取面临的困难和解决方向

3.1 维吾尔语特点 维吾尔语(简称维语)从亲属关系上看属于阿尔泰语系突厥语族语言,从结构特点上来看,属于黏着语。现代维吾尔语文字是以阿拉伯文字母为基础的拼音文字,大部分发音与阿拉伯语相似,并在哲学用语和日常用语中大量借用了阿拉伯语单词。所以,在一定程度上,维吾尔语文字和阿拉伯语文字有很大的共通性。

3.2 维吾尔语多词领域术语抽取存在的难题

目前,维吾尔语多词领域术语(Multi-Word Of Uyghur Domain Term)的抽取面临以下几个显著问题: (1)维吾尔语没有如同英语的Wordnet,汉语的Hownet等已经建立好的语义网或者标准类别语料库;(2)维吾尔语的语法形式都是通过在单词原形后面或前面附加一定的构形附加成分来完成的。找出真实文本中维吾尔语单词的原形(维吾尔语的“词干提取”),对维吾尔语多词领域术语的抽取显得比较困难;(3)在自然语言处理中,尤其对多词领域术语的自动抽取,还存在正确率和召回率不高等明显问题,维吾尔语多词领域术语的抽取也不例外。

3.3 阿拉伯语术语抽取的方法

研究和分析阿拉伯语术语抽取的相关文献,易发现基于规则和统计混合的方法依然占据主导地位。Boulaknadel[10]通过基于词性标注的模型选取阿拉伯语候选术语,再运用统计值对候选术语进行排名获取最终领域术语。Bounhas和Slimani[11]也提出了一种规则和统计相结合的方法来提取文档中的阿拉伯语术语,但是他们更关注名词性的术语.上述方法对我们进行维吾尔语多词领域术语的自动抽取,会有一定的启发。

4 维吾尔语多词领域术语的自动抽取

4.1 多词领域术语自动抽取的相关定义 通过研究领域术语抽取的相关方法,尤其是3.3节所介绍的阿拉伯语术语抽取的典型方法,结合维吾尔语自身的特点,本文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。为了使该方法的说明更具有可读性,先明确以下定义。

定义1 维吾尔语多词领域术语: 由两个或两个以上的维吾尔语单词构成,且这些单词表现出极强的统计学共生现象(词汇共现)和语义的非组合性。

定义2 子串/母串: 给定字符串集合,如果字符串S1包含字符串S2,则称S2是S1的子串,S1是S2的母串。

定义3 串分割: 字符串S=w1w2…wi(i≥4),则S有i-1个2元子串:w1w2,w2w3,…,wi-1wi; 有i-2个3元子串:w1w2w3,w2w3w4,…,wi-2wi-1wi;有i-3个4元子串:w1w2w3w4,w2w3w4w5,…,wi -3wi -2wi -1wi; 有2个最大长度为i-1元子串:w1w2w3…wi -1,w2w3w4…wi。

定义4 嵌套串: 如果字符串S是术语,且S又是其他术语的子串,则称S为嵌套串。

4.2 维吾尔语多词领域术语自动抽取过程

本文提出的基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法具体过程如下。

步骤1 对获取的语料进行预处理,依次进行文本去噪、粗切分、词性标注 (POS)和停用词过滤 (Stop Words Filtering);

步骤 2 串分割和改进的MI值、LLR值计算;

步骤3 根据维吾尔语多词领域术语词性构成规则(模式)、MI与LLR联合阈值获取候选维吾尔语多词领域术语;

步骤4 计算候选维吾尔语多词领域术语的相对词频差值RFD,根据计算值进行排位,获取尽可能多的维吾尔语多词领域术语;

步骤 5 计算多词术语的C_value值,处理嵌套串和单词附加成分的分离,得到真正的维吾尔语多词领域术语。示例流程如图1所示。

图1 维吾尔语多词领域术语抽取流程

5 自动抽取算法说明

5.1 语料的预处理 因为缺乏维吾尔语标准类别语料库,所以实验将网页语料作为领域语料和背景语料的来源,经规范化处理后,仅保留维吾尔语文本并将其转化成Unicode标准编码;然后按照维吾尔语句子边界符号 (主要有:- ,。,《,》,‘,: ,! ,Å,;)将文本切割成句子并保存;而后对语料进行自动词性标注,经人工修正后,词性标注正确率在97%以上,达到了实验要求水平。

停用词(Stop Words)一定程度上相当于过滤词(Filter Words),但是过滤词的范围更大一些。本文实验使用的停用词分两类: (1) 绝对停用词: 即普通的停用词集合,包括代词、虚词等无实际意义的词语。(2) 相对停用词: 指在Web文本语料库中,未登录词和统计得出的特定高频词集合。实验中,我们共整理出810个停用词用于实验。停用词过滤后的文本将用于字符串分割。

5.2 字符串分割

分析发现,维吾尔语多词领域术语主要是2-4元词的领域术语。根据定义3可以得到字符串所有的2~4元子串。假设一个句子共有10个维吾尔语单词,依据定义,我们将得到九个2元子串,八个3元子串,七个4元子串。切分时依次记录子串出现的频率、位置等信息,得到句子的N元子串集合。

5.3 互信息和对数似然比率计算

为了从子串短语中剔除结构不稳定的短语,确保被抽取领域术语的语言完备性,本文主要采用词汇共现模型来获取结构稳定的短语。词汇共现模型是建立在这样一个基本的假设上: 如果大规模语料(领域语料)中,两个词经常出现在同一个窗口(共现)中,则认为这两个词在意义上是相互联系的。共现的频率越高,其相互间的关联就越紧密。基于这样一个假定,通过对语料的统计,计算词与词之间的互信息,则可以将词与词之间的关联性进行量化比较。词与词之间的互信息MI可以计算如下:

(1)

(2)

(3)

基本定义的MI计算公式只能反映两个单词之间的相关性,而无法满足对一个短语相关性的精准界定。实验已经将目标术语设定为2-4元词的维吾尔语短语,为了更好的反映术语之间的相关性和术语前后边界的隔离性,将互信息计算公式变换如下:

(4)

(5)

但是,MI最大的不足就是对临界特征的概率比较敏感,即对于统计概率相差太大的特征来说,它们的MI值不具有可比性,为此本文利用LLR来弥补MI计算的不足。

LLR[8]虽然是一个简单的比值,但可以表达出一个假设的可能性比其他假设大多少。对数似然比率方法适合于稀疏数据计算,对于那些很少相邻出现的词,其值很高,因此该方法对抽取时漏掉的一些低频词串比较有效。用对数似然比率来判断子串是否可以作为一个拥有语言完备性的术语。其计算如式(6)所示。

Loglike=2·(logl(pf1,kf1,nf1)+

logl(pf2,kf2,nf2)-logl(pf,kf1,nf1)-

(6)

上式中各个参数的计算如下所示:

(7)

(8)

(9)

(10)

(11)

(12)

其中,f(w1…wi)是字串w1…wn(n=2,3,4)在语料库中出现的次数,N是语料库中单词的个数。依次计算公式即可求解Loglike值。

由于语料存在着不确定性,单独运用MI或是LLR可能漏掉一些真正的多词领域术语。如果一个多词子串是一个潜在的领域术语,其MI值比较低。但LLR值较高,则可以通过我们构造的评分函数MI_LOG(w1w2…wn)将其保留下来,反之亦然。评分函数计算如式(13)所示。

(13)

评分函数有类似评价指标F值的作用,它能兼顾MI和LLR值,为实验找到一个比较合理的阈值用于术语抽取。

5.4 维吾尔语多词领域术语词性构成规则确定

针对维吾尔语多词领域术语抽取,词性构成模式是其可利用的一个重要特征。每个多词领域术语都有自己固定的词性构成模式。例如,一个维吾尔语多词领域术语第一个单词是名词,第二个单词是动词,则其词性构成模式为:N+V。通过反复实验和分析,可知多词术语中相当一部分是基本名词短语,但也有例外。为此,我们进行预研实验,手动挑选了137个2~4元维吾尔语多词领域术语,对其词性标注,发现真正的维吾尔语多词术语有以下的词性构成特点: ①术语中至少含有一个动词、名词或名词性成分; ②术语第一个词不为连词、助词、介词、量词或后接成分; ③术语最后一个词为动词、名词或名词性成分; ④术语中没有代词、语气词和模拟词。

基于以上的多词术语词性构成特点,本文制定了维吾尔语多词领域术语的词性构成规则模式库.结合5.3节中MI_LOG(w1w2…wn)评分函数和维吾尔语多词领域术语词性构成规则,我们可以设置最佳验证阈值,构建候选维吾尔语多词领域术语集。表1是部分多词领域术语词性构成规则模式。

表1 N元领域术语词性构成模式

5.5 相对词频差值(RFD)值计算

候选维吾尔语多词领域术语集中,有很大一部分非领域多词子串被纳入其中。为了确保抽取的多词领域术语拥有完整的领域性,本文采用相对词频差值来剔除非领域多词字串。

领域术语一般只在一个或几个特定的领域流通,所以领域术语在领域语料和背景语料(多个领域语料的集合)中出现的概率差异很大。本文将采用领域语料和背景语料的相对词频差值来抽取维吾尔语多词领域术语。计算方法扼要说明如下。

设定候选维吾尔语多词领域术语为w1w2…wn(n=2,3,4,…),语料为x,语料x的总词数(即由x生成的词典规模)为Vx,fx(w1w2…wn)为候选维吾尔语多词领域术语w1w2…wn在语料x上出现的概率,cx(w1w2…wn)为候选维吾尔语多词领域术语在语料x上出现的频率。那么,fx(w1w2…wn)可以通过式(14)计算得到。

(14)

候选维吾尔语多词领域术语fx(w1w2…wn)在领域语料xd和背景语料xb上的相对词频差值Δf(w1w2…wn)可以通过式(15)计算得到。

(15)

相对词频差值反映出了候选维吾尔语多词领域术语w1w2…wn在领域语料xd与背景语料xb中出现频率的差异性。如果相对词频差值接近于零,则表示w1w2…wn可能是一个普通词汇,其在领域语料xd与背景语料xb中都出现的频率相差不大; 如果相对频率差值过大则表示w1w2…wn可能是领域语料xd中的领域词汇或者术语。

5.6C_value值计算与术语后处理

领域术语是能够独立表达一定含义的短语,具有独立存在的能力。当子串和母串短语同时被纳入候选领域术语集时,即存在嵌套串,则可以计算其在语料中的C_value值来判断其是否为真正的术语。

C_value算法是一种领域独立(Domain-Independent)的多词术语抽取方法,它是针对术语词频计算的一种改进,可以增进嵌套多词术语(NestedMulti-WordTerms)的抽取,排除一些非术语词汇的干扰。C_value算法主要界定以下两种情况: (1)如果一个多词字串经常在多个长的多词术语中出现,那么此多词字串就有可能是术语; (2)如果一个长的多词字串和短的多词字串拥有相同的词频,那么长多词字串更有可能是术语。C_value值计算如式(16)所示。

(16)

其中t(w1…wn)(n=2,3,4,...)是在 (已经被抽取出来)候选维吾尔语多词领域术语中出现的频率,c(w1…wn)是候选维吾尔语多词领域术语数。

6 实验准备和结果分析

6.1 实验语料获取和标注 实验语料来源于网络(如天山网、昆仑网等维吾尔语版网站)。实验利用网页爬虫下载维吾尔语网站的页面,处理后仅保留维语文本并将其转换成Unicode标准编码作为实验语料。维吾尔语语料现阶段人工处理代价高昂,本文以维吾尔语哲学类多词领域术语为目标术语进行实验。领域语料总计 1 895个txt文本,205 196个维吾尔语单词。在实验开始前,我们将人工标记在文本中与哲学类相关的所有2~4元词领域术语。为了保证所挑选出来的哲学类多词领域术语具有可靠性和说服力,我们请了三位资深维吾尔语语言学专家进行维吾尔语多词领域术语的标注。如果有两位或两位以上的专家将某个多词字串标记为领域术语,则将该多词字串作为最终的领域术语予以标记。实验前,专家共标出262个2元术语,207个3元术语,154个4元术语,总计623个维吾尔语哲学领域术语。

实验的背景语料同样来源于网络,但是涵盖的

领域不仅包括哲学领域,还有教育、体育、餐饮和旅游等众多领域,各领域语料规模大小处于平衡状态。背景语料总计6 918个txt文本,951 874个维吾尔语单词。

6.2 实验评价指标

本文采用以下三个指标对领域术语抽取结果进行评价,即术语抽取的准确率Precision(P)、术语抽取的召回率Recall(R)、术语抽取的F1_measure(F)。

6.3 实验结果与分析

6.3.1 实验的最终结果与分析

实验按照第4节介绍的流程进行,详细结果如图2所示。从图2中我们可以看出,本文提出的方法对于2-4词的领域术语有非常好的抽取效果。实验的准确率都在80%以上,尤其是对于2元领域术语,准确率更是高达88.85%,召回率达81.94%。因为对于2元领域术语,术语简单紧凑,术语内部结构稳定,而且可以选择出现频繁的词性构成模式作为抽取规则。

图2 不同长度领域术语的抽取结果

从图2中也可以看出,对于3元领域术语,抽取的准确率和召回率同2元和4元领域术语相比,其结果要低大约6个百分点。其原因在于,维吾尔语多词领域术语在词数上几乎都是偶数的,且3元领域术语在文本中出现的频率相对要小于2元和4元领域术语,从而导致3元领域术语的数据稀疏性更严重。如果仅仅利用统计方法,对3元领域术语左右边界进行识别,其准确率没有2元和4元领域术语高。再加上3元领域术语的词性构成模式结构比较松散,在词性模式的选择上会有缺失,这些原因都导致了3元领域术语抽取的准确率相对较低.对于4元领域术语,由于词串内部的凝聚力下降,结构变化相应增多,而且在数量上不及2元和3元领域术语,所以抽取的结果不及2元领域术语。从整体效果来看,本文提出的方法取得了令人满意的效果,达到了我们实验的预期目的。

6.3.2 改进的互信息实验结果与分析

实验中,我们也利用式(1)对语料中的维吾尔语单词进行互信息对比实验,得到某个单词与前后单词的互信息值。再根据实际互信息值的高低,设置最佳验证阈值,将某几个单词作为一个候选多词领域术语抽取出来。其余实验算法和流程不变,实验结果如表2所示。

从表2我们可以清楚地看出,使用一般的互信息算法,也取得了不错的效果。但是一般的互信息算法没有全面的考虑一个多词字串词与词之间的整体关联程度,而仅仅依赖于窗口(句子)中单词之间单一的依附程度做出判断。而改进的互信息算法则克服了这个缺陷,尤其对于3元和4元术语,其全面计算了多词字串词与词之间的相关性,给出了综合客观的评价,实验达到了令人满意的效果。2元术语在公式计算上没有本质变化,因而实验结果无明显改变。

表2 改进的互信息实验结果对比

6.3.3 评分函数实验结果与分析

在以往的术语抽取实验中,基于统计规则设置阈值时,一般都简单地对单个统计值设置独立的阈值,虽然比较清晰直观,但缺乏对统计数据的有效把握。本文在实验时,也分别对互信息和对数似然比率设置最佳阈值,将实验结果与使用评分函数设立阈值的实验结果进行对比。实验结果如表3和表4所示。

从表3和表4我们可以清楚地看出,因为互信息对临界特征的概率比较敏感,对于统计概率相差太大的特征,它们的互信息值不具有可比性。对数似然比率在语料较少时效果最好,但对于规模较大语料其性能开始降低。二者单独使用,致使术语抽取的准确率和召回率有所下降,不及使用评分函数时的实验效果。

表3 单独使用MI值实验结果对比

表4 单独使用LLR值实验结果对比

6.3.4 相对词频差值实验结果与分析

相对词频差值(RFD),是反映一个术语领域性强弱的重要标准。在本文的算法中,维吾尔语多词领域术语的领域性几乎靠相对词频差值来衡量。本文给出的背景语料规模较大,在实验中可以将相对词频差值的功能最大化的发挥出来。依据相对词频差值,我们可以将非领域短语尽可能过滤掉。实验对比如表5所示,从表中可以清晰地看出,如果采用相对词频差值对多词领域术语进行领域性度量,实验的准确率和召回率都会大大提高。尤其是对于3元领域术语,准确率提高了8.74个百分点。

6.3.5 C_value的实验对比与分析

由于本文提出的方法主要是针对维吾尔语多词领域术语, 因此在实验中我们就要尽可能多获取一

表5 相对词频差值实验结果对比

些长的领域术语。C_value算法的作用就是在术语互相嵌套的情况下,保证嵌套多词术语的抽取,更重要的是将正确的较长母串术语最大化的抽取出来。具体的实验结果如表6所示。

在表6中,可以看出它对2元维吾尔语领域术语的作用不是很明显,但是对于3元和4元维吾尔语领域术语的抽取效果显著。使用C_value算法后,实验的准确率和召回率都提高了将近4个百分点,达到了实验的预期效果,排除了非术语多词字串的干扰。

表6 C_value实验结果对比

6.3.6 本文算法和其他语种实验结果的对比分析

由于条件有限,我们实验组现阶段缺乏阿拉伯语语言专家,阿拉伯语语料获取也比较困难。所以,我们并没有将本文算法应用于阿拉伯语术语抽取。但将本文的实验结果和其学者在阿拉伯语术语抽取上的实验结果做一个对照,虽可比性不强,却可以给读者提供一些有用的信息。术语抽取技术在汉语和英语等语种上已经比较成熟,本文总结近年来其他人在这些语言上的术语抽取实验结果[5,10-15]列举如下,仅供参考。

表7 其他语种术语抽取实验对比

从表7我们可以清楚地看出,其他学者在术语抽取实验中,最高的准确率和召回率已经分别达到92.50%和95.00%。出现这一情况的原因在于,汉语和英语等语种有众多学者进行研究,语言实验资源丰富,而维吾尔语的研究起步较晚,诸多硬性条件还不具备,知识积淀不及其他语种的研究人员,这些原因在一定程度上影响了我们实验结果的精准性。

7 结论和展望

领域术语的抽取是自然语言处理的一个重要课题。在全面分析维吾尔语语言特征,考虑维吾尔语术语抽取可能遇到的诸多难题,借鉴阿拉伯语术语抽取算法的基础上,本文提出了基于规则和统计相结合维吾尔语多词领域术语的自动抽取方法。在该方法中,我们首次利用改进的MI、LLR和词性构成模式来考察多词领域术语的语言完备性,首次利用相对词频差值对维吾尔语领域术语进行领域识别,建立了维吾尔语多词语领域术语的词性构成规则库,总结出了维吾尔语附加成分(词缀)集,实验对2-4元维吾尔语多词领域术语的抽取取得了良好的效果。实验的准确率达到85.08%,召回率达到73.19%,验证了该方法的有效性和实用性。通过和其他人的实验对照,本文方法的实验结果也达到了令人比较满意的程度。

本研究的下一步工作主要包括: 在实验阈值选择上寻找一种更为科学的方法,降低阈值选择的偶然性; 找到一种对语料规模依赖较小的算法,降低实验的难度; 改进算法,力争降低算法的时间和空间复杂度等。

[1] Pazienza M T, Pennacchiotti M, Zanzotto F M. Terminology extraction: an analysis of linguistic and statistical approaches[J]. Knowledge Mining, 2005, 185: 255-279.

[2] Wendt M, Buscher C, Herta C. Extracting domain terminologies from the world wide web[C]//Proceedings of the Fifth Web as Corpus Workshop (WAC5). San Sebastian, Basque Country, Spain. 2009.

[3] Justeson J S, Katz S M. Technical terminology: some linguistic properties and an algorithm for identification in text[J]. Natural Language Engineering, 1995, 1(1): 9-27.

[4] 梁颖红, 张文静, 周德富. 基于混合策略的高精度长术语自动抽取[J]. 中文信息学报, 2009, 23(6): 26-30.

[5] Gelbukh A, Sidorov G. Automatic term extraction using log-likelihood based comparison with ge- neral reference corpus[C]//Proceedings of Natural Language Processing and Information Systems, 15th International Conference on Applications of Natural Language to Information Systems, Cardiff, UK, 2010.

[6] Okamoto M, Kikuchi M, Watanabe N. Semi- automatic evaluation system for supporting term extraction application development[C]//Proceedings of the 2011 Fifth IEEE International Conference on Semantic Computing, Palo Alto, California, USA, IEEE, 2011.

[7] Saneifar H, Bonniol S, Laurent A, et al. Terminology extraction from log files[C]//Proceedings of the 20th International Conference on Database and Expert Systems Applications, Linz, Austria, IEEE, 2009.

[8] DorjiT C, Atlam E, Yata S, et al. Extraction, selection and ranking of field association(FA) terms from domain-special corpo- ra for building a comprehensive FA terms dictionary[J]. Knowledge and Information Systems. 2011, 27(1): 141-161.

[9] 游宏梁, 张巍, 沈钧毅, 刘挺. 一种基于加权投票的术语自动识别方法[J]. 中文信息学报, 2011, 25(3): 9-16.

[10] Boulaknadel S, Daille B, Aboutajdine D. A multi-word term extraction program for Arabic language[C]//Proceedings of the the 6th International Conference on Language Resources and Evaluation (LREC), Marrakech, Morocco, 2008.

[11] Bounhas I, Slimani Y. A hybrid approach for Arabic multi-Word term extraction[C]//Proceedings of the Natural Language Processing and Knowledge Engineering, Dalian, China, IEEE, 2009.

[12] Attia M, Toral A, Tounsi L, et al. Automatic extraction of Arabic multiword expre- ssions[C]//Proceedings of the 7th Conference on Language Re- sources and Evaluation (LREC), Malta, Valletta, 2010.

[13] Chen Ji-Song, Chung-Hsing Yeh, R Chau. A multi-word term extraction system[C]//Proceedings of the Trends in artificial intelligence, Lecture Notes in Computer Science, Springer, Berlin, 2006.

[14] Sui Zhi-Fang, Hu Yong-Wei, Zhang Hong. An interactive approach to term relation extraction and term extraction[J]. Journal of Computational Information Systems, 2010, 6(1): 229-235.

[15] Koeva S. Multi-word term extraction for Bulgarian[C]//Proceedings of the Workshop on Balto- Slavonic Natural Language Processing, Prague, Czechoslovakia, 2007.

Automatic Extraction of Multi-Word Domain Term in Uyghur Texts

TIAN Shengwei1, ZHONG Jun2, YU Long3

(1. School of Software, Xinjiang University, Urumqi, Xinjiang 830008, China; 2. Information Science and Engineering Technology Institute, Xinjiang University, Urumqi, Xinjiang 830046, China; 3. Net Center, Xinjiang University, Urumqi, Xinjiang 830046, China)

Multi-word domain term extraction is an important issue in natural language processing. Combining the language features of Uyghur, a method of Uyghur multi-word domain terms extraction based on rules and statistics is proposed. The method is divided into four phases: ①corpora pre-processing, including the stop words filtering and part-of-speech(POS) tagging; ②obtaining N-gram substrings as the term candidates, by POS information and calculating internal associative strength via according to the modified mutual information and log likelihood ratio; ③enlarging the term candidates by utilizing the relative frequency difference; ④decide the final terms by C_value. The experimental results show the efficiency of the proposed method with a 85.08% precision and 73.19% recallin Uyghur multi-word domain terms extraction.

Uyghur, multi-word domain term; mutual information(MI); log_likelihood ratio(LLR); relative frequency difference(RFD)

田生伟(1973—),博士,教授,硕士生导师,主要研究领域为计算机智能技术、云计算和自然语言处理等。E⁃mail:tianshengwei@163.com钟军(1988—),硕士研究生,主要研究领域为自然语言处理、话题识别与跟踪和事件挖掘技术等。E⁃mail:zjbrilliant@126.com禹龙(1974—),博士,教授,硕士生导师,主要研究领域为计算机智能技术和计算机网络技术等。E⁃mail:yulxju@163.com

1003-0077(2015)02-0133-09

2012-10-13 定稿日期: 2012-12-19

国家自然科学基金(60963017,60963018,61262064), 国家社科基金(10BTQ045,11XTQ007),国家自然科学基金(61331011)。

TP

A

猜你喜欢

互信息维吾尔语词频
基于词频比的改进Jaccard系数文本相似度计算
浅析维吾尔语表可能语气词
维吾尔语助动词及其用法
统计与规则相结合的维吾尔语人名识别方法
基于改进互信息和邻接熵的微博新词发现方法
基于深度学习的维吾尔语名词短语指代消解
25年来中国修辞研究的关键词词频统计*——基于国家社科与教育部社科课题立项数据
基于互信息的图像分割算法研究与设计
基于互信息的贝叶斯网络结构学习
词频,一部隐秘的历史