APP下载

哈萨克语IT领域术语识别研究与实现

2016-05-04木合亚提尼亚孜别克古力沙吾利塔里甫

中文信息学报 2016年3期
关键词:哈萨克语语料术语

木合亚提·尼亚孜别克,古力沙吾利·塔里甫

(1. 新疆大学 信息科学与工程学院,新疆多语种信息技术实验室,新疆 乌鲁木齐 830046;2. 新疆医科大学 中医学院,新疆 乌鲁木齐 830011)

哈萨克语IT领域术语识别研究与实现

木合亚提·尼亚孜别克1,古力沙吾利·塔里甫2

(1. 新疆大学 信息科学与工程学院,新疆多语种信息技术实验室,新疆 乌鲁木齐 830046;2. 新疆医科大学 中医学院,新疆 乌鲁木齐 830011)

该文阐述了基于统计方法进行哈萨克语IT领域术语识别的研究,并在已有的训练语料基础之上,采用最大熵模型进行标注识别和结合人工方式对错误识别结果进行后处理的分析实验,阐述了该平台的研究和设计思路,系统的总体框架、基本结构、功能模块以及实现方法等相关的问题。实验结果显示该方法识别哈萨克语IT领域术语是有效的,封闭测试结果达到了82.6%。

哈萨克语;IT术语;术语管理平台;最大熵模型

Research on Automatic Identification of IT Terms in Kazakh

引言

哈萨克语的术语像其他语言中的术语一样是一种结构紧密的固定或半固定的词语或词组,也是一种具有很强领域特征的词语。随着科技的发展和社会的进步,在科技、日常事物、社会现象、 生活概念等领域都出现了新的术语,扩大了语言资源。中文各语言信息处理应用领域的不断扩展,对于不同语言不同领域专业术语的检索需求也越来越迫切。研究以计算机作为工具的哈萨克语信息技术领域术语资源管理系统的构建,一方面是哈萨克语自然语言信息处理、哈萨克语语言学的研究、机器翻译、语料库建设等民族语言信息化建设研究的基础性前提[1]。另一方面对民族语言文字的发展、民族文化的传承和发扬,对民族教育、科技、经济和社会的繁荣发展也具有重要的意义。对哈萨克语术语资源的研究可促进哈萨克语自然语言的不断发展,也可以为其他少数民族语言处理的研究提供些良好的参考价值。概括起来,对哈萨克术语研究的意义表现在以下几个方面。

(1) 对后继进一步做哈萨克语的词法分析和分词研究提供资源基础;

(2) 对实现哈萨克语的机器翻译,搜索引擎等应用研究提供中介作用;

(3) 对将来可能实现的大型哈萨克语的树库建设及尽早实现中国语言文字信息处理都具有重要意义。

1 相关研究分析

1.1 研究现状

目前,术语的抽取和检索的研究领域中使用的方法主要有基于规则、基于统计、基于规则和基于统计相结合的混合策略技术。基于规则的方法是根据语言自身的特点,如词缀、单词、词性等信息抽取术语。基于统计的方法是利用统计方法,根据单词之间的搭配关系的频率来预测构成术语的单词信息。常用的统计方法有多种,例如,最大熵方法、条件随机场方法、互信息方法和隐马尔科夫方法等。

在国外研究领域中,文献[2]研究应用深层的上下文信息,在医学领域进行术语抽取,该系统计算了术语上下文的不同部分的相对重要程度和术语与上下文的相似性。文献[3]中Justeson 和 Katz使用基于规则的方法识别术语,这种方法在封闭测试情况下可得较高的准确率,但是规则集构建的不完整导致低识别准确率,并且使用范围有限。文献[4]Patrick 和 Dekang同时利用互信息来识别术语。

在国内研究领域里,刘豹,张桂平,蔡东风等应用基于统计和规则相结合的方法进行科技术语自动抽取研究,在实验中分别比较规则、最大熵模型和条件随机场模型的实验,实验结果得出基于统计的方法优于基于规则的方法。基于统计和规则相结合的科技术语自动抽取研究是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用[5]。岑咏华,韩哲,季培培[6]等使用隐马尔科夫模型研究中文术语识别,他们通过对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。文献[7-8]使用最大熵模型的方法实现中文术语抽取,实验结果令人满意。文献[9]在使用最大熵模型的方法识别哈萨克语动词词组抽取中获得了较高的准确率。本文在文献[9]的实验中受到启发,根据哈萨克语IT领域术语自身特点,认真阅读和学习国内外先进的术语识别技术,通过在少数的训练语料基础上,利用人工和统计相结合的方法,研究与实现了哈萨克语IT领域术语的自动识别。

1.2 研究难点

对哈萨克术语的定界存在很大难度,不能由纯规则的方法来进行术语识别,否则很易生成哈萨克语术语的歧义。哈萨克语语言有多种歧义,需通过词法分析、词性标注、文字校对、短语识别和句法分析等消除。术语抽取中消除歧义是必要任务,同时也是句法分析中分析正确的难点[10]。

2 基于最大熵模型的IT领域术语识别系统的设计与分析

2.1 实验语料

基于规则的方法来确定哈萨克语IT领域术语定界比较难,并且准确率不高。因此,使用统计的方法来识别哈萨克语术语是必要的,为了达到更好的准确率需要数量较大的训练语料库,由于目前没有标注好的哈萨克语信息技术领域标准语料,需要人工标注。目前的实验室环境缺少一个关于哈萨克语信息技术领域术语的统一标准,因此本文对从2010年新疆科技出版社出版发行的《汉哈英俄信息与计算技术名词术语词典》[11]中抽取和筛选出的2 646个哈萨克语信息技术术语进行了学习和分析,统计结果发现单词型术语占18.37%,由两个单词组成的复杂术语占68.03%,三词术语占10.88%,四、五、六词术语分别占1.36%、0.52%、0.34%,七词及以上的复杂术语占0.5%。

本文使用的语料来自“天山网”、“广播网站”、“哈萨克软件网”等网站的哈萨克文新闻和中小学“信息技术”教材的文本信息,用于本系统的训练和测试语料。

2.2 最大熵模型中的任务描述

基于最大熵的哈萨克语IT领域术语抽取系统设计的目标就是建立一个完善的软件系统,该系统能迅速准确地抽取中文文本中的术语及其准确定义,提高人们学习工作的效率。随着人们的不断使用、不断反馈以及网络的持续发展,该系统存储的各领域信息越来越多,从文本中抽取的中文术语越来越接近该文本中术语的总数,返回术语定义也越来越迅速。系统还能基于用户的反馈实现自学习,不断进行自身的升级完善。

在本研究中,a表示上下文信息,如词性、单词、词缀、TE标注等。b表示所有的术语标记集合的结果。可能构成术语的集合为B,且b∈B;上下文信息集合是a,且a∈A[9]。

(1)

任务是在上下文a的条件下,构造出一个模型,通过a和b的统计特征,当给定的上下文信息a时,能够准确地估计出输出b的条件概率p(b/a)。N个样本信息集合S={(a1,b1),(a2,b2),…,(an,bn)}是观察到的一个事件,事件空间A×B。特征是一个二值函数。即:f:A×B→{0,1}。

模型P的熵是:

(2)

最大熵模型:

(3)

式(3)中的C是满足限制条件的概率分布集合。要求限制条件下H(P)的最大值,为每一个特征函数引入一个参数拉格朗日乘子λi,计算如式(4)、式(5)所示。

(4)

(5)

式(5)中Zλ(a)是归一化因子,λi是特征参数,代表每个特征的重要性。参数值λi的估计方法是Darroch和Ratcliff的通用迭代算法(GIS)来实现[9,12-14]。最后计算出了每个特征对应的参数值来得到模型。

2.3 特征模板

哈萨克语与汉语、英语不同,哈语是以词为单位,这方面像英语,但是哈萨克语具有粘着性和丰富的上下文信息,哈语词的词形变化要比英语丰富的多。根据哈萨克IT领域术语自身的特点,本文特征空间定义如表1。

表1 术语识别特征空间

为了选出最好的特征模板,本研究组在表1的基础上构造出了六个复合特征模板。每个信息函数在当前词上下文取值,把各个函数值组合成特征前提,通过该词的标记得到特征的动作,这样就可以提取特征:

模板A: [RRPos,RRTE,RWord,RAffix,RPos,RTE,CPos,CTE,CWord,CAffix,LWord,LAffix,LPos,LTE] 观察候选词的左边一个词和右两个词对实验结果的影响。

模板B: [RRPos,RRTE,RWord,RAffix,RPos,RTE,CPos,CTE,CWord,CAffix] 观察候选词的右边两个词对实验结果的影响。

模板C: [RWord,RAffix,RPos,RTE,CPos,CTE,CWord,CAffix, LWord,LAffix,LPos,LTE] 观察候选词的左边和右边各一个词对实验结果的影响。

模板D: [RRPos,RRTE,RWord,RAffix,RPos,RTE,CPos,CTE,CWord,CAffix,LLPos,LLTE,LWord,LAffix,LPos,LTE]观察特征空间的所有单词对实验结果的影响。

模板F: [RWord,RAffix,RPos,RTE,CPos,CTE,CWord,CAffix,LLPos,LLTE,LWord,LAffix,LPos,LTE] 观察候选词的左边两个词和右一个词对实验结果的影响。

模板E: [CPos,CTE,CWord,CAffix,LLPos,LLTE,LWord,LAffix,LPos,LTE]观察候选词的左边两个词对实验结果的影响。

语料中选择语料对上述六种特征进行实验,选择不同特征对实验结果的影响如图1所示。

图1 选取不同特征所得到的结果

从实验结果可以得出:实验结果选为D模板时最高,即观察窗口中的所有单词对实验结果的影响最佳。术语识别的截图如图2所示。

图2 术语识别系统的截图

2.4 特征阈值选择

在最大熵模型中,特征选择是一个至关重要的问题。常见的特征选择方法有两种: 频度的选择法和增量选择法,具体思想就是如果该特征加入后能提高系统的效果,就保留,否则删除该特征。本文使用基于频数阈值的方法选择特征,此方法的特征中阈值k的选定与任务和数据相关,可以由实验来确定,其方法的训练时间短。一般k值在2到3之间都可以找到较好的阈值[9-12]。本文中我们采用的方法是第一个基于频数阈值的特征选择: 仅保留那些出现频数大于等于某一个阈值k的特征(本文中k>=2)。虽然该方法不能保证得到最小特征集,但它能获得尽可能多的特征,实验表明它具有良好的性能。

2.5 系统总体设计

哈萨克语术语识别系统由两大模块组成,分别为模型训练和识别模块,系统总体流程图如图3所示。

(1) 模型训练

本文中使用的训练语料是已经标注好单词的词干、附加成分(词缀)、词性标注以及术语标注等信息的XML文本。在模型训练模块中,系统在训练语料上进行特征提取,再通过基于频数阈值的特征选择,只保留那些出现频数比较大的特征,频数大于等于2的特征,建立特征集。将特征结果组织好后送到最大熵工具包进行训练,计算权值,结果作为权值字典。

(2) 识别模块

术语识别模块中: 首先进行识别之前的预处理工作,读入XML格式的哈萨克语待标文件,将语料组织成符合识别模块接口标准的形式。然后通过训练语料库中提取的特征,用最大熵工具包计算出每一个特征对应的权值,生成特征权值字典,参数估计,对输入的待标文件进行术语识别,将识别结果保存在外部文件。

图3 系统总体流程图

3 实验数据

本文采用以下几个判定指标: 术语识别准确率、召回率、错误率和漏召率。定义如下:

×100%;

(6)

(7)

漏召率(L)=1-召回率

(8)

错误率(E)=1-准确率

(9)

(10)

本系统用已经标注好的不同规模的训练语料,分别进行开放测试和封闭测试,测试结果如表2所示。

表2 术语识别测试结果

4 结语

本实验使用最大熵模型的方法实现哈萨克语IT领域术语识别,在实验中确定最大熵模型的特征模板和特征值,由此建立哈萨克语IT领域术语的最大熵模型。实验结果显示: 最大熵模型在哈萨克语IT领域术语识别研究方面获得较好的成绩。当然,一个研究工作总是解决某一个特定的问题,探索真理的路永远是没有尽头,因此本研究也需要探索和开展以下几个方面工作: 术语边界识别方面进一步细化精化,使用不同的统计方法来识别术语,更深入的比较实验结果,不断的扩大训练语料的规模,尽可能地减少数据稀疏问题,以获得更好的成绩。

[1] 木合亚提·尼亚孜别克,古利沙吾·塔里甫.信息技术术语哈译问题探讨[J]. 术语标准化与信息技术,2010 (4): 17-18.

[2] Diana Maynard,Sophia Ananiadou. Identifying Contextual Information for Multi-Word Term Extraction[C]//Proceedings of Terminology and Knowledge Engineering Conference. 2003.

[3] Justeson J S,Katz S M.Technical terminology: some linguistic properties and an algorithm for identification in text [J].Natural Language Engineering,1996,3(2): 259-289.

[4] Pantel P,Lin De-kang.A statistical corpus-based term extractor[C]//Proceedings of the Canadian Conference on AI 2001,2001: 36-46.

[5] 刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23): 147-150.

[6] 岑咏华,韩哲,季培培.基于隐马尔科夫模型的中文术语识别研究[J].情报分析与研究,2008,12(1): 53-56.

[7] 张宜浩. 基于最大墒模型的中文实体关系自动抽取研究[D].昆明理工大学硕士学位论文,2010.

[8] 赵欣. 基于最大熵的中文术语抽取系统的设计与实现[D].西安电子科技大学硕士学位论文,2012.

[9] 古丽扎达·海沙. 哈萨克语基本动词短语自动识别研究[D].新疆大学硕士学位论文,2012.

[10] 木合亚提·尼亚孜别克,古利沙吾·塔里甫.论在哈萨克语中规范使用信息学科词汇[J]. 新疆大学学报,2012,37(2): 59-61.

[11] 哈那提·叶列杰夫,赛力克·孙哈泰.汉哈英俄信息与计算技术名词术语词典[Z].乌鲁木齐: 新疆科技技术出版社,2010.

[12] Rob Koeling. Chunking with Maximum Entropy Models[C].Proceedings of the CoNLL-2000 and LLL-2000,Lisbon,Portugal.2000,109(15): 139-141.

[13] Adam L. Berger,Stephen A,Della Pietra,and Vincent J. A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistic.2002,22(1): 39-71.

[14] Darroch J N,Ratcliff D. Gneralized iterative scaling for log2 linear models[J].Annalysis of Mathematical Statistics.1999,43(5): 1471-1479.

Muheyat·Niyazbek1,Kunsaule·Talp2

(1. Department of Information Science and Engineering College,Xinjiang University,Xinjiang Laboratoryof Multi-language Information Technology,Urumqi,Xinjiang 830046,China;

2. College of Chinese Medicine of Xinjiang Medical University,Urumqi,Xinjiang 830011,China)

This paper reports a statistical method of identification of IT terms in Kazakh. It builds a maximum entropy model,and followed by a rule based post-processing. The experimental results reveals an accuracy of 82.6% in the close test.

Kazakh;IT terminology;terminology management platform;maximum entropy

木合亚提·尼亚孜别克(1967—),学士,副教授,主要研究领域为自然语言与信息处理、计算机体系结构、网络技术。E⁃mail:muheyatn@126.com古力沙吾利·塔里甫(1969—),硕士,副教授,主要研究领域为临床医学和传统医学。E⁃mail:18690174895@163.com

2014-05-30 定稿日期: 2014-10-12

新疆多语种信息技术实验室开放课题资助(XJDX0905-2013-03)

1003-0077(2016)03-0068-06

TP391

A

猜你喜欢

哈萨克语语料术语
浅谈中文食品名称的哈萨克语翻译
基于归一化点向互信息的低资源平行语料过滤方法*
哈汉语中吉祥数字文化对比
回鹘文文献《金光明经》与现代哈萨克语词汇比较
新疆青河县阿热了乡哈萨克族聚居区居民的语言生活
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
异种语料融合方法: 基于统计的中文词法分析应用
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势