现代维吾尔语常用词统计关键技术研究
2014-02-27艾孜尔古丽努尔艾合买提玉素甫艾白都拉
艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉
(新疆师范大学 计算机科学与技术学院 新疆 乌鲁木齐 830054)
1 前言
现代维吾尔语常用词计量研究是少数民族语言信息处理领域急需研究的重要课题。维吾尔语常用词汇表的欠缺,是影响维吾尔语词汇学、计算语言学和维吾尔语信息处理工作质量的重要因素,因此迫切需要研制具有代表性、可靠性、权威性的维吾尔语常用词汇表,促进维、哈、柯等阿尔泰语系的新疆少数民族自然语言理解跨越式发展。
为确保收集语料的可靠性、代表性和权威性,本文重点对语料来源、语料范围、语料载体等进行了研究,以保证常用词候选表的权威性和代表性。
(1) 在现有的语料库资源基础上,系统、持续地进行收集、整理、加工和处理现代维吾尔文平面媒体、教育教材媒体、有声媒体、网络媒体语料,构建现代维吾尔语语料库,相比之前的语料库,本语料库语料来源更广、语料领域更宽、各个领域比率控制适当。
(2) 对构建现代维吾尔语语料库的关键技术与方法进行进一步优化与完善,新增了人名识别和数据自动分析技术。对词语使用频次及其词汇文本数进行基本考察,从词语的使用频度和词语在文本中出现的次数两方面加以考虑,提取了现代维吾尔语常用词候选表。
本研究不但为维吾尔语等少数民族自然语言理解及处理工作提供了基础,也可为阿尔泰语系的少数民族语言的规范化、教材设计、中小学语文教育、扫盲教育、双语教育和辞书编纂提供服务。
2 现代维吾尔语语料库的资源建设研究
为确保收集语料的可靠性,重点对语料来源、语料范围、语料载体等进行研究,以保证常用词候选表的权威性和代表性。根据现有语料具体情况,以传播媒体作为筛选依据。本语料库是由平面媒体(以主要文学作品和经典名著为主,代表文学语言)、教育教材媒体(新疆教育出版社、新疆科技出版社、新疆人民出版社、美术出版社等正规出版社出版的正规出版物,代表科学技术、文化、金融、工业生产多领域的文学和生活语言)、有声媒体(新疆电视台每天播出的30分钟新疆新闻和30分钟的新闻联播文本语料,代表新闻报道语言)、网络媒体(十多家比较正规的网站,代表网络语言)组成的总语料。它们基本代表维吾尔族人政治、经济和社会生活的方方面面。
本语料资源是由国家语言资源监测中心少数民族分中心“维吾尔语文研究基地”、新疆师范大学“网络信息安全与舆情分析重点实验室”提供。
2.1 平面媒体
本语料是把由国家正式出版社出版的文学作品组成的语料作为研究对象,语料容量188MB,占总语料容量的26.81%。
2.2 教育教材媒体
本语料是以科普性和教育性较强的正式出版物组成的语料作为研究对象,语料容量173MB,占总语料容量的24.67%。
2.3 有声媒体
所收集的语料来源于新疆电视台每天播出的新疆新闻和新闻联播各30分钟的文本语料。采集的语料时间跨度为2010年1月至2012年12月,共1 080天的1 080小时播放时间的文本语料。语料容量171.2MB,占总语料容量的24.42%。
2.4 网络媒体
网络媒体语料来源于新疆政府网、昆仑网、天山网等18家网站。收集语料时间跨度为2006年4月至2012年12月。语料容量169MB,占总语料容量的24.10%。
3 现代维吾尔语常用词提取的关键技术与方法研究
(1) 现代维吾尔语语料预处理技术: 收集语料,对语料进行预处理,并形成文本文件。
(2) 现代维吾尔语语料统计技术
① 对调查语料统计: 研究项目包括词次、频率、词种、词长和文本数等,最终形成维吾尔语词频表。
② 人名识别: 根据维吾尔族人、汉族人、外国人姓名在维吾尔语中的特点,对已研究的识别技术进一步优化,确定识别规则,解决汉族人名中姓和名空格隔开描述问题,优化汉族、外国人姓名识别率。
(3) 现代维吾尔语词干提取技术
利用基于词典和人机交互结合技术方法提取词干。提取词干过程中,通过现代维吾尔语词干词典维护来发现提取词干过程中出现的新词干,并对机器词典中新词干进行补充,增加机器学习等功能。
图1 基于平衡语料库的现代维吾尔语多策略统计模型
维吾尔语词语的具体构词方式见图2。
图2 现代维吾尔语词法结构模型
图2中,A表示词根,B表示词缀,C表示词尾,D表示词干,W表示词语。
(4) 现代维吾尔语数据分析技术
本技术主要解决常用词、次常用词、部分常用词、独用词、词种分布、覆盖率、词语领域通用度、时间通用度等几个部分数据的自动分析技术。
词次(频次): 每一调查对象的频次同其前调查对象频次的累加和。频次是一个具体的数字,它直观地反映了某个词语在语料中真实、原始的使用情况,计算公式如式(1)所示。
(1)
其中: Ai为调查对象i的累加频次,ni为调查对象i的出现次数。
频率: 每一调查对象的词次的累加和,与所有语料中调查对象总次数的比值,即式(2)所示。
(2)
其中: Bi为调查对象i的累加频率,ni为调查对象i的出现次数,N为所有语料中调查对象出现的总次数。
一般来说,频率愈高的词其常用程度愈高。这是最直观,且大多情况下都颇有成效的统计方法。
累加覆盖率: 指所有词语的频率由高到低降序排列时,每一个词语与其前词语的频率之和在全部语料中所占的比重,见式(3)。
(3)
其中: Fi为调查对象i的覆盖率,ni为调查对象i的出现次数,N为所有语料中调查对象出现的总量。
累加覆盖率的作用是能清楚观察到每个词在由高到低的频率排序中在词语整体中所处的位置。
词语领域通用度: 用来衡量词语在语言各流通领域的通用程度,即词语常用程度的量化指标。其计算公式不仅应该考察词汇的词频,同时还应该考虑词语在不同文本及不同领域和分领域的分布是否均匀。
本项目采用改进后的领域通用度计算步骤如下:
① 计算领域类词语频度Fx:
FX为k号词语在领域类语料中出现的总频次。
② 计算k号词语文本使用度UIK:
采用A.Juilland公式计算词语的文本使用度:
(5)
词的文本使用度:
UIK=DK×Fk(取整数值)
(6)
③ 计算k号词语的领域通用度Uk:
采用分布均匀度计算词语在各领域类分布的均匀程度,计算公式为:
分布均匀度:
DCk=SMR/Mean (0≤DCk≤1)
(7)
SMR及Mean分别定义如下:
k号词语的领域通用度:
Uk=DCk×UIk
(10)
上式中,n表示领域类数,要求各领域类语料库语料等量;FKi是词语在第i领域类k号词的频度,UIk表示k号词的文本使用度,DCk表示k号词的领域类分布均匀度。
词语的时间通用度: 词语在考察时间内通用程度的量化指标。它需要观察词语在考察期内使用是否稳定,即词语词频在各月分布的均匀程度。
时间通用度计算步骤如下:
① 计算词语月频度Fk:
Fk为k号词语在各月语料中出现的总频次。
② 计算k号词语的时间通用度Tk:
采用分布均匀度计算词语在考察时间内各月分布的均匀程度,计算公式为:
k号词语的时间度通用度:
Tk=SMR/Mean (0≤Tk≤1)
(13)
上式中,n表示考察时间内月数,要求各月中语料库语料等量;FKi是词语在第i个月的词频度。
词语通用度: 综合考虑词语的领域使用度及时间稳定度而提出的,并未考虑地域通用度对词语通用度的影响,以后在考虑较大地域范围流通语料时,应纳入地域通用度的考察。
词汇通用度的计算方法为:
词语通用度Ok=Tk×Uk
(14)
Tk表示k号词的时间通用度,Uk表示k号词的领域通用度。Ok表示词语的通用程度,该值越大,k号词的常用性特征及考察时间内使用稳定性特征表现就越好。
4 现代维吾尔语常用词候选表的研制
对词语进行基本考察,从词语的使用频度和词语的分布两方面加以考虑。维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。
在此基础上,提取出不同媒体语料库的高频词表,在四个词表中,筛选出不同媒体语料的共用词,作为现代维吾尔语常用词候选表;筛选出任意三个语料库的共用词,作为现代维吾尔语次常用词候选表;筛选出任意两个媒体语料库的共用词,作为现代维吾尔语部分常用词候选表;筛选出各媒体语料库的独用词,作为现代维吾尔语独用词候选表。
5 实验数据
5.1 基本数据
本文的研究语料涵盖平面媒体、有声媒体、网络媒体、教材媒体4种,共计96 025个文本文件,43 529 435词次。现代维吾尔语语料采集的依据及选择详见本文第三部分。
本语料为平面媒体(文学作品语料)、教育教材媒体(科普教材媒体)、有声媒体(新闻语料)、网络媒体(网络语料)组成的总语料。它基本代表维吾尔族人政治、经济和社会生活的方方面面。语料具体情况如表1所示。
表1 总语料的分布情况表
5.2 常用词汇与常用词干比较数据
为了保证常用词候选的代表性和权威性,需要进一步确认是将现代维吾尔语的词还是词干作为现代维吾尔语常用词。本文根据维吾尔语的特点和具体四大媒体语料,对语料统计数据进行比较分析。
(1) 现代维吾尔语词语基本数据
本文首先提取平面媒体、教育媒体、有声媒体、网络媒体等四大媒体的常用词表,通过比较,提取出四大媒体常用词表共用的部分,作为现代维吾尔语常用词候选表。本表共收录了现代维吾尔语常用词语62 330个,具体情况如表2所示。
表2 现代维吾尔语常用词语情况表
从表2可以看出, 62 330个共用词语的频次占总词频比例77.73%。说明常用词语占总语料的覆盖率相对偏低,不能承担现代维吾尔语常用候选词的角色。
(2) 4大媒体词干基本数据
同样对4大媒体的4个词干表进行比较,提取4大媒体共用总词干,作为现代维吾尔语常用词干候选表。本表共收录了现代维吾尔语常用候选词干36 488个,具体情况如表3所示。
表3 现代维吾尔语常用词干情况表
从表3可以看出,36 488个共用词干占总语料覆盖率95.23%。说明对总语料的覆盖率接近整个语料,能承担代表现代维吾尔语常用候选词角色。
5.3 现代维吾尔语高频词、高频词干基本数据
高频词是指在语料中词频累加覆盖率达到90%的全部用词。根据这个定义,从每一种媒体语料中覆盖率达到90%时提取高频词,具体分布情况如表4所示。
表4 高频词、词干种总语料中分布情况
从表4可以看出,每一种媒体语料在总语料中分布情况。
以词干能代表现代维吾尔语常用候选词角色特点为依据,根据高频词在媒体中分布情况,确定现代维吾尔语共用词、部分共用词、准部分共用词和独用词等四个档次。计算时教育媒体定义为A、平面媒体定义为B、网络媒体定义为C、有声媒体定义为D。四大媒体(ABCD)共用部分叫做常用候选词(共用词);任意三种媒体(ABC、ABD、ACD、BCD)和任意两个媒体(AB、AC、AD、BC、BD、CD)共用的部分叫做次常用候选词(大部分共用词),只有一种媒体(A、B、C、D)中出现的词叫做独用词。经过四大媒体高频词干进行比较,提取常用候选词、次常用候选词和独用词。常用候选词和独用词的具体情况如表5所示。
表5 常用候选词和独用词表
从表5可以看出,常用词和独用词的分布情况。由于常用候选词和次常用候选词合并后占总高频词语料中的比例为90.20% 。这说明提取的常用候选词表对本次考察语料是可行的。
5.4 现代维吾尔语常用词候选表
表6给出词次10万次以上的22条高频常用候选词样例表。
6 总结
在维吾尔语基地相关研究的基础之上选取了更大规模的真实语料建成现代维吾尔语语料库,其语料库包括平面媒体、教材媒体、有声媒体、网络媒体等四类主流媒体。语料量43 529 435词次。而现阶段,这些资源的合理、有效应用,对于深化与扩展语言资源的监测工作有重要意义,同时也是计算语言学服务于语言生活、语言教学、语言工程、辞书编纂等方面的重要体现与有益尝试。其中,四大媒体语言文字使用频率变化、频序排位相对变化反映了媒体对社会生活的关注点的变化。透过这些字词语的使用状况可以看到年度的社会生活、时事面貌。
[1] 艾孜尔古丽,李晓,玉素甫·艾白都拉.中小学维吾尔语文教材用词数据分析方法与应用研究[J].计算机工程与应用,2014,2: 108-111.
[2] 艾孜尔古丽,艾山江·阿不力孜,玉素甫·艾白都拉.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012,2: 67-68.
[3] 艾孜尔古丽等.基于网站用词调查的现代维吾尔语词干提取和应用[J].计算机应用与软件,2012,3: 32-34.
[4] 艾孜尔古丽,齐向伟,玉素甫·艾白都拉.现代维吾尔语语言资源监测中数据分析技术研究[J].计算机应用与软件, 2013,4: 36-39.
[5] 玉素甫,艾孜尔古丽.基于网站用词调查的现代维吾尔语词尾切分和应用研究[J].计算机应用与软件,2012,4: 13-15.
[6] 玉素甫,艾孜尔古丽,祖力皮亚.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012,5: 32-34.
[7] 玉素甫.信息处理用现代维吾尔语词干类标记集研究[J].信息技术与标准化,2011,6: 45-48.
[8] 苏新春.汉语词汇计量研究[M].厦门大学出版社,2001.
[9] 苏新春,杨尔弘.2005年度汉语词汇大规模统计的分析与思考[J].厦门大学学报,2006年6月.
[10] 赵小兵.基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D].博士学位论文,2007年6月.