藏文停用词选取与自动处理方法研究
2015-04-21李天瑞
珠 杰,李天瑞
(1. 西南交通大学 信息科学与技术学院,四川 成都 610031;2. 西藏大学 工学院计算机科学系,西藏 拉萨 850000)
藏文停用词选取与自动处理方法研究
珠 杰1,2,李天瑞1
(1. 西南交通大学 信息科学与技术学院,四川 成都 610031;2. 西藏大学 工学院计算机科学系,西藏 拉萨 850000)
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。
藏文停用词;词频统计;文档频数;熵
1 前言
在基于词袋模型的文本挖掘研究中,词作为文本的特征,在文本主题信息提取、文本摘要、文本分类、文本聚类、网络舆情分析、社会网络分析、网络搜索引擎与问答系统等研究中,往往组织成特征向量来表示文本内容。停用词的处理是文本挖掘中数据清洗的重要过程,能够大幅减少文本的无用特征,大大降低向量空间的维数、节省存储空间、减少计算时间,提高文本分析的能力和精确度。
停用词是指在文本中出现频率很高但是所包含的信息对体现主题没有多大贡献的词。在很多文本挖掘方法中,停用词被作为“噪音”处理。本文以藏文文本为研究对象,主要讨论藏文停用词的选取和自动处理方法。
本文的结构如下: 第2部分介绍了停用词处理的相关研究工作;第3部分介绍了藏文停用词的自动处理方法,包括词项频率(TF)、文档频率(DF)、熵(Entropy)计算等方法;第4部分是藏文停用词处理过程的相关实验及实验数据分析过程;第5部分是结论与展望。
2 相关工作
从国内外研究现状来分析,英文停用词处理的研究成果多,技术成熟,目前已有公认的停用词表,是其他语言研究的参考对象。美国Bell实验室的Ho认为,在典型的英文文章中,停用词的使用数量占到一半以上,而这些停用词的数量却不足150个[1]。英语公开发表的停用词表中,比较著名的有 Van Rijsbergen发表的停用词表以及 Brown corpus的停用词表[2-3]。
从停用词的自动选取方法[4]上看,主要采用词项频率、文档频率、信息增益(IG)、熵计算、互信息(MI)、χ2-统计方法等方法。汉语的停用词处理上,Hao等人提出了χ2-统计方法[5],顾益军等人提出依据联合熵选取停用词的方法[6],Zou等人提出一种基于统计与信息论模型的停用词选取方法[7]。
从停用词选取上来看,停用词的认定与实际应用环境是密不可分的,根据应用环境的不同,停用词选取范围、数量的确定有所差别。例如,文献[8]列出了搜索引擎针对英文的停用词列表,其数量达到658个。汉语停用词的选取上,周钦强等人认为停用词主要包括英文字符、数字、数学字符、标点符号以及使用频率特高的单汉字等[9];罗杰等人认为,除数字等切分标记外,停用词还包括数词、量词、代词、方位词、拟声词、叹词等,没有实际意义的动词,例如,“可能”等,以及一些太过于常用的名词,例如,“操作”等[10]。
从停用词选取的阈值上来看,Silva验证了应用停用词表削减特征空间,对提高基于支持向量机的文本分类器准确率所产生的积极作用[11]。Yang和Pedersen认为,如果对停用词按照其出现的文本频数降序排序,用前10个停用词削减特征向量空间,不会产生负面影响;用前100个停用词削减特征向量空间,所产生的负面影响非常小[12]。
少数民族语言中,除了介绍蒙文停用词处理的方法外[13],还没有看到针对藏文停用词处理的相关文章。本文借鉴其他语言停用词处理的研究成果,分析藏文停用词处理的特殊情况,研究藏文停用词自动处理方法和分析停用词表确定的可能性,并通过实验进行验证。
3 藏文停用词选取方法
本文主要采用基于词项频率、文档频率、熵的自动选取方法来选取藏文停用词。
3.1 词项频率(TF)
词项频率(termfrequency,TF),简称词频,指的是某个给定词项(本文主要指词语)在该文档中出现的频率。通过对文本中词语的词频统计,能够获得该文本的词语特征向量。设:
其中Di为第i个文档,aij为第i个文档中词j的词频。由于同一个词在长文件里的词频会比短文件更高,为防止偏向长文件,确保各分量的比重保持不变,对每个文本中的词频特征向量作归一化处理,即文本Di中j词出现的词频除以所有词在该文档中的词频之和。如式(1)所示。
(1)
其中wij表示第i个文档中词j的比重,是该词在文本中的某种特征。
由于同一个词允许在多个文档出现,设:
(2)
其中wj表示词j在所有文档中出现的词的比重,m为文档的个数。根据词频的比重大小从高到低对词进行降序排序,由于停用词往往在文本中出现的次数比较高,规定阈值前的藏文作为停用词。
3.2 文档频数(DF)
文档频数是指有该词条出现的文档数量。在文本集中对每个词条计算它的文档频数,设:
(3)
其中wj为词j出现的文档数量,k为词j出现的文档个数,D为文档集合,随着词的变化出现该词的文档个数也会变化。根据wj的值从高到低对词进行降序排序,规定阈值前的词作为藏文停用词。
3.3 熵计算方法
熵是信息论中很重要的概念。香农用信息熵来度量信息的不确定性程度,熵越大则不确定性越强。信息熵的定义如下:
(4)
在停用词的处理上,文本中的词特征向量作为随机变量X,每个词xi作为X的分量,进行单个词的熵计算,这样基于单词出现的平均信息量的计算来度量文本中词出现的频率变化。
设:
其中Di为i个文本的随机变量xij(i=1...m,j=1...n)为第i个文本中出现的词j。则计算词的熵值计算如式(5)所示。
(5)
其中
(6)
这里f(xij)为第i个文本中出现的词j的词频,m为文本个数。文本集合中每个词的熵值计算完成后,按照熵值的大小进行升序排列,然后取规定阈值前的词作为藏文停用词。
采用具有统计特征TF、DF、熵计算来选取藏文停用词,这些停用词是否具有合理性,指定的阈值是否合适,不能凭空想象。因此,下面通过实验来说明自动方法选取停用词的合理性。
4 停用词处理实验
4.1 实验语料 语料采用了西藏大学藏文信息技术研究中心提供的测试语料,该语料大小为360KB、25个文件、共计2 518条句子。该语料是从不同的类别的文本中
人工提取出来的句子,包括了历史、法律、宗教、教育、新闻、文学、民俗、经济、政治、地理等内容的句子。每个文件存放了约100条句子,虽然句子个数相同,但是句子长度的不同,文件的大小有所区别。最大的79KB,最小的10KB。
4.2 预处理
藏文文本语料的预处理过程包括藏文自动分词、词频统计过程。分词采用了西藏大学开发的藏文分词系统,该系统分词正确率能够达到90%。为了得到准确的分词结果,对分词结果的每个文件进行人工校对,纠正其分词错误。
词频统计过程中,经过对2 518个句子统计,出现7 490个词,词的总共词频数为36 028个,前100个词的词频占总词频的44.87%,词频数为1的4 479个,占总词数的59.84%。
按照词频的高低降序排序后,词序和词频空间中的分布状况,如图1所示。其中log10n为词序的对数,log10r为词频的对数。
词频统计过程中,发现不少虚词和一些特殊动词出现的频率很高。为此, 以文献[14]中列出的虚词为蓝本,收集了180个藏文虚词,如表1所示。另外,还收集了部分特殊动词,包括他动词、助动词、存在动词、判断动词等,如表2所示。
图1 词的分布情况
表1 藏语虚词表
表2 特殊动词表
按照虚词表1的内容,进一步对实验数据中的虚词分布情况进行分析,发现虚词的分布存在三种情况,一种是高频的虚词,另一种是低频的虚词,而中频虚词较少。高频的虚词占总虚词数的22.78%,中间频率虚词占总虚词数的12.78%,低频的虚词占总虚词数的64.44%(包括低频虚词和未出现虚词,是两个部分之和)。实验数据中藏文虚词分布情况,如表3所示。
表3 虚词分布情况统计表
对于特殊动词也有类似虚词的分布,在此不再累述。
从表3中可以看出,频率区间是指对所有词按照词频从高到低降序排序后,某个词频区间为频率区间;累计词频是指在某个频率区间内出现的所有虚词的词频之和;分布率是指在某个频率区间内出现的虚词占虚词表中总虚词数的百分比;未出现词是指在虚词表1中存在,但在实验语料中没有出现的虚词。
4.3 实验数据分析
根据预处理中发现的虚词、特殊动词的分布和满足Zifp定律的情况,实验分两组进行,第一组实验中预处理结果和分词后的文本作为输入,对语料中的词进行TF、DF、熵计算的停用词处理实验。根据计算结果和参考文献[11]中停用词选取阈值的说明,列出前100个高频率和低熵值的词条作为藏文停用词。第二组实验中,人工选取的180个虚词和37特殊动词作为停用词,去除这些停用词的基础上,再进行TF、DF、熵计算的停用词处理实验,并列出前10个高频和低熵值词条作为藏文停用词。根据两组实验结果的分析,说明不同策略选取停用词的影响。
采用式(1)和(2)进行TF方法的停用词处理实验;采用式(2)和(3)进行DF方法的停用词处理实验;采用式(5)和(6)进行熵计算方法的停用词处理实验。经过计算,按照高频词降序排序、熵值升序排序,得到了自动处理的藏文停用词。下面主要以第一组实验结果为依据,分析实验结果。实验结果如表4所示。
表4是按照TF、DF方法对计算结果进行降序排序,然后提取前100个作为停用词;另外熵计算是按照熵值低到高进行升序排序,提取前100个作为停用词,该表称为结果集。TF的结果集用A表示,DF的结果集用B表示,熵的结果集用C表示。对结果集的词条在词序-词频空间上的分布情况进行考察,分布情况如图2所示。从总体上看具有函数1/|x|图的趋势,可以看出,TF和DF的频率分布趋势基本一致,但熵计算结果集的频率分布有所差别。
图2 TF、DF和熵结果集的停用词分布
对三种方法的结果集之间进行比较,比较情况如表5所示。
表5 结果集之间的比较
在实验结果中发现,在TF与DF、熵计算结果比较,前20个出现的词条基本一致,从第20个词条之后,TF中出现了不少高频名词、数词和形容词;与DF相比,100个词汇中有12个不同的词条,即各自特有12个词汇;与熵计算相比,有24个不同的词条,即各自特有24个词汇。DF与熵计算结果相比,在100个词中有7个不同的词汇;在DF和熵计算中,出现的词汇基本相同,只是顺序上不相同。从总体上看,三种方法出现的词汇具有75%以上的相同之处,特别是在DF和熵计算上具有更高的相似度。
对结果集中的数据进行了词性的统计,数据分析结果如表6所示。
表6 停用词的词性分布
从表6中可以看到虚词和特殊动词将近占到了70%,而且是三种方法结果集的交集部分,说明虚词和特殊动词在文本中具有较好的稳定性。另一方面说明,这些词在表达文本含义时不具备较好的区分能力。
在实验结果中发现, 基于三种方法选取的停用词基本相似,存在的差别主要是由语料自身特点形成的局部不均衡造成的。其中,TF倾向于高频词的特征;DF在高频的基础上能够照顾到文本局部特征;基于熵计算的选取方式,更倾向于选取文本中稳定出现的词,因此更容易受到文本行文方式等的影响。
预处理过程中知道有些低频虚词在文本中出现情况很少,甚至没有出现,而这些虚词在文本中也没有实际意义。因此,在第二组实验中,虚词和特殊动词作为停用词,首先去除这些停用词,然后再采用TF、DF、熵计算进行实验。实验结果发现,这些停用词的词频数为13 356个,占总词频数的37.07%,并根据计算结果,列出前20个词作为停用词处理(表7)。
表7 自动处理的停用词表
设TF、DF和熵计算的结果集分别为A′、B′、C′,对三种方法的结果集之间进行比较,比较结果如表8所示。
表8 结果集之间的比较
从实验结果中发现,TF与DF相比,20个词汇中有七个不同的词条,即各自特有七个词汇;与熵计算相比,有九个不同的词条,即各自特有九个词汇。在20个词中DF与熵计算结果相比,有三个不同的词条,即各自特有三个词汇。对结果集中的数据进行了词性的统计,数据分析结果如表9所示。
表9 停用词的词性分布
从表9中可以看到,三种方法的结果集交集部分占到了50%以上,即10个词条以上。
从第二组实验来看,虚词和特殊动词为停用词的前提假设,没有通过实验和理论来验证该假设的正确性。下面通过参考文献[15]中的区分度来分析该假设的合理性。根据区分度的定义,25个文件为25个类别,如式(7)所示。
(7)
其中l=25,m为第i个文档中的词个数,gij为词wj的类间分布,且为式(8)。
(8)
其中fij为词wj的词频,且为式(9)。
(9)
其中count(wj)为词wj在第i个文档中出现的次数,分母为第i个文档中所有词条出现的次数。
根据实验结果,藏文停用词选取上藏文虚词应列入停用词范围,这与实际的语言现象也是一致的,因为藏文虚词在文章中起到承上启下的作用,不表示实际意义。另外,藏文的一些特殊动词也应列入停用词范围,这些动词包括自动词、他动词、助动词、存在动词、判断动词等,它们只在句子中起到判断、存在等作用。从实验分析来看,藏文虚词和特殊动词在文本中具有两头大中间小的分布特征,如果完全依赖自动处理的方法,很多低频的虚词和特殊动词不会纳入到停用词的范围,建议虚词和特殊动词作为藏文的停用词;在此基础上,利用TF、DF、熵计算等方法,提取其他的停用词。
另外,在藏文停用词选取上,藏文编码国际标准ISO/IEC10646中的藏文符号也应列入停用词选取范围;如果藏文文本中存在其他语种的符号和词汇,也应列入停用词范围。在停用词选取上阈值的确定参考了Yang和Pedersen的观点[12],在不使用藏文停用词表的情况下阈值确定为100,使用藏文停用词表时阈值确定为10。
5 结论与展望
本文以词袋模型的藏文文本挖掘过程来考虑,对藏文文本中停用词的选取范围、选取方法进行了讨论。采用TF、DF、熵计算方法讨论了停用词选取方法,并通过对2 518条藏文句子语料的测试,对停用词选取结果进行了比较。根据测试结果和藏文的虚词理论、动词理论,本文认为完全依靠自动处理方式来处理藏文停用词,并不是很准确。建议180个藏文虚词和30多个藏文殊动词、藏文符号作为基本的停用词。当然停用词的处理具有很强的应用性质,不同场合需要不同的停用词选取范围,在基本的停用词基础上,选择不同应用场合的停用词和停用词选取方法。本文工作是藏文文本挖掘的一个预处理过程,今后在此基础上继续研究停用词对藏文文本分类的影响和阈值范围的选择,还要进一步考虑藏文文本挖掘的更深入的研究内容,例如,情感分析、语义分析、社会网络分析等的藏文文本挖掘内容,提高藏文文本挖掘的深度和广度。
[1]HoTK.StopWordLocationandIdentificationforAdaptiveTextRecognition[J].InternationalJournalonDocumentAnalysisandRecognition, 2000, 3(1): 16-26.
[2]VanRijsbergenCJ.Informationretrieval[M].London:ButterworthsScientificPublication, 1975.
[3]FoxC.LexicalanalysisandStoplist,InformationRetrieval:DataStructuresandAlgorithms,UpperSaddleRiver[M].NewJersey:PrenticeHall, 1992.
[4] 周茜, 赵明生,扈旻. 中文文本分类中的特征选择研究[J]. 中文信息学报, 2003, 18 (3): 17-23.
[5]HaoL,HaoL.AutomaticIdentificationofStopWordsinChineseTextClassification[C]//Proceedingsofthe2008InternationalConferenceonComputerScienceandSoftwareEngineeringWuhan,China:IEEEComputer, 2008: 718-722.
[6] 顾益军, 樊孝忠, 王建华等. 中文停用词表的自动选取[J]. 北京理工大学学报, 2005, 25(4): 337-340.
[7]ZouF,WangFL,DengXT,etal.AutomaticConstructionofChineseStopWordList[C]//Proceedingsofthe5thWSEASInternationalConferenceonAppliedComputerScience,Hangzhou,China. 2006, 4: 1010-1015
[8]StopWordList-WordsFilteredoutbySearchEngineSpiders[EB/OL].http://www.seo-innovation.com/support-files/stopwordlist.pdf.2007.
[9] 周钦强, 孙炳达, 王义. 文本自动分类系统文本预处理方法的研究[J]. 计算机应用研究, 2005, 2: 85-86.
[10] 罗杰, 陈力, 夏德麟等. 基于新的关键词提取方法的快速文本分类系统[J]. 计算机应用研究, 2006, 4: 32-34.
[11]SilvaC,RibeiroB.Theimportanceofstopwordremovalonrecallvaluesintextcategorization[J].NeuralNetworks, 2003, 3: 20-24.
[12]YangY.PedersenJ.Acomparativestudyonfeatureselectionintextcategorization[C]//ProceedingsofICML-97, 14thInternationalConferenceonMachineLearning.SanFrancisco:MorganKaufmannPublishersInc. 1997: 412-420.
[13] 攻政, 关高娃. 蒙古文停用词和英文停用词比较研究[J]. 中文信息学报, 2011, 25(4): 35-38.
[14] 格桑居冕, 格桑央京. 实用藏文文法教程[M]. 成都: 四川民族出版社, 2004.
[15] 游荣彦, 邓志才, 李传宏. 向量空间模型中特征词的区分度的定量研究[J]. 中文信息学报, 2011, 16(3): 15-19.
Research on Tibetan Stop Words Selection and Automatic Processing Method
ZHU Jie1,2, LI Tianrui1
(1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu, Sichuan 610031, China; 2. Department of Computer Science, Tibet University, Tibet, Lhasa 850000, China)
Stop words processing is a key preprocessing step in the text mining. In this paper, the selection method of stop words in Tibetan based on statistics is studied by combining with the existing techniques. Through experiments, TF, DF, and entropy calculation methods in the selection of Tibetan stop words are analyzed. An approach for the selection of Tibetan stop words is presented by the combination of Tibetan function words, special verb and automatic approach. The experimental results show that the proposed method can determine a reasonable Tibetan stop words list.
Tibetan stop word; TF; DF; entropy
珠杰(1973—),博士研究生,副教授,主要研究领域为藏文信息处理技术、数据挖掘等。E⁃mail:790139756@qq.com李天瑞(1969—),博士,教授,博士生导师,主要研究领域智能信息处理、数据挖掘和云计算等。E⁃mail:trli@swjtu.edu.cn刘胜久(1988—),博士研究生,主要研究领域为数据挖掘与知识发现等。E⁃mail:liushengjiu2008@163.com
1003-0077(2015)02-0125-08
2012-10-25 定稿日期: 2013-04-08
国家自然基金(61262058,60763010),CCF 中文信息技术开放基金项目(CCF2012-02-01),藏文信息技术教育部“长江学者与创新团队发展计划”(IRT0975)。
TP391
A