基于主题本体扩展特征的短文本分类
2014-07-24湛燕陈昊
湛燕,陈昊
(河北大学 数学与计算机学院,河北省机器学习与计算智能重点实验室,河北 保定 071002)
自动文本分类有着悠久的历史,可以追溯到至少20世纪60年代,直到20世纪80年代末,作为知识工程自动分类的一个重要分支问题,即构建一套规则来编码专家知识从而用于文档分类.在20世纪90年代,随着蓬勃发展的在线文档的广泛应用,自动文本分类增加和扩展了新的研究范围[1].
文本分类是信息组织和信息管理任务中非常重要的组成成分.而短文本分类指的是一些短小文章(通常少于100字)的分类.国际上对于文本分类已经有了很多年的研究[1-2],但是对于短文本分类问题的研究相对较少[3-4].
短文本分类问题是文本分类的一个分支,除了在某种程度上与传统文本分类类似,但是仍然需要面临一些特殊问题需要解决,因为文本长度短、特征稀疏,很难衡量文章之间的相似性,常见的文本分类相似度测量方法应用在短文本分类中,通常并不能得到一个好的结果.
目前较为常用的传统文本分类算法有贝叶斯、支持向量机、近邻方法、神经网络方法、决策树法等[2].根据不同的文本表示形式的特点,这些方法可以分为2 种:一种是传统的基于向量空间模型(vector space mode,VSM)的分类,另一个是基于语义信息的分类[5].一般来说,传统的基于向量空间模型的分类方法,不使用语义信息来提高分类性能;同时,由于文档比较短,描述特征词信息的能力弱,在测试文档中出现的词不一定出现在训练文档中,所以第2种方法也不能直接应用于短文本的分类.
使用互信息[1](mutual information,MI)特征选择,通过单词测量文档之间的相关性,但是短文本提供更少的单词相关信息,因此有必要考虑其他语义关系(如:同义关系或近义关系等等).传统的贝叶斯分类器(Naive Bayes)在知识储备的不足的情况下,容易发生分类分错的情况,如果分错了文本过早加入分类器中,会降低其分类性能[6].除了文章短小的原因外,概念描述信息弱.单词数量的缺少等特点,使得在短文本分类中很难准确衡量文本的相似性.由于本体理论强调相关领域的概念,但也强调这些概念之间的联系.但是由于特征数量较少的缺陷,所以有必要强调语义之间的联系,这和本体理论的表示一致.
1 基于主题本体的扩展特征
1.1 本体
本体论(ontology)原是哲学的分支,研究客观事物存在的本质,它与认识论(epistemology)相对,认识论研究人类知识的本质和来源,也就是说,本体论研究客观存在,认识论研究主观认知.而本体的含义是形成现象的根本实体(常与“现象”相对).在人工智能领域,知识建模必须在知识库和2个子系统之间建立联系:agent行为(问题求解技能)和环境(问题存在的领域).而长期以来,人工智能领域的研究者较为注重前一个子系统,而领域知识的表达依赖于特定的任务,这样做的好处是只需要考虑相关的领域知识,但是,大规模的模型共享、系统集成、知识获取和重用依赖于领域的知识结构分析,因此,进入20世纪90年代以来,与任务独立的知识库(本体)的价值被发现,并受到广泛关注〔7-8〕.
本体的目标是抓住相关的领域知识,提供领域知识中共同的认识,使用通用的字词来定义领域知识,并且定义不同模式的领域词之间的联系.本体一方面属于认知概念集的领域,这些概念有很多相关的语义,这些语义反映了概念之间的联系.本体描述了概念和上下文之间内在的语义.总之,本体强调了相关领域间的重要性,同时也强调了这些重要概念的联系.
由于短文本的独有特点,例如文本长度较短,特征选择分散不一,词语测量较困难,使得短文本文类需要处理这些特殊的问题.基于本体理论涉及到了领域概念,但是对于短文本分析而言,难以处理短文本特征稀少的问题,所以需要重点强调文本特征之间的语义联系.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能[9-10].
1.2 基于主题本体的扩展特征
定义 主题本体 主题本体意味着最重要的核心和最必要的组合,可以对概念特征给出正式的描述,这些概念在其他领域很少出现,所以可以确定一个领域.
在特定的应用程序有许多不同的方式来表示本体,可以使用自然语言、框架和语义网络或逻辑语言描述本体.在现有的本体模型中,对于不同的问题领域和不同的工程考虑,结构和过程在本体方法也不同.语言的逻辑表达式可以很强大,但其推理过程比较复杂,所以很难完成本体模型的创建.鉴于这个原因,本文提出了一种命名为主题本体扩展特征的分类.
在主题本体中主要有两方面的内容:
第一,得到高频域词,指的是在某些领域高频率域和其他场域的几率很小的词(即是在本领域中区分能力强的词),这些高频词只能确定一个领域,所以可以使用它们作为高频词用于分类.
第二,通过概念来扩展高频词,使用主题本体对概念特征给出正式的描述,使原来的特征词汇不是孤立的,所以这些特征词语可以看作一种概念的集合以及相关词汇.普通词汇和特征词的区别在于,它可以把概念进行比较,这样可以更准确地确定2个领域之间的相似性.
通过以下详细步骤得到主题本体的特征扩展.
1)对训练文本进行预处理:通过词性分析,保留名词、动词和形容词,通过词特征的选择,过滤掉不适合用于分类的词,从而减少计算的复杂度.
2)计算单词的频率,计算每个单词在不同的类别中出现的次数,过滤掉出现频率较少的单词,同时对词频可以进行归一化处理,如下公式:
其中TFij表示单词i在文档j 中出现次数,DFi表示所有文档集合中出现单词i的文档数目.
3)提取出现频率比较高的单词作为一个主题本体的高频词汇,过滤掉和本主题本体不相关的单词,得到初始词汇.
4)运用同义词来扩展特征词汇,通过概念来扩展高频词,例如“程序”,“编程”,“网页设计”,“动画设计”都可以属于电脑编程方面的近义词汇.使用主题本体对概念扩充以扩展其特征词汇,从而可以解决在短文本分类中特征词少的问题.
1.3 CBM(Case-base Maintenance)方法
本文使用了CBM(case-base maintenance)方法,它可以在K-近邻算法中减少样本个数,从而可以提高搜索近邻的检索效率.首先,本文介绍了一个概念叫做样本的扩展能力.基于这个概念,提出了一种减少样本个数的方法.样本的扩展能力(generalization capability)表明了样本解决分类问题的能力.根据这种方法,具有更好扩展能力的样本会保留下来作为样本的代表,其他多余的在其覆盖范围内的样本就可以删除了,从而减少了样本个数.实验表明这种方法在分类算法中,可以大大减少多余样本或者对于分类用处不大的样本,从而获得更高的分类效率.
这种启发式算法介绍如下(称为GC算法):
1)集合R 被初始化为空集,其中S=X∪Y.
2)对于集合X 中的每一个样本x,根据公式(2)计算Coverage(x).
3)找到这样的样本x*,其中|Coverage(x*)|=maxx∈S|Coverage(x)|.如果存在多于1个样本的覆盖范围等于这个最大值,那么从中选择rx最大的那个样本x**.如果这时有很多样本达到了这个最大值,那么可以随机选择1个即可.
4)置R=R∪{x*}和S=S-Coverage(x*),如果|S|=0那么停止,否则转到2).
因此,集合R 就是最后选择的有代表性的样本集合,完整的正例集合是集合X.实际上,被选择的样本已经排除了负例样本集合Y.
其中,样本x 的覆盖范围Coverage(x)定义如下:
接着本文定义2个样本之间的距离.对于每个样本x={x1,x2,…,xn}和y={y1,y2,…,yn},它们之间的距离定义为
这里的距离测试ρj(xj,yj)依赖于特定的域,M 是位于0~1之间的一个正数.通常,参数M 是这样确定的
假设X∪Y 没有交集,也就是不存在2个样本x∈Xand y∈Y,即x=y.
对于每一个正例x=(x1,x2,…,xn)∈X,正例样本x 到负例样本集合Y 的最短距离为
因此,保证了rx>0.
本文定义了一个正例的覆盖范围.如果x是一个正例,q是任意一个样例,如果满足公式(6)就说x覆盖q
其中rx根据公式(5)进行计算.
一个正例覆盖范围有负例是不可能的,所以,换句话说,一个正例的覆盖范围一定是样本集合X 的子集.一个样本的覆盖范围表示了这个样本的扩展能力.样本覆盖范围包括的样本个数越多,说明这个样本的扩展能力越强.从公式(2)中,可以定义每个正例的覆盖范围.主要目标就是选择正例样本的一个子集,它们的覆盖范围可以代表整个正例集合X.实际上,所选择的样本已经排除了负例样本集合Y.
把这种方法应用在K-近邻分类算法中,选择扩展能力强的样本进行分类,删除其他样本,从而减少了样本的个数,获得更高的分类效率,这和主题本体的思想是一致的[11].
2 实验
2.1 性能测试标准
为了评估文本分类系统的有效性,笔者使用召回率、准确率和F1 度量作为评估标准.召回率(recall(R))是定义为所有准确的文档有多少被检索出来.准确率(precision(P))是检索出来的文档正确的数量.F1度量结合了以上两者的加权调和平均
2.2 实验及其分析
笔者在人民日报选择了1 000篇文章,分别属于计算机编程、国际新闻、妇女、军事和体育新闻等.在训练样本中使用基于主题本体的特征扩展方法,并对测试样本进行预处理,只保留名词、动词和形容词,使用K-近邻分类算法进行文本分类.
在实验中,每个数据集都被随机分成2个独立的集合,90%的文章作为训练数据和10%的文章作为测试数据.
表1 准确率、召回率和F1度量Tab.1 Comparison of precision,recall and F1
实验1使用传统的互信息进行特征选择和进行K-近邻文本分类.实验2使用基于主题本体的特征扩展以及通过CBM 进行K-近邻文本分类.从表1中可以看到实验2的基于主题本体的特征扩展学习提高了准确率,召回率和F1值.因此,由于考虑到了语义联系,可以得到比传统方法更好的分类性能.
3 结论
由于短文本的独有特点,例如文本长度较短,特征选择分散不一,词语测量较困难,使得短文本文类需要处理这些特殊的问题.基于本体理论涉及到了领域概念,但是对于短文本分析而言,难以处理短文本特征稀少的问题,所以需要重点强调文本特征之间的语义联系.本文使用了基于主题本体的特征扩展方法,考虑了特征之间的语义关联,达到了较好的分类性能.本文通过基于CBM 方法的K-近邻分类应用在短文本分类算法中,并且使用了基于主题本体的特征扩展方法.由于考虑了语义关系,可以得到比传统的方法更好的分类性能.自从近邻分类算法应用了特征扩展方法,可以提高分类性能,通过优化该算法使其广泛的应用在文本分类中.
[1] SEBASTIANI F.A tutorial on automated text categorisation[Z].Proceedings of ASAI-99,1st Argentinian Symposium on Artificial Intelligence,Buenos Aires,AR,1999.
[2] SEBASTIANI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
[3] FAN Xinghua,SUN Maosong.A high-performance text categorization of two classes[J].Chinese Journal of Computer,2006,29(1):124-131.
[4] ZELIKOVITZ S,TRANSDUCTIVE M F.Learning for short-text classification problem using latent semantic indexing international[J].Journal of Pattern Recognition and Artificial Intelligence,2005,19(2):143-163.
[5] 翟延冬,王康平,张东娜,等.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620.ZHAI Yandong,WANG Kangping,ZHANG Dongna,et al.An algorithm for semantic similarity of short text based on wordnet[J].Chinese Journal of Electronics,2012,40(3):617-620.
[6] 王永恒,贾焰,杨树强.基于频繁词集聚类的海量短文分类方法[J].计算机工程与设计,2007,28(8):1744-1780.WANG Yongheng,JIA Yan,YANG Shuqiang.Massive short documents classification method based on frequent term set clustering[J].Computer Engineering and Design,2007,28(8):1744-1780.
[7] SONG D,BRUZA P D,HUANG Z,et al.Classifying document titles based on information inference[Z].Proceedings of the 14th International Symposium on Methodologies for Intelligent Systems,Maebashi City,Japan,2003.
[8] CHEN Enhong,WU Gaofeng.An ontology learning method enhanced by frame semantics[Z].Seventh IEEE International Symposium on Multimedia,Irvine,California,2005.
[9] 黄九鸣,吴泉源,刘春阳,等.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747.HUANG Jiuming,WU Quanyuan,LIU Chunyang,et al.Unsupervised conversation extraction in short text message streams[J].Journal of Software,2012,23(4):735-747.
[10] 彭泽映,俞晓明,许洪波.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59.PENG Zeying,YU Xiaoming,XU Hongbo.Incomplete clustering for large scale short texts[J].Journal of Chinese Information Processing,2011,25(1):54-59.
[11] ZHAN Yan,CHEN Hao.Chinese text categorization study based on cbm learning[Z].2010 7th International Conference on Fuzzy Systems and Knowledge Discovery,Yantai,2010.