论文本分类中特征选择方法
2009-07-15张小艳宋丽平
张小艳 宋丽平
〔摘 要〕文本分类技术在信息过滤和信息检索中有着重要应用。文本表示技术是文本分类中的首要任务,特征选择技术又是文本表示中的核心技术,对分类效果起着至关重要的作用。本文介绍了文本表示和特征选择技术的发展,并在详细分析目前各种文本表示和特征选择的方法和技术特点基础上,比较了各种方法的适用性和优缺点,最后总结出了文本表示和特征选择技术研究的方向和目标。
〔关键词〕文本分类;文本表示;特征选择;语义特征
〔中图分类号〕G20 〔文献标识码〕B 〔文章编号〕1008-0821(2009)03-0131-03
文本分类,是将自然文本文件根据内容自动分为预先定义的一个或者几个类别的过程。它是一种有指导的学习,根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习到的关系模型对未被标注的文档进行类别判断。文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等领域的技术基础,有着广泛的应用前景[1-2]。
在文本分类中,一般来说,把文本表示为向量形式,其训练文本集中的特征项可能多达数万个,这些特征中的任何一个都对实现正确的分类有着它的贡献。但是,在这些大量的特征中肯定还包含着许多彼此相关的特征,这些相关的特征是冗余的,是可以去除的。过大的特征空间会导致样本统计特性的评估变得更加困难,从而降低分类器的泛化能力,出现“过学习”的现象。而且这种高维向量的处理具有极高的计算复杂度,尤其是会产生所谓的“维数灾难”问题。因此,如何保留对分类器有重要贡献的特征,去除冗余的特征,以减少特征总数,即如何进行维数约简,已成为一个日益重要的研究领域。
1 文本表示
1.1 文本表示技术
文本表示是指用简单而准确的方法将文档表示成计算机能够处理的形式,中文文本信息多数是无结构化的,并且使用自然语言,很难被计算机处理。因此,如何准确地表示中文文本是影响分类性能的主要因素。现有的用于文本分类的文本表示模型主要包括:布尔模型、概率模型、向量空间模型[3]。
1.1.1 布尔模型
布尔模型是基于特征项的严格匹配模型。首先,建立一个二值变量的集合,这些变量对应于文本的特征项。文本用这些特征变量来表示,如果出现相应的特征项,特征变量取“True”,否则取“False”,文本的匹配规则遵循布尔运算的法则。
该模型的主要优点是:速度快;易于表达一定程度的结构化信息,如同义关系或词组。其缺点是:把布尔模型作为文本的表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析;过于严格,缺乏灵活性,更谈不上模糊匹配,这样对于特征不明显的文本就无法处理。
1.1.2 概率模型
文本分类的概率模型是基于概率排序原则,对于给定类别特征,对所有文本计算概率,并从大到小进行排序,概率公式为P(R|D,Q)。其中,R表示文本D与类别特征Q相关。另外,用R′表示文本D与类别特征Q不相关。在该模型中,文本向量只采用简单的二值形式,没有利用文本中的更多信息,比如特征在文本中出现的频率。在该模型的基础上,扩展出许多模型,如Fuhr模型和Croft模型。Fuhr提出了概率索引模型,没有更多的参数估计问题,对文本的表示也更加详细。Croft模型体现了面向描述的这种索引思想。
概率相关模型的优点在于体现了文本信息相关性判断的不确定性和信息表示的模糊性,但这种模型对所处理的文本集依赖过强,而且处理问题过于简单。
1.1.3 向量空间模型(VSM)
VSM是近年来应用最多且效果较好的文本表示方法之一,向量空间模型把文本表示成n维欧式空间的向量,把文本中的特征词看作空间中一个向量,每一向量的坐标分量是此特征词在对应类别中的权重。
向量空间模型的优点在于:只需要通过简单的频数统计就可以在一定程度上表示出文本中蕴涵的语义信息。但是在该模型中,文本向量空间被看作是由一组正交词条向量所组成的向量空间,而这种方法的假设前提是:词与词之间没有语义联系。但现实文本中的用词往往是有关联的,比如同义词、上下位关系等,即存在“斜交”现象,很难满足假设前提,因此对计算结果的可靠性造成一定的影响。使用该模型处理海量文本信息必将带来两个问题:一是表示文本的特征向量维数过高;二是各个特征所包含的语义信息过于具体,特征之间的语义关联被忽略。
1.2 语义表示模型
由于以上模型先天的缺陷,缺少对文档主题思想和语义的分析,目前,已出现了将语义信息应用到文本分类方面的方法。如:Koller和Sahami[4]提出了利用层次化主题结构将分类的任务分解成若干个子任务,再完成各个子任务,达到分类的目的,因为子任务的训练文本集合一般较小,这样自然就避免了文档特征向量高维度问题的出现。文本的几种基于语义的表示方法有:
1.2.1 基于逻辑的语义表示方法
基于逻辑的语义表示方法是把一句话中的多个词义组合起来,采用一种与一阶谓词演算相似的语言来表示句子意义。项用于表示世界中的个体或实体,而命题用于对世界上的实体做出断言。项主要有两类,即常量和函数。常量大多数情况下接近于自然语言中的专有名词,函数对应于表示实体的特征或者对应于表示实体间关系的名词短语。
该方法引入了广义量词来解决单句的歧义问题,但是其动词都映射到对应的意义中,这些意义在逻辑形式中充当谓词,虽然该方法能处理各种不同的形式,却失去了普遍性,还有一些性质很难处理。
1.2.2 格角色表示法
格角色通过增加更多和事件有关的谓词把新的修饰语不断加入到基本表达式中,这样只定义动词的一种意义就可以处理几种情况。动词及其参数之间存在一组抽象的语义关系,即格角色。
格角色表示法将诸如主语、宾语等语法关系表层结构上的概念,发展到用施事、受事、工具、受益等概念所表示的句法语义关系,也就是语言的底层。但由于格角色是围绕动词展开的,汉语的一些无动句、流水句、连动句、紧缩、动补、省略等结构,无法用统率一个句子的模式来描述,其中连动句和兼语句尤为突出。
1.2.3 语义网络表示法
语义网络是由带标记的链和带标记的结点组成的图。结点表示词义或抽象意义类型,链表示意义间的语义关系。在语义网络中所有的动作都可以有一个由有生命的对象充当的施事格,并引入一个新的结点类型,即存在结点,用框表示,代表一个特定的值。
语义网络表示法表示语义信息成网络化的一面,而且它能够使联想式推理在其上得到很好的发挥,为进行复杂推理打下了坚实的基础。它很接近人类思维,但是不能正确表示类属关系。
1.2.4 框架表示法
框架就是描述一些典型的对象或情境的一组事实或对象,以及对情境进行推理的特定的推理策略。这里表示的情境包括可见的场景、复杂物理对象的结构以及可执行某一特定行为的典型方法,其关键的理念是通过信息的聚类来刻画常见的对象和情境的属性。
框架表示法最突出的特点是善于表达结构性的知识,体现了人们在观察事物时的思维活动,并通过使槽值为另一个框架的名字实现框架间的联系,建立起表示复杂知识的框架网络,这样不仅减少了知识的冗余,而且较好地保证了知识的一致性。主要不足之处是不善于表达过程性的知识。
2 特征提取技术
随着文本分类研究的深入,特征选择方法也有了较大发展,现有的一些主要的特征选择算法有:基于评估函数的特征提取方法、考虑相关性的特征提取方法、语义特征提取的方法[5]。
2.1 基于评估函数的特征提取方法
这类算法是在特征独立的假设基础上,通过构造评估函数,对特征集合中的每个特征进行独立评估,并对每个特征打分。然后将所有特征按分值大小排序,提取预定数目的最优特征作为提取结果的特征子集。显然,对于这类型算法,决定特征提取效果的主要因素是评估函数的质量。
2.2 考虑相关性的特征提取方法
基于评估函数的特征提取方法是建立在特征独立的假设基础上,但在实际中这个假设是很难成立的,因此需要考虑特征相关条件下的文本特征提取方法。
2.2.1 基于马可夫条件集的特征空间后向搜索
J.Pearl提出马可夫条件集的概念,对特征空间进行后向搜索,删除那些当已知其他特征时,其所含类信息最少的无关特征。但困难的是马可夫条件集的寻找和建立。
2.2.2 基于SVM的特征提取
Joachims等人将SVM应用于特征提取研究中,SVM对于特征相关性和稀疏性不敏感,并且处理高维问题具有其他机器学习方法不可比拟的优势,不必利用评估函数进行特征选择,线性支持向量机就可以达到很好的分类效果。基于支持向量的文本特征提取方法能够识别每个类别的重要特征和噪音特征。一个文本特征是不是噪音特征,可以由该特征在支持向量中的权值以及支持向量的性质决定,利用支持向量对文本特征的重要性进行评估。
2.3 语义特征提取的方法
2.3.1 基于语境框架的文本特征提取方法
基于语境框架的文本特征提取方法[6]是一种新的处理Web文本的语义形式化模型。语境框架是一个三维的语义描述,把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)3个框架。在语境框架的基础上,从语义分析入手,实现了4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断。该方法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。
2.3.2 基于本体论的文本提取方法
基于本体论的文本提取方法[7]应用本体论模型可以有效地解决特定领域知识的描述问题。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法,能够更准确地进行特征词权值的计算和文本特征的提取。
2.3.3 基于知网的概念特征提取方法
基于知网的概念特征提取方法[8]是对于Web文本的处理,尤其是中文文本处理,字、词、短语等特征项是处理的主要对象。该方法是在VSM的基础上,对文本进行部分语义分析,利用知网获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类,并将概念相同的词合并成同一词。用聚类得到的词作为文档向量的特征项,能够比普通词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象。这样可以有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率。
2.4 特征提取方法性能比较
基于统计的特征提取方法,具有算法简单、易于实现、过滤速度快、不依赖具体领域和语言等优点。传统评估函数的特征提取方法独立地对每个特征评估打分,虽然可以选出各个类中的重要特征,但是却不能判断噪音特征和删除无效特征。向量空间模型最基本的假设是各个分量间正交,但作为分量的词汇间存在很大的相关性,无法满足模型的假设。作为上述方法处理的特征项字、词更多体现的是文档的词汇信息,而不是它的语义信息,因而无法准确表达文档的内容;大多数关于文本特征提取的研究方法只偏重考虑特征发生的概率和所处的位置,而缺乏语义方面的分析,不能深层次地理解文本所表达的主题思想,因而很难取得较好的选择效果和系统性能。
基于语义特征提取方法都处在理论研究和试验阶段,未能真正实现对文档语法语义和主题思想和分析,没有从根本上提高分类的精度和效率。如何选择基于文本语义的特征项研究还没有深入的开展,另外,在特征项抽取算法方面也缺少系统而深入的研究成果。目前尝试借鉴语言学技术进行的研究,有从手工输入的特征中学习特征信息及基于WordNet的特征提取等方法,但方法所产生的效果都不理想。未来的研究应更多地运用自然语言理解、人工智能,以及语言学等方面的知识和技术,更深入地分析文档语法语义和主题思想,充分考虑语言中大量存在的同义和多义现象,以及褒贬倾向等在特征提取中起关键作用的因素,提高特征提取和文本过滤的精度。
3 结束语
文本分类将来的研究主要集中在对语义特征的表示和选择上,需要深入分析文档语义和主题思想,探索文本语义的表示模型,研究基于语义的特征选择算法,使分类充分反映样本相似性的本质,提高文本分类的准确性。到目前为止,文本分类技术的发展还有赖于基于语义文本表示和特征选择技术更进一步的发展。
参考文献
[1]Y.Yang,and Pedersen,J.Q.A comparative Study on Feature Selection in Text Categorization[C].In Proceeding of the 14th International Conference on Machine Learning(ICML),1997:412-420.
[2]孙春明.高性能特征选择及文本分类算法研究[D].华北电力大学,2007.
[3]张剑.基于概念的文本表示模型的研究[D].清华大学,2006.
[4]Koller D and Sahami M.Hierarchically classifying documents using very few words[C].In Proceedings of The Fourteenth International Conference on Machine Learning(ICML97),1997:170-178.
[5]陈涛,谢向阳.文本分类中的特征降维方法综述[J].情报学报,2005,12(24),690-695.
[6]晋耀红,苗传江.一个基于语境框架的文本特征提取算法[J].计算机研究与发展,2004,41(4):582-586.
[7]唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38.
[8]赵林,等.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-53.