介绍了中文网页分类的概念和过程,分析比较了中文网页分类的主要方法和关键技术,简述了实验数据集和实验方法,并讨论了网页分类研究存在的问题和未来的研究方向.
网页分类可以帮助用户从海量的网页中迅速、准确的找出所需要的信息,是有较大实用价值的关键技术.网页分类是在文本分类方法的基础上,充分考虑网页自身的一些特点进行的,在分类时除了网页文本内容外,网页中所包含的如HTML标签(tag)、主题及超链接等半结构化信息都将被考虑利用.而且如何利用网页自身的特点来提高分类精度也成为近年来网页分类领域研究热点.目前对于网页分类有很多研究,本文对网页分类的相关研究做了一个概述,以便更好地进行深入研究.本文将对网页分类的过程、网页分类的主要方法、网页分类的关键技术、网页分类的实验数据集和实验方法进行概述,并讨论了网页分类研究存在的问题和未来的研究方向.
网页分类就是根据预先定义的类别标签,为待分类网页集合中的每一个网页确定一个类别[1].
网页分类过程一般如下:首先通过训练一定的网页集合得到类别与未知网页的映射规则,即计算出网页与类别的相关度,再采取一定的阈值策略决定网页的类别归属.分类过程可以分成训练阶段和分类阶段.训练阶段首先为预先确定的分类体系中的每个类别人工挑选一定量的样本,用来最大程度地体现每个类的特征并区别不同类之间的特征.然后将所有样本都表示成向量形式,运用分类算法,建立分类器.在分类阶段中,一个待分类的中文网页经过中文分词并表示成向量后,利用训练阶段得到的分类器将新网页归到某一个或几个最有可能的类别.
国内对自动文本分类领域的研究是从九十年代中期开始的[2-4],研究也比较成熟,有很多成熟的分类算法应用于分类.不过国内对于网页分类的研究就比较薄弱了,北京大学和清华大学是较早开始研究网页分类技术的机构,它们各自将网页分类技术应用在搜索引擎“天网”和“网络指南针”上.从2004年6月起,北京大学网络实验室和北京大学计算语言学研究所建立并维护的信息检索研究论坛(CWIRF),对中文网页分类的研究起了很大推动作用[5].目前,研究者们针对中文网页分类提出了一些解决方法,一种方法是在网页分类前,先对网页进行预处理,即将网页中所包含的如HTML标签、主题及超链接等结构信息去除,然后利用文本分类方法对内容信息进行分类[6].这种分类方法的分类精度取决于网页去噪技术的优劣[7],而且缺陷是:一个网页具体被分到哪一类,取决于该网页中包含了哪些反映自身主题的信息,这样,当网页中没有包含能说明自身主题的关键词时,如链接型网页,就很难对其进行正确分类了.另一种方法是分类时不光考虑纯文本信息,还考虑其他半结构化信息,如标题、页面描述、关键词和超链接等.因为这些半结构化信息中出现的关键词包含了网页的重要信息,对分类有较大的作用,所以可以充分利用这些半结构化信息,通过调节这些关键词的权重来对网页进行自动分类.一些研究也验证了这种方法的有效性,Lin Shian Hua等人将网页中的信息按照
标签划分为不同的信息块,通过信息熵的计算将其划分为有用的或冗余的信息块,对冗余信息块中的特征项赋予较低的权值,减小它对分类结果的影响[8].同样网页间的链接对于网页分类来说蕴含着重要的信息,因为网页编辑时,这个网页中的链接或多或少体现了编辑者对链接页面的认同,反映了网页与链接页面之间的某种相关性,大量研究也证明了利用相关网页调整分类结果可以有效提高分类精度.任玉、樊勇等根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块,有效地实现了链接型和主题型网页的分类[9];Yang Y、Glover EJ、Furnkranz J、Kan MY[10-13]等人在各自研究中利用超链接中的锚词(anchor word)或其周围的词语(扩展锚词)作为特征来表达超链接所指向的文本;郭淼霞、吴扬扬提出基于Web超链接结构信息的网页分类方法,充分利用WEB结构信息,提高分类精度[14].也有研究者认为网页是包含噪音信息的半结构化文本,所以可以将网页分类看成是噪音环境下的文本分类,研究[1]通过对比实验,找到了一种抗噪音的网页分类算法.目前,在分类时,如何恰当地表示网页的结构化信息,是一个仍需继续研究的问题,而且.人们对网页分类的研究也从传统的基于网页内容转向利用网页的内部结构及外部链接关系.3 网页分类关键技术
3.1 预处理技术
在网页分类研究中,网页预处理是一个很重要的步骤,对网页的预处理过程主要涉及噪音去除和主题相关信息提取等技术.Lan Yi将网页噪音分为全局噪音和局部噪音[15].一般分类研究只涉及局部噪音的去除.网页去噪的方法主要有:基于启发式方法、基于机器学习方法以及在机器学习方法中采用启发式规则辅助的方法[16].基于启发式方法是通过一些启发式的规则判断网页中哪些是有用信息,哪些是噪音信息[7],不过因为网页格式的多样性,基于启发式方法通用性不强,效果往往不能令人满意.目前,研究者大多使用在机器学习方法中采用启发式规则辅助的方法进行去噪.王建冬提出一种基于内容规则的网页净化算法.先通过迭代的方式对于网页中的噪声内容进行剥离,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,该方法在一定程度上考虑了网页的语义因素[17].Yi Lan将同一个网站上各网页的DOM树进行合并压缩,形成CST(Compressed Structure Tree),用以发现和去除网页中的噪声,并根据CSS树对处于不同位置的特征赋予不同的权值,以提高分类的精度[18].万乐等提出提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块,该方法噪音去除精度是87%[19].Ji Xiang-wen等提出了一种基于树相似度的模板生成方法,并将生成模板用于页面结构信息的提取,其模板生成较为复杂,在提取简单页面信息时代价过大[20].
对于主题相关信息的提取,一般和去噪同时进行,任玉、樊勇等提出一种网页主题文本信息的抽取策略,以网页的文本内容特征为依据识别链接型和主题型内容块,能准确地完成主题型网页的文本信息块的抽取任务[9].文献[14]在去噪的同时提取文本信息和超链接信息,所提取信息对分类精度的提高,均在分类试验中得到验证.
3.2 文本模型
向量空间模型(VSM)是基于统计的网页分类系统中广泛采用的文本计算模型.向量空间模型可以将给定的文本转换成一个维数很高的向量.向量空间模型最突出的特点是可以方便的计算出两个向量的相似度,即向量所对应的文本的相似性.目前VSM仍是文本表示的主要方法,也有研究者进行新的尝试.曾致远、张莉提出一种新的文本表示算法,应用在网页文本过滤系统中.比起传统的向量空间模型,这种建立在其上的改进算法有更快的过滤速度和更高的过滤精度.该算法直接从过滤模板的特征集中取出词条,只在网页文本出现该词的地方进行精确处理.根据特征项所在的网页标签,赋予不同的权值系数,以准确定义特征词在文中的重要程度,最后建立该网页的文本表示模型[21].目前为止,非VSM的表示在理论上的合理性及面对实际应用的可扩展性还需要深入验证,适合它们的分类方法比较单一,而且未得到广泛的应用.
3.3 特征选择
特征选择是网页分类过程中的关键技术.特征选择的主要方法是利用数学工具降低模式维数,寻找最有效的特征构成较低维数的模式向量.中文文本分类的特征空间所采取的特征选择算法一般是构造一个评价函数,对特征集中的每个特征进行独立的评估.这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集.所以,选取多少个最佳特性以及采用什么评价函数,都需要针对某一个具体的问题通过试验来决定.常用的评估函数有:特征频度(Term Frequency)、文档频度(DocumentFrequency)、特征熵(Term Entropy)、互信息(Multi Information)、信息增益(Information Gain)、X2统计量(Chi square)、特征权(Term Strength)、期望交叉熵(Expected Cross Entropy)、文本证据权(Weight of Evidence for Text)、几率比(Odds Ratio)等.这些评估函数从不同的角度度量特征对分类所起的作用,以上方法各有利弊,没有哪种方法对分类效果有绝对优势,这是因为文本分类本身涉及到训练数据集合本身的特点,同时不同的分类器对文本分类的效果也不尽相同.
在网页分类研究中,研究者们往往根据网页特点,对传统特征提取算法做相应改进,以适应网页分类需要.谷峰提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,该方法运用改进的 PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等[6].李会、王立峰提出了一种特征选择方法:首先计算文本的特征值,每个特征值被赋予一个权重值,权重值的大小表示文本特征的重要程度,权重值最大的特征为决定性特征,决定性特征能代表某一类;然后通过构造树结构模型来消除噪音文本,同时还可以降低计算复杂度;最后改进该算法,动态的检测相对于当前节点的最佳节点更有利于进行特征选择.实验结果表明,该方法具有较高的分类精度,且计算成本较低,符合规模Web自动分类的需要[22].目前对于特征选择方法的研究要针对于中文网页的特点,结合特定的分类算法进行.
3.4 网页分类算法
网页分类算法大都来自文本分类算法,常用的网页分类算法有以下几种:kNN 算法、NB(Na觙ve Bayes)算法、基于SVM的分类算法、遗传算法(GA)、Rocchio算法等.这些算法在文本分类中都有较好分类效果,但是直接应用于网页分类时,效果就差强人意了,这是因为网页是包含噪音信息的半结构化文本.有研究者尝试寻找能抗噪音的分类算法,王小冷、王斌把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(Nbayes)和基于分词的k近邻kNN 分类方法应用到网页分类领域,通过实验证明NGBayes的分类性能远高于其他两种算法,是一种抗噪音的中文网页分类方法[1].但是更多的研究者则是充分利用各种分类算法的特点,结合多种分类算法进行分类,以提高分类精度.刘晓勇将遗传算法(GA)和支撑向量机(SVM)结合起来,利用遗传算法良好的寻优能力优化SVM的分类性能,实验表明,新算法的分类正确率较SVM有显著提高[23].
4 网页分类实验与方法
4.1 采用的实验数据集
目前,由于没有统一的数据集,大多研究者在研究中均采用自己建立的数据集做实验和研究基础,郭淼霞等从互联网上收集组成了实验数据集,包括126个财经类网页、114个旅游类网页、101个中医类网页,共3个类别,341个网页,以及从www.yahoo.com.cn搜索引擎上下载的它们的邻居网页,共1705个网页.从而在这个数据集上作相关的实验[14].不过,幸运的是,目前已有一些研究机构开始建立数据集,供研究者使用.从2004年开始,北京大学中文WEB信息检索论坛提供数据集CCT2006和CCT2002-V1.1供研究者进行分类实验,已有很多研究[1,6,7]采用该数据集做实验和研究基础.也有相关研究[19]以sogou labs提供的语料库为研究基础.不过由于目前还没有形成统一、标准的数据集,所以各研究的实验结果没有可比性和可重复性,不便于交流与提高.
4.2 采用试验方法
网页分类中评估分类效果常用的评估指标[24]有:准确率、查全率和F1测试值,另外还有微平均,宏平均评估指标.准确率和查全率反映了分类质量的两个不同方面,结合两者提出一些综合评估指标,像F1测试值.微平均指计算每一类的准确率、查全率和F1值.宏平均指计算全部类的准确率、查全率和F1值.
网页分类研究大多数都采用这些指标评估分类效果,研究[1]利用MacroF1评估分类效果,研究[14]采用准确率、查全率和F1值评估分类效果,研究[22]利用正确率对分类效果进行评估.
5 存在问题和研究展望
中文网页分类是实用的关键技术,可以帮助用户避开互联网上繁杂的信息,准确找到所需要的信息.由于中文网页的特点所限,目前中文网页分类技术的研究还很薄弱,需要解决的问题还有很多,首先由于没有统一、标准实验数据集,导致实验结果没有可比性和交流不便.所以建立统一、标准的数据集势必会促进中文网页分类的研究.其次特征选择要针对于中文网页的特点,结合特定的分类算法进行更深入的研究.最后,如何有效地利用Web页面的链接结构信息对文档进行表示和分类也是需继续研究的课题.
6 结束语
本文对网页分类的过程、主要方法、关键技术、实验数据集和实验方法进行了概述,讨论了网页分类研究存在的问题和未来的研究方向.
〔1〕王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54.
〔2〕吴军,王作英,等.汉语语料的自动分类[J].中文信息学报,1995,9(4):27-32.
〔3〕黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153.
〔4〕邹涛,王继成,黄源.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32.
〔5〕HTTP://www.cw irf.org/.
〔6〕谷峰,刘晨曦,吴扬扬.基于序列数据挖掘的中文网页特征选择方法[J].山东大学学报(理学版),2006,41(3):95-98.
〔7〕刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报:自然科学版,2007,25(2):61-63.
〔8〕Lin Shian-Hua,Ho Jan-M ing.Discovering Informative Content Blocks from W eb Documents[A].Proceedings of theeighth ACM SIGKDD International Conference on Know led geDiscovery&Data M ining[C].New York,USA:[s.n.],2002.588-593.
〔9〕任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报:自然科学版,2009,27(1):141-144.
〔10〕Yang Y,Slattery S,Ghani R.A study of approaches to hypertext categorization.Journal of Intelligent Information Systems,2002,18(2-3):219-241.
〔11〕Glover EJ,Tsioutsiouliklis K,Law rence S,Pennock DM,Flake GW.Using web structure for classifying and describing Web pages.In:Proc.of the Int’l Conf.on the W orld W ide W eb(WWW-2002).Honolulu:ACMPress,2002.562-569.
〔12〕Furnkranz J.Exploiting structural information for text classification on the WWW.In:Hand DJ,Kok JN,Berthold MR,eds.Proc.of the Advances in Intelligent Data Analysis.Springer-Verlag,1999.487-497.
〔13〕Kan MY,Thi HON.Fast Webpage classification using URL features.In:O tthein H,Hans JS,Norbert F,Abdur C,W ilfried T,eds.Proc.of the 14th ACM Conf.on Information and Know ledge Management(CIKM-05).Bremen:ACM Press,2005.325-326.
〔14〕郭淼霞,吴扬扬.基于W eb超链接结构信息的网页分类技术研究[J].泉州师范学院学报,2008,26(4):25-29.
〔15〕Lan Yi,Bing Liu,Xiaoli Li.Eliminating noisy information in W eb Pages for data mining[C]//Proc of the 9th ACM SIGKDD Int Conf on Know ledge Discovery and Data M ining.New York:ACM,2003:296-305.
〔16〕毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025,2036.
〔17〕王建冬,王继民,田飞佳.一种基于内容规则的网页去噪算法[J].现代图书情报技术,2008,162(3):51-54.
〔18〕Yi Lan,Liu Bing.W eb Page Cleaning for W eb M ining throughFeature W eighting[A].Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence( IJCAI-03 [C].Acapulco,Mexico:[s.n.],2003.654-656.
〔19〕万乐,左万利,高金.基于主题的网页噪音去除机制[J].计算机工程与设计,2008,29(8):2072-2084.
〔20〕JIXiang-wen,ZENGJian-ping,ZHANG Shi-yong,et al.Tag tree template for Web information and schema extraction [J].Expert Systems w ith Applications,2010,3(12):8492-8498.
〔21〕曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-139.
〔22〕李会,王立峰.W eb网页文本特征选择方法研究[J].计算机工程与设计,2010,31(16):3724-3727.
〔23〕刘晓勇.基于GA与SVM融合的网页分类算法[J].辽宁工程技术大学学报(自然科学版),2010,29(5):953-955.
〔24〕Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization.KDD-2000 Sixth ACM SIGKDD International Conference on Know ledge Discovery and Data M ining,Boston,MA,UA,2000.
TP391.1
A
1673-260X(2011)12-0051-03