领域Web文本采集与分类系统研究

2012-06-01洛阳理工学院卫莉莉

电子世界 2012年21期

洛阳理工学院卫莉莉王煜

领域Web文本采集与分类系统研究

洛阳理工学院卫莉莉王煜

本文以机械领域挖掘机为主题，介绍了一种面向领域的Web文本采集与分类系统实现方法，将专业词库与特征选择相结合，逐步筛选和更新主题特征词，扩充专业词库，通过由主题特征词构成的向量来明确表示主题；采用基于内容分析的方法抽取网页正文，去掉干扰主题相关度判断与文本分类的广告、导航等干扰文本；根据现有的机械主题类别信息，采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类。

主题爬虫；特征提取；文本分类；向量空间模型

1.引言

随着互联网的大规模普及和各行业信息化程度的提高，与行业领域相关的Web文本信息快速积累，如何从这些海量信息中定向提取符合需要的知识，是当前信息处理研究领域的一个研究热点，该问题涉及到对领域Web文本信息的采集和对采集到的信息进行处理和数据挖掘两方面的内容。在采集领域相关网页的过程中，主题描述及网页内容的相关性判断，都需要用到文本预处理技术，信息采集成功后，又需要通过文本预处理和分类技术对领域文本进行分类。本文对系统设计中的一些关键问题进行了研究，并以机械领域挖掘机为主题，实现了一个机械领域Web文本采集与分类原型系统。

2.主题爬虫的主题确立

对领域Web文本的采集，其实质就是设计针对某一领域的网络爬虫。专业领域用户一般只关心与其领域相关的一些资源，垂直搜索，专精化，行业化。主题爬虫技术可根据一定的分析方法和搜索策略，选择性的获取与主题相关的Web页面。主题爬虫系统一般包括种子模块、主题确立模块、爬虫爬行模块和主题相关性分析模块四个部分。设计高质量主题爬虫的关键问题是如何保证抓取的网页中与主题无关的网页尽可能的少，对待抓取的主题的准确描述是设计主题网络爬虫的首要任务，也是一项关键任务，这点对于主题相关性判断影响重大。常用的主题描述方法一般有两种，一种是根据人工经验，由用户直接给出一组关键字来描述主题，这种方式简单，也比较准确，但是对用户的专业领域知识要求较高。

另外，当知识更新较快时，极有可能出现漏选的情况。另一种方法为主题代表性文档特征抽取。通过用户提供或者选择一些相关主题的实例文档，由爬虫从中提取用户主题，其实质是通过学习相关领域文档并进行自动特征提取的过程。优点是定义精确，但要求所选取的文档和页面必须具有代表性和概括性，否则可能出现偏差。

3.网页正文提取研究

网页正文提取是网页解析模块的一个难点，也是最为核心的部分。大多数网页中除了包含有用信息（正文）外，还包含网站导航信息、广告、脚本语言等许多噪声信息，如果提取不当，则提取结果可能惨不忍睹，根本没有使用价值。只有真正提取出的正文文本，才是最有价值的，后续的网页相关性判别和网页文本分类才更加准确。

目前已存在一些网页正文提取的方法，比较典型的有基于Dom树；基于数据挖掘或机器学习；基于模板、规则；基于网页内容分块等。Dom树方法虽直观有效，但其树的建立，要求html必须合乎规范，且时空复杂度高，树的遍历方法也不具通用性，需根据html标签的不同而变化。用数据挖掘或机器学习的方法来解决该问题，又把简单问题复杂化了。总体来说，这些方法大多不具备通用性，或实现起来较为复杂，准确度不高。

4.领域文本分类

领域文本具有不同于普通文本的特点。1）分词困难。领域文本专业性较强，常常包含大量的专业词汇，这使得领域文本的分词较普通文本而言更具复杂性。如何设计分词算法，使得专业词汇能够尽可能小的不被划分开来，对后续操作影响重大。通过设计专业词库可以解决这一问题。专业词库的制定应确保其权威性和完整性。本文中所采用的机械专业词库中的词条主要来源于机械专业词典、由机械设计制造研究人员收工录入，还有部分来源于搜狗实验室，经过选择，去重得到的。2）已标记样本较少。在机械类别的文本中，由于没有通用的用于机械领域文本分类研究的实验语料，本研究主要的语料来源为主题爬虫程序所采集到的网页文本，一部分专业文档资料和少量电子版用户需求文档。

5.领域web文本采集与挖掘系统设计

根据上述研究内容，本文设计了一个面向机械领域产品用户需求信息的web文本采集与挖掘系统。系统结构如图1所示。

图1 系统结构图

图2 文本挖掘界面运行图

5.1 机械产品信息的主题描述

本系统主题描述步骤如下：

Step1.由领域专家人工给出一组主题词及其对应权值(t1，ω1：t2，ω2：……：tn，ωn)。本文附录给出了一个由领域研究人员提供的机械领域专业关键词库，可以直接从里面筛选。

Step2.收集有代表性的主题相关度较高的文本文档，进行文本预处理，采用向量空间模型将文本表示出来，对这些文本资料进行特征选择，获得共同拥有的特征作为主题特征词集合。这里的特征选择方法采用基于关联规则的专业特征选择方法，通过改进的灰色关联公式进行关联度计算将多个文档表示信息组合在一起，计算非专业术语与专业术语的灰色关联度，获得专业术语的关联度矩阵；对关联度矩阵进行加权计算，提取出需求的专业术语得到专业的需求描述。

Step3.爬虫程序根据主题词ti进行爬行，采集与之相关的网页，对这些网页进行文本特征提取，选择出权重高的特征词，判断是否已包含在专业特征词库中，若没有，则加入专业特征词库。即更新主题候选词集。

Step4.将得到的主题词存放在topic.txt中。

通过以上步骤，得到主题特征。整个过程是一个不断学习更新的过程，从而实现对主题词集合的不断扩充，提高主题描述的精确度。

5.2 页面采集模块

通过HTTP，HtmlParser，Parser类对从待爬队列waitingQueue取得的URL对应的网页解析，得到网页上的所有链接并通过循环对链接对应的网页解析。首先通过MannerGahter类进行礼貌采集判断，服务器允许采集则可解析出网页上的对应P标签和Title标签的文档信息，然后通过Segment类对文档分词。

对标题及正文的特征项的选取是通过分词后与主题集合匹配，并通过词频计算特征选择来得到与主题向量维数相等的标题向量和正文向量。

计算相关性。首先公式1计算两个表示文本的向量之间的相似度。

分别计算出主题和标题、主题和正文的相关度，然后标题与正文以4：1的比重计算出整个网页与主题的相关度，即4*主题和标题的相关度+1*正文与主题相关度。通过详细计算，设定相关度阈值为75%，网页与主题的相关度大于75%则认为该网页是与主题相关的。最后系统运行界面如图2所示。

6.结语

本文探讨了面向领域的Web文本采集与分类问题，对主题网络爬虫设计中的主题确定，种子URL选择、相关性分析、网页解析与正文提取和搜索策略等问题予以研究，分析行业领域文本的特点，进行恰当的主题描述，选择KNN算法来构造领域文本分类器，设计并实现了一个机械主题Web文本采集与分类原型系统。

[1]J.Han et al..Mining frequent patterns without candidate generation.In Proceedings of the 2000 ACM SIGMOD Conference on Management of Data,Dallas,TX,2000:1-12.

[2]魏松,钟义信,王翔英.中文Web文本挖掘系统WebTextMiner开发[J].计算机应用研究,2005(6)211-213.

[3]沈记全,唐菁,杨炳儒.Web文本挖掘系统及其分类算法的研究与实现[J].计算机工程,2009.03(2):13-14.

[4]CHAKRABARTI S,BERG DEN VAN M.Focused Crawling:A new approach to Topic-Specif i c Web Resourse Discovery[C].In Proceedings of the 8th International WWW conference,Toronto,Canada,1999.

[5]刘国靖,康丽,罗长寿.基于遗传算法的主题爬虫策略[J].计算机应用,2007,27(12):172-179.

[6]Chakrabati S,Punera K,Subram anyam M.Accelerated focused crawling through online relevance feedback,WWW2002,May 7-11,2002,Honolulu,Hawaii,USA.http//www.csberkeley.edu/-soumen/doc/www2002m/p336-chakrabarti.pdf(Accessed Nov.8,2006)

[9]M.Ehrig,A.Maedche.Ontology-focused Crawling of Web Documents.In Proceedings of the 2003 ACM symposium on Applied computing,Melbourne,Florida,June 2003:1174-1178.

河南省教育厅自然科学研究计划项目(No.12B520033)。

卫莉莉（1980—），硕士，讲师，主要研究方向：数据挖掘，自然语言处理。