一种Web信息挖掘的英语阅读选篇分类研究
2009-02-18吴昊
吴 昊
【摘要】随着网络信息化程度的不断提高,英语阅读教学模式也发生了根本性的变化,网络环境下英语阅读教学题材选篇的多样性与灵活性有了质的飞跃。由于目前英语阅读题材选篇多为手工挑选,题材涉及面不够广泛并且任务繁重,提出了一种基于Web信息挖掘的英语阅读选篇自动分类的设计模式,以期利用计算机技术为构建高效实用的英语阅读自动选篇系统提供有效的解决途径。
【关键词】Web信息挖掘;英语阅读;文本分类;结构模型
【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097 (2009) 02—0067—04
引言
信息化的不断推进给信息获得方式带来前所未有的冲击,英语阅读素材的获取也必然要随之进行相应的改进和调整,而有效利用网络资源则是未来英语阅读材料研究的一个重点领域。针对于英语阅读题材选篇的模式单一、手工操作相对繁杂、归类困难和数据量少等问题,本文拟通过一种高效的、灵活的网络文本分类的英语阅读选篇分析方法来给予解决,为实现网上海量数据的英语阅读选篇自动归类给出可供借鉴的依据,并提出一种实际有效的解决方案。
为了从海量数据中发现有效、新颖、潜在有用、可最终理解的模式,数据库领域引入了数据挖掘(Data Mining)[1,2]。由于数据挖掘的缺陷,Web 挖掘技术(数据挖掘技术跟 Web技术相结合)作为一种新技术逐渐得到重视。有研究表明,在海量的Web信息资源中,有80%以上的信息是以文本的形式存在的,因此隶属于Web内容挖掘的Web文本挖掘显得尤为重要[3,4]。Web文本挖掘就是从 Web 文档和 Web 活动中发现、抽取感兴趣的潜在的有用模式和隐藏的信息的过程。因为Web文档中的标记给文档提供了额外的信息,所以提高了Web文本挖掘的性能,而Web 文本挖掘是文本挖掘的主要研究内容。Web文本挖掘对我们充分利用Web信息资源很有帮助,能够使人们比较准确找到需要的资料,同时还可以节约搜索时间,提高Web文档的利用价值等。Web文本挖掘可以对Web文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。
随着Web文本分类技术在信息检索、智能搜索引擎和文本分类器的构造等领域的广泛应用[5],Web文本分类的研究己经成为信息处理的一个前沿课题,有着广泛的应用前景和重要的研究意义,它的研究和应用对于英语阅读题材的分类和归纳也具有相当重要的作用。
一 Web信息挖掘
1 Web信息挖掘及其分类
Web是一个巨大的、开放性、动态性、广泛分布、相互联系并且不断进化的信息仓库[6]。它也是一个巨大的文档累积的集合,包括超链接信息、访问及使用信息,资源分布分散,这样一来也就导致了信息获取的困难。Web信息挖掘是指对目标样本进行特征分析,并且据此从Web文档和Web活动中抽取人们感兴趣的、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。人们利用Web信息挖掘技术可以从Web海量的数据中自动地、智能地抽取隐藏在这些数据中的知识。但如何满足各种用户不同的个性化需求,却成了新的信息服务系统面临的具有挑战性的课题[7]。Web信息挖掘的一种比较流行的分类方法见图1。
根据Web信息挖掘的数据对象,将Web挖掘分为3 类:Web内容挖掘(Content Mining) 、Web结构挖掘(Construct Mining) 、Web使用挖掘(Usage Mining)。这里Web内容挖掘又可以分为Web文本自动分类和Web搜索结果归纳,本文将主要研究其中一个分支Web文本自动分类,并结合英语阅读自动选篇进行分析。
2 Web信息挖掘的流程
本过程主要涉及四个方面问题:数据收集,数据选择及特征提取,模式发现,模式分析。其流程如图2所示。
(1)数据收集。找到Web信息挖掘的数据源,通过预先设置的URL路径找到合适的信息资源。
(2)数据选择和特征提取。针对取得的Web信息资源,剔除无用信息,并将信息按特定要求进行特征提取。
(3)模式发现。利用合理有效的挖掘算法,自动对上一步整理完成的内容进行深入分析,发现其中蕴含的模式。
(4)模式分析。验证、解释上一步骤产生的模式,并对挖掘出来的模式、规则进行分析,找出其中蕴含的读者感兴趣的模式和信息。
3 Web信息挖掘技术手段
Web信息巨大,要有效处理这么大的数据量既要考虑系统运行时的时间复杂度,也要考虑空间复杂度,结合二者并加以合理分析利用才能使系统的整体性能真正提高。在Web信息挖掘技术手段方面当前主要涉及以下几点:
(1) 统计分析。它是一种重要的数据处理技术[8],根据现有大量数据应用统计分析的方法进行归纳、解析,从而找出某类数据的分布规律。
(2) 关联规则。关联规则是表示数据库中一组对象之间某种关联关系的规则[9]。
(3) 文本分类。文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。
(4) 文本聚类。文本聚类没有预先定义好的类别,它能够从信息本身出发,自动进行分类,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。
二 英语阅读Web文本分类
1 特征表示
Web文本信息的特征表示,是指自动地从Web 文本信息中抽取出代表英语阅读内容主题的特征词条,形成特征矢量来表示英语阅读素材的Web文本。抽取文本特征一般需要先移除HTML标签或其它标识、删除停用词、执行词根化等。由抽取的关键词形成的特征矢量表示特定的英语阅读文档。文本特征分为描述性特征和语义性特征。
对于一篇英语阅读题材来说,词是题材篇章表意的最基本单位,也是能够反映内容的最主要特征,一篇文章中使用的词,在某种程度上可以代表文章的内容。目前英语阅读题材的表示模型有很多,其中最普遍使用的是向量空间模型(Vector Space Model)。在这种模型中,每篇英语阅读题材被表示成特征向量:
式(1)
其中:fi为特征词条,wi ( d)为特征词条fi在题材中的权重[8]。可以将英语阅读题材d中出现的所有词作为fi,然而这样做会使得特征向量的维数特别高,特征不明显,计算复杂。英语阅读题材的内容主要是由动词、名词、形容词等实词决定的,虚词和一些在所有题材中均出现的高频词对分类是没有任何意义的,所以需要进行有效特征表示,降低特征空间的维数,以达到降低计算的复杂度、提高分类准确率的目的。然后对初始特征向量通过统计的方法提取有效特征。
2 特征相似度的计算
利用特征向量空间模型进行英语阅读题材分类时,通常是先计算出待分类题材与每一种题材类别之间的相似度,然后取相似度最大的类作为待分题材的归属类。一般相似度的计算公式采用两个特征向量间的余弦夹角来表示:
式(2)
其中:Wik、Wjk分别表示题材di和类cj第k个特征项的权值。
3 英语阅读文本分类方法
如前所述,当前许多基于向量空间模型的Web文本自动分类方法均是通过比较某个网页与所有类之间的相似度,将相似度最大的类作为网页的归属类。
对于任意给定的一篇阅读题材,设定合适的阈值是正确分类的关键,阈值设定过小会导致分类数太多,而设定过大会导致识别不出是哪一类,因此本文根据每个待分类题材与各个类的相似度的实际情况动态地计算出一个阈值。这样每个待分类题材在分类时使用的阈值是不相同的,不是固定的。这里预先将动态阈值设定为所有相似度的平均值,即:
式(3)
为了使设定的阈值尽量偏向于相似度较大的类别,以减少错误划分,本文给每一个相似度分配一个权重 ,其计算方法如下:
式(4)
则动态阈值 。
通过计算出的动态阈值λ,比较每一个相似度与λ的大小,如果Si>λ,则英语阅读题材d属于第i个类。
三 英语阅读语料选篇实验
1 语料集的选择
英语阅读语料集是在网上各大英语类网站上进行收集的。常用经济网站有:金融时报、财富、远东经济评论、福布斯、商业周刊等;新闻类网站有:CNN、BBC、华盛顿邮报、泰晤士报、今日美国、观察家、每日电讯等;英美周刊杂志网站有:每周标准、ESL港湾、沙龙、外交事务杂志、新共和、国家评论、外交政策、民族等;时事类网站有:安全政策研究中心、世界各国地图、卫星照片、网上各国政府资料等;综合类网站有:华尔街日报、南华早报、俄罗斯周刊、时代周刊等。其题材十分广泛,涉及体育、教育、财经、工业、农业、法制、交通、科技、军事、环保十个方面的内容,这里一共选择了3000篇文档资料用于实验,一半用于训练,另一半用于测试。实验文档类别构成如表1所示。
2 评价标准
进行Web文本分类的最终目标都是为了尽可能地得到最满意的结果,所以对分类结果的评价才是真正衡量一个分类系统好坏的最终标准。本文目前所做的工作大都是基于试验性的,所用的语料或者仿真数据都是已知类别数及其样本数,所以在我们用分类算法对那些特定语料库(已知分类结果)做分析时就可以参照在信息检索、文本分类中经常应用的一些评价方法。衡量传统信息检索系统的性能参数是准确率(文档集中正确归类的文档数占所有被分入该类文档总数的百分比)和召回率(文档集中正确归类的文档数占该类文档总数的百分),同时也是衡量分类算法效果的常用指标[9]。本实验中使用准确率和召回率两个常用的文本分类评估测试值。
3 实验分析
针对表1中的实验数据选取其中的1500篇文档用于实验测试,由于一开始搜集的文档是HTML格式的,所以要经过预处理,转换为合适的空间向量模型才能进行文档分类。实验结果如表2所示。
从表2的测试结果可以看出,本文方法对英语阅读题材分类达到了满意的分类效果,平均准确率和平均召回率分别为92.5%和92. 3%。这里获得的准确率和召回率均有较好的表现,因此本文的研究方法是可行的。
四 结束语
随着Internet在全世界的普及和广泛应用,网络信息成为人们取之不尽的信息来源。然而大部分可以获取的信息是以电子形式存在的,尤其是以Web文本方式存在居多。英语阅读手工选篇已经不再适应日益增加的海量数据的处理需求,人们需要能够自动完成Web文档相应题材选篇的技术,这就要求进行正确有效的文本挖掘。近年来针对英语阅读的文本挖掘已经逐渐成为研究的新课题,并取得了一些成果。
英语阅读选篇由于分类自身的难度和Web数据自身的特点,其性能还有待进一步完善。如需要研究更高效的降维方法来提高分类的质量;需要有效降低时间消耗成本;需要进一步的研究分类搜索引擎,进而把文本分类应用到搜索引擎中,提高信息检索的效率。
本文主要阐述了基于Web信息挖掘的英语阅读自动选篇的分类研究方法,给出了系统实现的一般设计流程,通过实验数据验证了这种方法有较好的准确率和召回率。
参考文献
[1]Iawei Han and Micheline Kamber, Data Mining: Concepts and Techniques[J].Morgan Kaufmann Publishers, 2001
[2]Olivier Vandecruys, David Martens, Bart Baesens, Christophe Mues, Manu De Backer, Raf Haesen, Mining Software Repositories for Comprehensible Software Fault Prediction Models Journal of Systems and Software Vol. 81, Nb. 5, pp. 823-839, 2008
[3]BAI Jing, NIE Jianyun, CAO Guihong. Integrating compound terms in Bayesian text classification[C]//Proc of IEEE /W IC/ACM International Conference. 2005: 598-601.
[4]LI Baoli, LU Q, YU Shiwen. An adaptive k-nearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing,2004,12(31):215-226.
[5]E.Kirkos,C.Spathis and Y. Manolopoulos, Applying data mining methodologies for auditor selection, Proceedings 11th Pan-Hellenic Conference in Informatics (PCI), Patras, Greece, 2007, pp. 165–178.
[6]Magdalini Eirinaki, Michalis Vazirgiannis, Web Mining for Web Personalization [J].ACM Transactions on Internet Technology, 2003.
[7]He B,Tao T, Chang K. Clustering structured Web sources: A schema-based,model-differentiationapproach[A].International Workshop on Clustering Information over the Web [C]. Crete, Greece, 2004.
[8]MODHA D S, SPAN GL ER W S. Feature weighting in K-Means clustering[J]. Machine Learning, 2003, 52(3): 217-237.
[9]Ma ZhongMiing, Gautam Pant, Olivia R Sheng. Interest-Based Personalized Search [C] //ACM Transactions on Information Systems. New York: ACM, 2007.