教育类网站文本信息提取技术分析
2013-09-27郝帅
◆郝帅
1 引言
现代社会互联网已经融入人们生活的方方面面,各种信息资源充斥着人们生活的每个角落。随着互联网的发展,信息资源也在以指数级的速度发展。各种教育类的网站玲琅满目,却使得学习者在网络中获取自己想要的信息变得困难起来。因此,寻找一种合适的检索方法就变得尤为重要了。
在众多的网页资源之中,文本信息始终是最重要的一环,提出一个合适的方法,提取网页中的文本信息,并能够实现通过文本信息对网页进行检索,一定可以大大缩短用户的搜索时间,并提高准确率。
2 文本信息提取相关技术
万维网技术 万维网(World Wide Web),即通常所说Web,最早可以追溯到Tim Berners-Lee提出的“Distributed hypermedia systems engineering”,也就是分布式超媒体系统工程。这个由Berners-Lee于1980年建立的ENQUIRE,被公认为是现代万维网的源头。
经过20多年的发展,万维网形成了一种独特的工作机制,即Client/Server(客户机/服务器)模式,这种机制的工作原理也较为简单:首先用户通过客户端的软件发送请求,客户端的软件会对客户的请求进行初始化,然后将 初始化后的请求发送给服务器,服务器在收到请求之后,响应这一请求并将相关数据发送给客户端。
万维网是一种以DOM结构为基础而建立的模型,早已成为当前网络信息资源的主流。万维网主要是以3个部分作为基础的:首先是HTML,也就是超文本的标记语言;然后是HTTP,即超文本的传输协议;最后是URL,指的是资源定位符。WWW技术可以支持丰富的多媒体,而且管理简便、实现简单,还拥有超高的应用效率,已经成为网络上最主要的应用之一,在教育领域应用十分广泛。
超文本标记语言结构 目前,使用HTML(超文本标记语言)来描述网页已经成为主流。作为一种使用简单且兼容性、迁移性极佳的语言,其使用的“文档格式定义”的概念,可以用于制作包含各种资源的网页,并可以提供各网页之间的链接。
HTML语言设计简单,结构灵活,是Internet上最流行的标准格式。HTML文档是以纯文本文件形式存在的,主要包括4个部分的内容:标记,是指标签符号及其组成元素,由成对出现的开始标签和结束标签组成;属性,一般是对标签进行提供单元的某些信息或补充说明;实体,用于表示被占用的特殊符号;注释,用于标注并不会在客户端显示的内容。
HTML是一种非结构化与半结构化相结合的语言,虽然它将资源数据按照一定的方式进行了组织,但是由于资源本身的数据是非结构的,这就导致了其半结构化的结构模式。
中文分词技术 中文分词技术是中文信息处理的基础与关键,实际上就是把一个句子切成若干个词。和英文不同,中文的句子中词语与词语之间是没有较为显著的分隔的,所以处理起来要复杂得多。在该领域中已经有如下几类算法:以统计为基础的方法,首先对词出现的频率进行统计,不需要构建词典,使用之前对统计好的结果词进行切分,使用起来较为复杂且准确性得不到保证;以字符串的匹配为基础的方法,该方法首先要构建一个分词词典,然后按照正向或者逆向的顺序把一长串汉字中的特定长度的字符串与事先构建好的词典中的词进行比较,一旦发现词典中有这个字符串,就把这个字符串切出来保存为一个词。基于分词速度与精度的考虑,本文采用的分词算法是基于字符串匹配的分词方法逆向最大匹配。
3 教育类网站中文本信息提取系统的设计与实现
相关文本界定 网页中出现的文本信息可进行如下划分。
以上三个部分的内容,基本上涵盖了这个Web的主要信息,利用这三个部分的内容信息,建立数据库,就可以很好地为搜索提供帮助。
相关词典构建 对于中文信息的处理,中文分词词典具有举足轻重的作用。本文中所采用的分词算法是逆向算法,所以构建逆向分词词典,词典包含171 031个词条,包含了日常生活中经常使用的普通词和中小学各个年级、各类学科的关键词;词的排序是将词中首位字相同的词放在一起,然后按词的长度由长到短排列。
系统结构设计 教育类网站文本信息提取过程主要包括两大步骤:首先,搜索网络中的教育类网站,下载教育类网站的网页,并将网页的相关信息存入到教育类网站网页数据库数据表中;其次,对网页数据表里的网页进行处理与分析,进一步提取相关文本,再对相关文本进行中文分词等操作,从而分析提取出用于描述、标引教育类网站的信息,最终形成教育类网站的信息库。本文中采用Visual C++6.0为开发平台,数据库采用Access 2003,系统结构如图1所示。
图1 教育类网站文本信息提取系统结构图
系统各模块的实现方法 教育类网站文本信息提取系统分为四大模块。
1)教育类网站搜集模块。该模块的主要功能是通过使用网页爬行器,在网络中搜索下载教育类网站的网页,并将所搜集到网页的相关信息存放到教育类网站库Edupage.mdb文件中。
2)网页分析文本区域定位模块。该模块首先要对网页的代码进行处理,包括代码转换、头部主体分割,对关键的文本进行定位。
3)文本信息提取模块。该模块的功能主要是提取相关文本,然后对文本进行分词,从而获得可以标注教育类网站的相关文本信息。
4)文本信息以及网页地址存储模块。该模块的主要功能是将前面第三个模块得到的可以标注教育类网站的相关文本信息以及获得相关文本信息的网页的URL存入到相应的数据库中,以建立教育类网站索引库。
数据库结构设计 为了存储搜集的网页信息以及提取的文本信息,建立名为Edupage.mdb的数据库,教育类网站网页数据库数据表的逻辑结构如表1所示。
表1 教育类网站网页数据库数据表逻辑结构
除了上面的网页库数据表之外,还建立了另一个索引数据表用于存放教育类网站的相关信息,以及系统中所提取到的网页中所包含的文本信息,该索引数据表就是本系统最终所要完成的结果。索引数据表完成后,用户可以通过事先制作好的搜索界面输入想要查询的教育类网站的中文关键词,就可以在系统最终生成的这一索引数据表中进行搜索,得到想要得到的结果。数据库索引数据表的结构图如表2所示。
表2 索引数据表的逻辑结构图
4 实验结果分析
利用之前介绍的教育类网站文本信息提取系统,笔者对163个教育类网站进行了测试,该系统可以很好地从这163个教育类网站中提取到相关文本并通过分词形成索引数据表。测试结果表明,该系统可以帮助用户在浏览教育类网站时缩短检索时间,提高准确率。
[1]胡崧.HTML从入门到精通[M].北京:中国青年出版社,2002:9.
[2]DENG Cai, YU Shipeng, WEN Jirong, et al.VIPS: A Vision-Based Page Segmentation Algorithm[R].Microsoft Technical Report, M SR-TR-2003-79,2003.
[3]Raggett D.Clean up Your WEB Pages with HTML TIDY[EB/OL].[2000-8-4].http://www.w3.org/People/Raggett/tidy/.
[4]孟祥增,钟义信.基于语义的WWW图像检索[J].现代图书情报技术,2004(3):35-37.