基于Web的动态语料库构建*——以中国政治新闻语料库建库为例<br/>

基于Web的动态语料库构建*——以中国政治新闻语料库建库为例

2013-05-28韩朝阳

中国教育技术装备 2013年23期

◆韩朝阳

作者：韩朝阳，硕士，上海杉达学院嘉善校区副教授，研究方向为语料库语言学、计算机辅助外语教学（314100）。

网络能为语料库的构建提供丰富实时的语料。由于不同网站的结构不尽相同，网页内容又呈现结构化和半结构化特征，这使得如何从网络汲取语料成为基于网络构建语料库的首要问题。同时，如何对汲取后的语料进行整合和组织，也是基于网络构建语料库不容忽视的问题。以基于网络构建动态中国政治新闻语料库为例，从网站结构分析、网页下载以语料汲取的技术实现、语料的XML结构化重组等方面，阐述如何在软件的辅助下从中国日报网站自动汲取语料并构建语料库的实现过程。

政治新闻语料库不仅要具有时效性，而且要具有真实性和权威性。其时效性就是指在构建语料库时要及时采集那些实时新闻报道语料；真实性和权威性则要求采集的新闻语料一定要出自权威机构。

随着现代信息技术的发展和普及，网络（Web）已成为目前容量最大、速度最快的信息传播平台。网络语料的时效性是传统媒介（如报纸、期刊等）无法比拟的，网络无疑应为政治新闻语料的主要采集地[1]。就政治新闻的权威性来讲，目前，大家比较认可的发布中国政治新闻英文报道的权威网站主要有新华网（English.news.cn）、人民网（English.peolopledaily.com.cn）和中国日报网（Chinadaily.com.cn）等[2]。

通过对这三家网站的分析比较，笔者发现：1）就新闻的英文报道本身的来源看，这三家网站经常互相引用，从而可只关注一个网站也能在一定程度上满足语料采集抽样的平衡性；2）目前只有中国日报网有一个专门报道中国政治新闻的频道（china/politics），且每篇新闻报道的HTML页面中还包含该篇报道的摘要、关键字等信息，而这些信息可为采集的语料提供更为丰富的标注内容。因此，笔者认为，对于中国政治新闻语料库的创建，可以基于中国日报网的中国政治新闻频道来采集语料。

本文将从中国日报网政治新闻频道的结构分析、网页下载、语料汲取、语料XML结构化重组等方面，详细介绍如何基于该网站设计开发一个能够实现自动构建动态实时中国政治新闻语料库的计算机软件。

1 中国日报政治新闻频道结构特征分析

中国日报的中国政治新闻频道（以下简称政治新闻频道）采用“列项页（list page）”和“具体内容页（content page）”的二层结构模式进行新闻内容的导航。列项页中列出每篇新闻的标题，通过鼠标单击其中的一个标题项，即可进入包含该篇新闻详细报道的具体内容页。该结构模式也是目前其他新闻类频道最常用的模式之一。有些学者又把“列项页”称为“多记录页”，“具体内容页”称为“单记录页”[3]。

政治新闻频道采用“先进先出”的队列原则，即该频道始终只提供200个“列项页”，除第1页的URL地址为“http://www.chinadaily.com.cn/china/governmentandpolicy.html”外，其他页面分别按照页码进行有规则编排，如第2页的URL（Uniform Resource Locator，指网页的链接地址）为“http://www.chinadaily.com.cn/china/governmentandpolicy_2.html”，第3页的URL为http://www.chinadaily.com.cn/china/governmentandpolicy_3.html。同理，第200页的URL为“http://www.chinadaily.com.cn/china/governmentandpolicy_200.html”。以此为规律，可设计软件实现自动生成每个“列项页”的URL，并循环下载所有政治新闻频道的“列项页”[1]。

虽然不同网站“列项页”的内部结构不尽相同，但一般情况下，同一个网站特别是同一频道下的所有“列项页”的结构相同[4]。同样，政治新闻频道的200个“列项页”的内部结构框架也是相同的，如每个页面都只有12条列项（标题），每个列项的html标签（tag）也相同等。因此，可设计软件实现自动解析每个“列项页”的内容，从而批量获得各个“列项页”的所有政治新闻报道的标题以及与这些标题对应的“具体内容页”URL。

同理，根据“具体内容页”的URL，可设计软件实现自动获得每个“具体内容页”。由于多数大型网站在上传文本数据（如新闻报道的内容）时一般都采用确定内容格式的上载工具，所以这些同一类数据内容在浏览器中展示时也会采用相同的HTML结构格式。通过观察分析，发现政治新闻频道的“具体内容页”也没有例外，它们同样采用相同的HTML结构格式来展示新闻内容。因此，可设计软件实现自动解析“具体内容页”的内容，并汲取到目标语料。

通过以上的观察和分析，笔者认为通过设计开发软件来对政治新闻频道提供的语料进行自动汲取具有一定的可行性。下面是设计的通过软件实现自动汲取语料并构建中国政治新闻语料库的主要流程步骤：

步骤1：下载“列项页”；

步骤2：汲取“列项页”中的信息，创建“具体内容页”的URL列表；

步骤3：开始循环下载URL列表中每个列表项对应的“具体内容页；

步骤4：汲取“具体内容页”中的有用语料信息；

步骤5：按照统一的XML结构重新组合这些语料信息；

步骤6：把包含语料信息的XML文件保存到相应的位置；

步骤7：判断URL列表是否循环完毕，若没有执行完毕就继续从步骤3开始，否则结束本次操作。

2 网页下载

网页下载是指软件根据给定的URL，自动从网络上把与该URL对应的网页内容以数据流的形式下载到本地计算机，然后以文本形式重新编码并输出，其机理为：1）软件通过网络向给定URL所在的服务器发出下载请求并与该服务器建立数据通道；2）服务器对下载请求验证审核后，通过数据通道向软件提供URL对应网页内容的数据流；3）软件接收数据流后，对数据流以文本的形式进行重新编码并输出[1]。

在网页自动下载模块开发过程中，通过使用C#程序开发语言，编程并调用微软.net平台提供的HttpWebRequest[5]和HttpWebResponse[6]两个类中的Create方法和GetResponse方法，实现软件自动向中国日报网站服务器发出下载请求、建立数据通道以及接收数据流等功能，从而实现软件自动从中国日报网站下载相应的网页。

在中国政治新闻语料库构建过程中，主要有两个地方需要调用网页自动下载模块，分别是下载指定的“列项页”和下载指定的“具体内容页”。以下载政治新闻频道的第一个列项页为例，在建库过程中，只需向网页下载软件模块提供表示第一个列项页的URL字符串（http://www.chinadaily.com.cn/china/governmentandpolicy.htm），网页下载软件模块就会自动向中国日报网站的服务器发出请求并下载到该页面的HTML文本[1]。

3 网页内容解析

由网页下载软件模块下载的“列项页”HTML文本和“具体内容页”的HTML文本不仅包含需要提取的信息，同时包含HTML标签以及其他信息（如广告等）。这就要求开发能够解析这两种HTML文本的软件模块来自动汲取需要的内容。HTML文本是有一定结构的文本，找出它们内部的结构特征，就可编写软件，利用正则表达式自动提取出需要的文本内容[1]。