APP下载

XML文本的标准化

2016-07-10孙温稳

电子技术与软件工程 2016年7期

本文针对文本信息资源的特征,提出了一个基于XML的文本信息可视化的通用模型,详细介绍了模型的三个对象空间--XML文档库、XML特征库和可视化对象以及三项关键技术--中文分词、文本分割和可视化映射,并结合实例验证了模型的实用性、易扩展性以及可移植性。

【关键词】XML 多种语言 文本规范化

1 前言

计算机应用技术领域的文本集合可视化系统,包括:文本采集模块、中文分词模块、词语权重计算模块、XML文件组织模块、可视化图形界面模块,其中XML文件组织模块负责将词语权重计算模块传入的数据以设定的数据结构组织成XML文件保留在本地计算机,并为可视化图形界面模块提供读取文本数据结构化处理后的结果。本项目着重研究的是XML文件组织模块,主要为语言方面工程服务开发一个多用途的多语种并行的文本语料。原始语料有各种来源,如HTML或ASCII。一般来说,对于一个给定的任务,建立一个新的语言模型需要一个特殊任务的语料库,这意味着需创造一些新的文字处理和一些新的数据副本。为了简化这个过程,我们将提出了一种格式,这种新格式可以让我们轻松地创建一个具体的语言模型,将数据从原始类型转成XML形式,而且这种规范化的格式也可以用到其它方面如:统计语言学,信息检索,机器翻译等等。

2 XML格式步骤

本文着重讲述如何从中文网页中抽取信息并将其规范化为XML格式,这需要八个步骤:

(1)将HTML文件转化成为半结构化的文本形式。

(2)将半结构化的文本形式转化成为XML形式。

(3)将语句划分成为字符和空格。

(4)进行一些相应地替换。

(5)分割成为中文的字符。

(6)将中文的字符粘贴成为词和短语。

(7)转换阿拉伯数字为中文字符。

(8)删除标点符号。

第一步:HTML文件转化成为半结构化的文本形式

在这一步中输入的文件为HTML文件,输出的内容为XML文件,包括XML类标题、keywords、title,”<><> “表示一个新的段落开始,”<>” 表示一个新的句子开始。目标文件内容格式如下所示:(以新浪网页作为原始的HTML文件)

新闻 时事 时政

<><>

娱乐圈穿帮镜头集锦 实拍各地08初雪 下调漫游费听证会举行 <>

<><>

第二步:半结构化的文本形式转化成为XML形式

这一步可将文本形式文件转换为XML形式。在中文的段落中,句子是以句号结尾的,所以句号可作为一个分离器,可将每一个段落分离成为多个句子。在XML文件中加入一些标签,如中放置被分离的句子。放置句子个数的计数器。如下所示:

娱乐圈穿帮镜头集锦

第三步:将语句划分成为字符

所采用的原理是将每一个句子分割成为一个个的中文字符,先为每个中文字符添加空格,

同时往目标文件中增添一系列的标签如,将字符加入到相应的标签中。如下所示:

娱乐圈穿帮镜头集锦

第四步:进行一些相应的替换

将文章当中一些符号替换成中文字。如 <°C >替换成为<摄氏度>等等。

第五步:分割成为中文的词汇

在这一步骤中主要创建一个中文的词典文件,这本词典主要包括一些常用的中文词汇。新闻

第六步:粘贴中文的字符成中文的词汇

完成这一步需要借助上一步产生的中文字典,要根据字典中的词汇将已经分割成的每一个字粘贴成词汇。

第七步:转换文件中的数字

在这一步中,要将上一步所产生的目标文件作为源文件运行,将文件当中的阿拉伯数字转换成为中文的字符。比如说<2 >转换成为二,最后产生出新的目标文件。

第八步:删除标点符号

创建标点符号文件,包括我们日常所用到的所有标点符号如,:等等之类的。根据标点符号文件中标点符号顺序依次从上一步所产生的目标文件中删除这些标点符号,形成最终的目标文件。

3 总结

上面所述的每一步所产生的目标文件将作为下一步中的源文件直至最终的目标文件产生。对于上面的程序框架不仅仅可以实现规范中文文本语料库,也可用于规范其它语种的文本语料库,如法语。只是由于中文与法语语法结构不同,所以实现的步骤略有不同,且对应的程序也要做相应的改动。这个工具包能迅速处理一个非常大的文本语料库--几百万文件来自不同的来源。我们可以很容易地在原有的工具包中加入新的模块,用于完成对其它语言的处理。

参考文献

[1]Brigitte Bigi,Viet-Bac Le.Normalisation et alignement de corpus fran?ais et vietnamiens: Format et Logiciels.JADT2008.

[2]Habert B.,Fabre C.,Issac F.(1998). De l'écrit au numérique:constituer, normaliser,exploiter les corpus électroniques.Paris,InterEditions, Masson,Informatiques.

作者简介

孙温稳(1974-),女,河北省徐水县人。硕士学位。现供职于郑州师范学院。主要研究方向为人工智能。

作者单位

郑州师范学院信息科学与技术系 河南省郑州市 450044