非结构化文档的标记方法研究

2012-04-29施秀丽江莉莉

中国管理信息化 2012年4期

施秀丽江莉莉

［摘要］非结构化文档标记，实现了非结构化文档向结构化描述的转变，是非结构化文档管理的生命周期的重要环节。本文构建的非结构化标记方法主要包括：基于Dublin Core的外表特征标记、基于语义标注的内容特征标记、完整的XML Schema规范、工具支持等。

［关键词］非结构化；都柏林核心集；语义标注； Schema模式

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 04. 036

［中图分类号］F272.9；TP311.13［文献标识码］A［文章编号］1673 - 0194（2012）04- 0061- 01

一般，非结构化文档管理的生命周期包括非结构化文档的获取、标记、组织、存储和应用等环节本文是在获取非结构化文档并统一转化为ｔｘｔ格式之后，进行下一步标记分析的。本文构建的非结构化文档的标记方法着重从外表特征和内容特征两方面来做分析讨论。

１基于ＤｕｂｌｉｎＣｏｒｅ的外表特征标记

本文参考了ＤＣ（ＤｕｂｌｉｎＣｏｒｅ，都柏林核心集）的１５个核心元素，剔除若干不需要的元素，保留了其中的主要元素：标题Ｔｉｔｌｅ、作者Ａｕｔｈｏｒ、日期Ｄａｔｅ、标识符Ｉｄｅｎｔｉｆｉｅｒ和格式Ｆｏｒｍａｔ，同时结合企业环境需要增加了3个元素：

ＤｏｃｕｍｅｎｔＤｅｐａｒｔｍｅｎｔ：与文档相关的部门。企业是一个按职能划分的系统，文档可来自不同的部门，且会带有明显的部门特征，增加这个元素，可以更好地对文档进行归类管理。

ＤｏｃｕｍｅｎｔＩＤ：文档编号，对文档按照统一的编码方式进行编码。

ＡｃｃｅｓｓＣｏｎｔｒｏｌ：权限控制。企业中对于权限的设置十分严格，查看、修改、删除都必须有相应的权限，增加权限控制项可满足企业安全管理需要。

２基于语义标注的内容特征标记

要对文档进行内容标记必须对文档进行全面的内容理解，这种理解是通过语义标注来实现的。语义标注，就是利用本体中定义的词汇来显示揭示和表达文档中的内容，主要可分为命名实体识别和实体关系识别。

经过语义标注之后，即可形成关于源文档的标注文档。标注文档中的词汇能在一定程度上表达文档的内容，但其没有对这些表达文档内容的词汇进行排序，所以无法判断哪些词汇更能表达主题。本文采取的方法是：通过词汇之间存在的语义关系来计算词汇的语义加权值，来表示词汇所能反映主题的程度，下面先介绍下计算语义权重值过程中涉及到的几个定义：

上位词：同一本体中，父概念是其子概念和实例的上位词，父属性是子属性的上位词

词频：将词汇ｉ在文档中出现的频数为词汇ｉ的词频，一般可记为ｆｒｅｉ。

影响值：文档中的两个词ｉ和ｊ，若ｉ是ｊ的上位词，那么称ｊ对ｉ有影响，否则无影响，并ｊ对ｉ的影响程度称为影响值，记作

θｉｊ＝ｗｅｉｇｈｔ［ｊ］若ｊ为ｉ的下位词０否则（１）

具体语义加权值计算方法如下：首先将文档中包含的领域词汇的权重值ｗｅｉｇｈｔ［ｉ］初始化为相应词汇的词频ｆｒｅｉ，然后再按照词汇之间存在的上下位关系，对权重值进行更新和叠加，若在文档中存在该词汇的上位词，则直接将影响值加到上位词的权重中；若不存在，则将上位词加进来，并初始化其权重值为该词汇对其的影响值，具体计算公式如下：

经过加权语义标注后再综合考虑，内容标记元素包括：分类Ｃｌａｓｓ、主题Ｓｕｂｊｅｃｔ、相关主题ＲｅｌａｔｅｄＳｕｂｊｅｃｔ、带权值的特征词汇Ｗｅｉｇｈｔｅｄ Kｅｙ Wｏｒｄｓ、特征词汇所在的句子的摘录ＫｅｙＳｅｎｔｅｎｃｅｓ。

３标记语言Ｓｃｈｅｍａ设计

前面已经通过ＤＣ和语义标注完成了对非结构化文档在外表特征标记和内容特征标记两方面的研究，接下来就是分析如何对这些标记进行完整的描述并形成一个完整的ＸＭＬＳｃｈｅｍａ规范，并按照此Ｓｃｈｅｍａ来填充和校验非结构化文档标记。

本文设计的标记Ｓｃｈｅｍａ结构如下：ＭａｒｋｕｐＬａｎｇｕａｇｅ为根元素，以下再包含Ｈｅａｄ、Ｂｏｄｙ及Ｆｏｏｔ三个子元素，各子元素再往下细分。Ｈｅａｄ包含的是关于标记文档本身的一些管理控制元素，以实现对标记文档自身的有效管理和应用，具体元素有：作者、日期、语言、版本信息、权限控制、生成工具及所用的本体等；ｂｏｄｙ元素是标记文档的主体，包括外表特征和内容特征两个元素，具体子元素前面已说明；Ｆｏｏｔ则包含了一些补充信息，如版权和联系方式等。

文中的Ｓｃｈｅｍａ文件、结构图和具体的ＸＭＬ标记文档，都可以通过ＸＭＬＳＰＹ工具软件来编写，本文所采用版本为XML SPY２００６企业版中文破解版。

４小结

本文构建的非结构化文档标记方法重点是两方面：基于ＤＣ的外表特征元素和基于语义标注的内容特征元素，之后添加了一些管理控制元素，形成完整的Ｓｃｈｅｍａ规范。对于文档的标记都按照Ｓｃｈｅｍａ设计的元素规范来填充，形成统一结构化的描述，实现非结构化向结构化的转换，以便进行下一步组织／存储，实现更高层次的应用。

主要参考文献

［１］张德政，张萍萍．非结构化信息管理［Ｊ］．微计算机信息，２００６，２２（9）．

［２］张晓艳，王挺，陈火旺．命名实体识别研究［Ｊ］．计算机科学，２００５（４）．

［３］刘建华，张智雄．基于ＳｔａｎｆｏｒｄＰａｒｓｅｒ的实体间关系识别［Ｊ］．现代图书情报技术，２００９（５）．

［４］荆涛，左万利，孙吉贵，等．中文网页语义标注：由句子到ＲＤＦ表示［Ｊ］．计算机研究与发展，２００８，４５（７）．

中国管理信息化

2012年4期

非结构化文档的标记方法研究

杂志排行

中国管理信息化的其它文章