非结构化文档的标记方法研究
2012-04-29施秀丽江莉莉
施秀丽 江莉莉
[摘要] 非结构化文档标记,实现了非结构化文档向结构化描述的转变,是非结构化文档管理的生命周期的重要环节。本文构建的非结构化标记方法主要包括:基于Dublin Core的外表特征标记、基于语义标注的内容特征标记、完整的XML Schema规范、工具支持等。
[关键词] 非结构化; 都柏林核心集; 语义标注; Schema模式
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 04. 036
[中图分类号]F272.9;TP311.13[文献标识码]A[文章编号]1673 - 0194(2012)04- 0061- 01
一般,非结构化文档管理的生命周期包括非结构化文档的获取、标记、组织、存储和应用等环节本文是在获取非结构化文档并统一转化为txt格式之后,进行下一步标记分析的。本文构建的非结构化文档的标记方法着重从外表特征和内容特征两方面来做分析讨论。
1基于Dublin Core的外表特征标记
本文参考了DC(Dublin Core,都柏林核心集)的15个核心元素,剔除若干不需要的元素,保留了其中的主要元素:标题Title、作者Author、日期Date、标识符Identifier和格式Format,同时结合企业环境需要增加了3个元素:
Document Department:与文档相关的部门。企业是一个按职能划分的系统,文档可来自不同的部门,且会带有明显的部门特征,增加这个元素,可以更好地对文档进行归类管理。
Document ID:文档编号,对文档按照统一的编码方式进行编码。
Access Control:权限控制。企业中对于权限的设置十分严格,查看、修改、删除都必须有相应的权限,增加权限控制项可满足企业安全管理需要。
2基于语义标注的内容特征标记
要对文档进行内容标记必须对文档进行全面的内容理解,这种理解是通过语义标注来实现的。语义标注,就是利用本体中定义的词汇来显示揭示和表达文档中的内容,主要可分为命名实体识别和实体关系识别。
经过语义标注之后,即可形成关于源文档的标注文档。标注文档中的词汇能在一定程度上表达文档的内容,但其没有对这些表达文档内容的词汇进行排序,所以无法判断哪些词汇更能表达主题。本文采取的方法是:通过词汇之间存在的语义关系来计算词汇的语义加权值,来表示词汇所能反映主题的程度,下面先介绍下计算语义权重值过程中涉及到的几个定义:
上位词:同一本体中,父概念是其子概念和实例的上位词,父属性是子属性的上位词
词频:将词汇 i在文档中出现的频数为词汇i的词频,一般可记为frei。
影响值:文档中的两个词i和j,若 i是j的上位词,那么称j对i有影响,否则无影响,并j对i的影响程度称为影响值,记作
θij = weight[j] 若j为i的下位词0 否则 (1)
具体语义加权值计算方法如下:首先将文档中包含的领域词汇的权重值weight[i]初始化为相应词汇的词频frei,然后再按照词汇之间存在的上下位关系,对权重值进行更新和叠加,若在文档中存在该词汇的上位词,则直接将影响值加到上位词的权重中;若不存在,则将上位词加进来,并初始化其权重值为该词汇对其的影响值,具体计算公式如下:
经过加权语义标注后再综合考虑,内容标记元素包括:分类Class、主题Subject、相关主题Related Subject、带权值的特征词汇Weighted Key Words、特征词汇所在的句子的摘录Key Sentences。
3标记语言Schema设计
前面已经通过DC和语义标注完成了对非结构化文档在外表特征标记和内容特征标记两方面的研究,接下来就是分析如何对这些标记进行完整的描述并形成一个完整的XML Schema规范,并按照此Schema来填充和校验非结构化文档标记。
本文设计的标记Schema结构如下:MarkupLanguage为根元素,以下再包含Head、Body及Foot三个子元素,各子元素再往下细分。Head包含的是关于标记文档本身的一些管理控制元素,以实现对标记文档自身的有效管理和应用,具体元素有:作者、日期、语言、版本信息、权限控制、生成工具及所用的本体等;body元素是标记文档的主体,包括外表特征和内容特征两个元素,具体子元素前面已说明;Foot则包含了一些补充信息,如版权和联系方式等。
文中的Schema文件、结构图和具体的XML标记文档,都可以通过XML SPY工具软件来编写,本文所采用版本为XML SPY2006企业版中文破解版。
4小结
本文构建的非结构化文档标记方法重点是两方面:基于DC的外表特征元素和基于语义标注的内容特征元素,之后添加了一些管理控制元素,形成完整的Schema规范。对于文档的标记都按照Schema设计的元素规范来填充,形成统一结构化的描述,实现非结构化向结构化的转换,以便进行下一步组织/存储,实现更高层次的应用。
主要参考文献
[1] 张德政,张萍萍. 非结构化信息管理[J]. 微计算机信息,2006,22(9).
[2]张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005(4).
[3]刘建华,张智雄.基于Stanford Parser的实体间关系识别[J].现代图书情报技术,2009(5).
[4]荆涛,左万利,孙吉贵,等. 中文网页语义标注:由句子到RDF表示[J]. 计算机研究与发展,2008,45(7).