基于通信知识共享系统的XML异构数据的自动转储
2022-11-25刘旭
刘旭
91033部队 山东 青岛 266000
引言
随着通信技术的发展以及装设备的不断升级提升,通信技术及装设备参数数据量不断增大。大量的数据分布式存储加大了交换与共享的难度。通过对实验数据进行研究发现,95%以上的数据都是以Word文档或Excel文档的格式进行保存,再将其手动录入到知识共享系统中,重复性的录入工作极大地增大了实验人员的工作量,因此自动化的数据转储工作迫在眉睫。
1 通信知识共享系统简介
通信知识共享系统提供了一个允许多人并行式协作的平台。用户可以自行决定内容的相关性,自由进行创建、修改、删除等操作。它可以用来当作百科全书、字典、术语表或者内部的CMS(Content Management System)平台等。
1.1 通信知识共享系统的分类
目前,系统中以文本为载体的信息尤其丰富,通过关键字Category对页面进行分类,将在页面底部自动创建指向分类页面的链接,从而可以方便有效地查看其父类的相关文档。将一个页面归入分类,只需在编辑时在底部增加“[[Category:分类名称]]”。知识共享系统的每一个条目都属于至少一个类别,而一个类别又可以同时对应多个条目,具有清晰的类层次结构。
1.2 通信知识共享系统XML文件格式分析
知识共享系统定义了固定的XML格式,任何输入到系统的条目除了手动输入外,都可以转储成该格式从而实现自动导入。条目(page)组成知识共享系统XML文件中最基本核心的组成单位,一个条目代表一个基本页面。知识共享系统XML文件中条目的组织结构设计如下:
2 Word和Excel文档的标准化
Word和Excel文档的标准化技术目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可导出结构清晰的XML文件[1]。XML Schema文档完全符合XML语法规范,它的后缀名是xsd。
Excel文档标准化之后的XML文档如下:
3 数据转储的实现
3.1 两级映射
两级映射就是把Word和Excel文档标准化之后的XML文档通过Java算法实现向知识共享系统XML文档的初步转化[2]。因为数据源的不同,把两级映射分为两个部分,第一部分是Word文档的标准XML结构到知识共享系统XML文档的映射,第二部分是Excel文档的标准XML结构到知识共享系统XML文档的映射。在转换过程中,暂且不考虑
3.1.1 Word标准XML文件的映射。通过研究Word转换的标准XML文档结构,我们可以知道,其XML文件标签中根标签下的
3.1.2 Excel标准XML文件的映射。分析Excel标准XML文件,根节点下的
3.2 页面融合
页面融合仅涉及Excel文档的标准XML文档到知识共享系统XML文档的映射。因为Excel文档中,会存在一种问题,即总类、分类和术语关键字完全相同,只有下属不同,如“信道—无线信道—电磁波—地波传播”和“信道—无线信道—电磁波—天波传播”,这两条信息在标准XML文件中是作为两个page存在的,但在实际的知识共享系统中,应该是一个title为“电磁波”,text为“地波传播、天波传播”的页面。所以在转化的过程中,就需要把category、title均相同页面进行融合[3]。
这两个page标签下的category和title如果都相同,则把这两个页面合并为一个页面,合并后的系统XML文档中的对应关系仍旧满足上一节两级映射的算法,即源页面的title标签仍旧对应目标页面的title标签,category标签仍以[[category:××]]的形式放入
将完成两级映射和页面融合之后形成的知识分享系统XML文档导入系统内,可自动生成知识相关页面以及分类关系,导入效果和手工录取无差别,且错误率明显下降。
4 结束语
通过本文设计的两级映射、页面融合实现Word和Excel文档形成的标准XML文件到通信知识共享系统XML文件的转换,从而完成通信数据的转储,可取代手动录入系统的操作,但由于Word和Excel文档标准化的过程中,仍需要一定量的手动映射,因此还未实现完全的自动化,今后可以规范Word和Excel文档中所有的文本信息和数据资源,使其在文档中的位置相对固定,这样人工判断操作就变得不再是必需的,可以进一步减少时间的耗费。