APP下载

基于通信知识共享系统的XML异构数据的自动转储

2022-11-25刘旭

科学与信息化 2022年20期
关键词:条目信道文档

刘旭

91033部队 山东 青岛 266000

引言

随着通信技术的发展以及装设备的不断升级提升,通信技术及装设备参数数据量不断增大。大量的数据分布式存储加大了交换与共享的难度。通过对实验数据进行研究发现,95%以上的数据都是以Word文档或Excel文档的格式进行保存,再将其手动录入到知识共享系统中,重复性的录入工作极大地增大了实验人员的工作量,因此自动化的数据转储工作迫在眉睫。

1 通信知识共享系统简介

通信知识共享系统提供了一个允许多人并行式协作的平台。用户可以自行决定内容的相关性,自由进行创建、修改、删除等操作。它可以用来当作百科全书、字典、术语表或者内部的CMS(Content Management System)平台等。

1.1 通信知识共享系统的分类

目前,系统中以文本为载体的信息尤其丰富,通过关键字Category对页面进行分类,将在页面底部自动创建指向分类页面的链接,从而可以方便有效地查看其父类的相关文档。将一个页面归入分类,只需在编辑时在底部增加“[[Category:分类名称]]”。知识共享系统的每一个条目都属于至少一个类别,而一个类别又可以同时对应多个条目,具有清晰的类层次结构。

1.2 通信知识共享系统XML文件格式分析

知识共享系统定义了固定的XML格式,任何输入到系统的条目除了手动输入外,都可以转储成该格式从而实现自动导入。条目(page)组成知识共享系统XML文件中最基本核心的组成单位,一个条目代表一个基本页面。知识共享系统XML文件中条目的组织结构设计如下:

17

手机 ,一种通讯工具[[category:通讯工具]]

2 Word和Excel文档的标准化

Word和Excel文档的标准化技术目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可导出结构清晰的XML文件[1]。XML Schema文档完全符合XML语法规范,它的后缀名是xsd。元素含有4个子元素,分别为,其中,标签的属性maxOccurs=“unbounded”代表该元素不限定出现个数,并且标签下又有3个子元素,分别是和<text>,标签<sequence>表示子元素依次出现的顺序,通过自定义的XML Schema实现Word文档和Excel文档到标准XML文档的标准化。Word文档标准化之后的XML文档如下:</p><p><dump-file></p><p><page></p><p><category/></p><p></page></p><p><page></p><p><category/></p><p></page></p><p></dump-file></p><p>Excel文档标准化之后的XML文档如下:</p><p><dump-file></p><p><page></p><p></page></p><p><page></p><p></page></p><p><page></p><p><text/></p><p></page></p><p></dump-file></p><h2>3 数据转储的实现</h2><h3>3.1 两级映射</h3><p>两级映射就是把Word和Excel文档标准化之后的XML文档通过Java算法实现向知识共享系统XML文档的初步转化[2]。因为数据源的不同,把两级映射分为两个部分,第一部分是Word文档的标准XML结构到知识共享系统XML文档的映射,第二部分是Excel文档的标准XML结构到知识共享系统XML文档的映射。在转换过程中,暂且不考虑<username>和<security>这两个标签的对应关系,将重点放在其层次结构的对应和划分上。</p><p>3.1.1 Word标准XML文件的映射。通过研究Word转换的标准XML文档结构,我们可以知道,其XML文件标签中根标签下的<category>肯定不为空,<page>下的<title>、<text>也不为空,但<page>下的<category>一定为空。并且每个<page>下的<title>不会重名。那么我们就把根节点下<category>标签中的关键字提取出来以[[category:数字基带传输]]的形式放在<text>中,以完成标题“数字基带传输”与叙词“AMI码”的所属关系。</p><p>3.1.2 Excel标准XML文件的映射。分析Excel标准XML文件,根节点下的<category>表示总类,<page>下的<category>表示分类,<page>下的<title>为术语,<page>下的<text>为下属。在转化为知识共享系统固定XML格式的过程中,把<page>下的<category>以[[category: 无线信道]]的形式写入<text>中,完成 “无线信道-电磁波-地波传播”的所属关系。这么复杂的所属关系,就需要另外生成一个特殊页面,其结构如下列代码所示,它的独特之处在于<title>标签内的关键字前需要加上“分类:”(该冒号为半角符),这是知识共享系统分类页面的固定格式。</p><p><page></p><p><revision></p><p><contributor></p><p></contributor></p><p></revision></p><p></page></p><h3>3.2 页面融合</h3><p>页面融合仅涉及Excel文档的标准XML文档到知识共享系统XML文档的映射。因为Excel文档中,会存在一种问题,即总类、分类和术语关键字完全相同,只有下属不同,如“信道—无线信道—电磁波—地波传播”和“信道—无线信道—电磁波—天波传播”,这两条信息在标准XML文件中是作为两个page存在的,但在实际的知识共享系统中,应该是一个title为“电磁波”,text为“地波传播、天波传播”的页面。所以在转化的过程中,就需要把category、title均相同页面进行融合[3]。</p><p>这两个page标签下的category和title如果都相同,则把这两个页面合并为一个页面,合并后的系统XML文档中的对应关系仍旧满足上一节两级映射的算法,即源页面的title标签仍旧对应目标页面的title标签,category标签仍以[[category:××]]的形式放入<text>中,不同的是,需要把标准XML文档中两个<page>页面的<text>进行合并之后,再放入目标文档的<text>中。</p><p>将完成两级映射和页面融合之后形成的知识分享系统XML文档导入系统内,可自动生成知识相关页面以及分类关系,导入效果和手工录取无差别,且错误率明显下降。</p><h2>4 结束语</h2><p>通过本文设计的两级映射、页面融合实现Word和Excel文档形成的标准XML文件到通信知识共享系统XML文件的转换,从而完成通信数据的转储,可取代手动录入系统的操作,但由于Word和Excel文档标准化的过程中,仍需要一定量的手动映射,因此还未实现完全的自动化,今后可以规范Word和Excel文档中所有的文本信息和数据资源,使其在文档中的位置相对固定,这样人工判断操作就变得不再是必需的,可以进一步减少时间的耗费。</p></div></div> <!-- <div class="m_article_pdf"><a href="https://cimg.fx361.com/kkb.apk">查看pdf文档请下载app</a></div>--><div class="article_love_part"> <h3>猜你喜欢</h3> <div class="article_love_keyword"><span><a href="/tags/8/d/8ab7f20094e989e2/1.html" target="_blank">条目</a></span><span><a href="/tags/0/5/794e62c15aef0c62/1.html" target="_blank">信道</a></span><span><a href="/tags/3/5/c0eb5cb77d8024b6/1.html" target="_blank">文档</a></span></div> <div class="article_love_news"><dd><a href="/news/2022/0823/11255909.html" target="_blank" title="基于信道分类分析的无线通信改进均衡方法">基于信道分类分析的无线通信改进均衡方法</a></dd><dd><a href="/news/2022/0810/11309538.html" target="_blank" title="基于自适应学习的5G通信系统信道估计方法">基于自适应学习的5G通信系统信道估计方法</a></dd><dd><a href="/news/2022/0531/10341748.html" target="_blank" title="浅谈Matlab与Word文档的应用接口">浅谈Matlab与Word文档的应用接口</a></dd><dd><a href="/news/2021/0727/8621423.html" target="_blank" title="有人一声不吭向你扔了个文档">有人一声不吭向你扔了个文档</a></dd><dd><a href="/news/2021/0512/8329239.html" target="_blank" title="轻松编辑PDF文档">轻松编辑PDF文档</a></dd><dd><a href="/news/2019/0211/4780975.html" target="_blank" title="《词诠》互见条目述略">《词诠》互见条目述略</a></dd><dd><a href="/news/2018/0201/2837596.html" target="_blank" title="一种基于向量回归的无人机通信信道选择方法">一种基于向量回归的无人机通信信道选择方法</a></dd><dd><a href="/news/2017/0727/2099333.html" target="_blank" title="11个自由贸易试验区将启用新版负面清单">11个自由贸易试验区将启用新版负面清单</a></dd><dd><a href="/news/2017/0506/1721133.html" target="_blank" title="Word文档 高效分合有高招">Word文档 高效分合有高招</a></dd><dd><a href="/news/2016/0310/691786.html" target="_blank" title="WLAN和LTE交通规则">WLAN和LTE交通规则</a></dd></div> </div><div class="phbk_part"><h3>杂志排行</h3> <ul><li><a href="/bk/xdjjxx/20245.html" class="title">《现代经济信息》</a><a href="/bk/xdjjxx/20245.html" class="date">2024年5期</a></li><li><a href="/bk/jtyx/20242.html" class="title">《家庭医学》</a><a href="/bk/jtyx/20242.html" class="date">2024年2期</a></li><li><a href="/bk/zgzyyxdycjy/202410.html" class="title">《中国中医药现代远程教育》</a><a href="/bk/zgzyyxdycjy/202410.html" class="date">2024年10期</a></li><li><a href="/bk/cxcyllyjysj/20245.html" class="title">《创新创业理论研究与实践》</a><a href="/bk/cxcyllyjysj/20245.html" class="date">2024年5期</a></li><li><a href="/bk/jsnykx/20247.html" class="title">《江苏农业科学》</a><a href="/bk/jsnykx/20247.html" class="date">2024年7期</a></li><li><a href="/bk/jlyx/20243.html" class="title">《吉林医学》</a><a href="/bk/jlyx/20243.html" class="date">2024年3期</a></li><li><a href="/bk/dqjsyjj/20243.html" class="title">《电气技术与经济》</a><a href="/bk/dqjsyjj/20243.html" class="date">2024年3期</a></li><li><a href="/bk/ywyy/20241.html" class="title">《越玩越野》</a><a href="/bk/ywyy/20241.html" class="date">2024年1期</a></li><li><a href="/bk/ahjyky/202413.html" class="title">《安徽教育科研》</a><a href="/bk/ahjyky/202413.html" class="date">2024年13期</a></li><li><a href="/bk/yxyjyyxyy/20245.html" class="title">《影像研究与医学应用》</a><a href="/bk/yxyjyyxyy/20245.html" class="date">2024年5期</a></li></ul> </div><div class="bk_part"> <div class="bk_im_b"><a href="/bk/kxyxxh/202220.html"><img src="https://img.fx361.cc/images/2022/1125/1b14ce71fd7f33f94fd9295c0e38391ab83baa39_mini.webp" alt=""></a></div> <div class="dbk_title"><a href="/bk/kxyxxh/" target="_blank">科学与信息化</a></div> <div class="dbk_date"><a href="/bk/kxyxxh/202220.html" target="_blank">2022年20期</a></div> </div><div class="others"> <h3><a href="/bk/kxyxxh/" target="_blank">科学与信息化</a>的其它文章</h3> <ul><li><a href="/news/2022/1125/11587930.html" title="电力营销中线损异常的成因及对策探讨">电力营销中线损异常的成因及对策探讨</a></li><li><a href="/news/2022/1125/11588010.html" title="“互联网+新媒体”时代高职传播与策划专业学生职业素养培养研究">“互联网+新媒体”时代高职传播与策划专业学生职业素养培养研究</a></li><li><a href="/news/2022/1125/11587958.html" title="水土保持方案实施过程中的问题与对策">水土保持方案实施过程中的问题与对策</a></li><li><a href="/news/2022/1125/11587901.html" title="试谈如何做好基建配网工程项目管理">试谈如何做好基建配网工程项目管理</a></li><li><a href="/news/2022/1125/11592408.html" title="电力应急管理体系建设的要点研究">电力应急管理体系建设的要点研究</a></li><li><a href="/news/2022/1125/11587982.html" title="配电生产中的自动化技术应用">配电生产中的自动化技术应用</a></li></ul></div></div> <div class="m_footer"></div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript" src="https://s2.pstatp.com/cdn/expire-1-M/Swiper/4.5.0/js/swiper.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery.lazyload/1.9.1/jquery.lazyload.js"></script> <script type="text/javascript"> document.write('<script src="https://img.fx361.cc/js/m.index_cc.js"><\/script>'); </script> </section> </body> </html>