基于Web的海洋叙词表的管理与可视化
2015-11-10候成飞徐建良
候成飞,徐建良
(中国海洋大学 信息科学与工程学院,山东 青岛 266100)
0 引言
叙词表是以受控的、动态的、规范化的叙词为基本成分的词典,主要用来标引、存储和检索文献,并以参照系统来显示词间关系。
术语管理[1]是为了某个特定目的而对术语资源进行管理的活动。2001年,维基百科[2]的出现给数据管理工作带来了福音,到2013年维基百科已经有2 500多万词条内容,包含了大多数用户可以用到的术语信息。
纸质版的叙词表语义关系显示和术语标注不能够很好地帮助用户理解与查询。电子版的叙词表虽然比纸质版查询更加方便,但是电子版叙词表的线性排列方式使术语的相关信息因按字序排列而分散在叙词表中,给用户使用带来困难。
概念图(Concept Map)[3]是一种用节点代表概念,连线代表概念之间关系的图示法。它的设计思想是先呈现出一幅由最笼统概念组成的图画,然后对这些笼统的概念进行扩展,逐渐展现其细节和具体的方面,最后呈现出一幅详细的概念网络图。
本文主要是对基于维基百科分类体系构建的海洋叙词表进行管理与可视化的研究工作,规范术语名称,统一术语使用,去除同义词和一词多义,进行相关的维护工作等,并借鉴概念图的设计思想和树形结构的特点,以图形化的方式分别展现海洋叙词表中术语的3种词间关系。
1 研究现状
1985年美国普林斯顿大学认知科学实验室建立的WordNet(词汇网络)提供了用户对英语术语的查询与筛选窗口。世界贸易组织的WTOTERM、微软的语言门户等构建了大型术语库,为相关的研究和语言服务等工作提供了资源。
国外已经开发出了一些可视化工具。例如:为了用于本体的可视化 ,Protégé提供 了 TGVizTab 插件[4];为了以图形方式来显示大脑信息(思维导图),TheBrain公司开发了PersonalBrain[5]工具;还有挪威 Ontopia软件公司开发的面相主题图的套装软件OKS Samplers[6]等。
在国内,从1986年起,中国农科院科技文献信息中心和中国人民大学信息中心开始着手利用微机辅助来进行编表工作,并建立了叙词库管理系统,取得了初步的成果[7]。另外,中国物理学文献数据库词表管理系统的创建与维护[8]也为术语管理工作提供了借鉴窗口。
叙词表可视化方面的研究还比较少,基本上都是使用国外开发的可视化工具进行研究工作。例如,通过PersonalBrai工具,王子熙、马蕾等人对《汉语主题词表》中的部分词进行了可视化研究工作[9];通过Ontopia系列软件,朱良兵、纪希禹等人对《管理科学主题词表》中的部分叙词进行了可视化研究工作[10]等。
综上可见,国内外还缺少对海洋叙词表的管理维护及可视化的相关研究工作。
2 海洋叙词表数据库存储结构的分析
本文主要是对已创建的海洋叙词表进行管理维护与可视化研究,以下简单介绍一下已创建的海洋叙词表。
该海洋叙词表的创建主要是以维基百科的转储数据xml文件、维基百科数据库E-R图和各类参考资料为依据。通过对每个xml文件的分析,并依据数据格式和各类资料设计出自己的数据库,根据需求编写xml信息提取程序,对xml文件中的术语及词间关系进行提取存储,设计了图1所示的数据库E-R图。
图1 海洋叙词表数据库E-R图
3 系统设计架构与流程
海洋叙词表管理与可视化系统前台使用ExtJS框架,后台使用.NET框架。
系统采用 B/S架构,通过 HTML5.0、CSS和 Canvas等来展现丰富多彩的客户端,浏览器通过Ajax请求访问服务器端数据,Web Service处理发送来的请求,对数据进行提取并进行处理,通过JSON格式数据反馈给浏览器。
Web Service服务层主要是通过Web API提供数据与界面进行交互。
系统主要架构如图2所示。
图2 系统架构图
4 叙词表的管理及可视化系统实现
4.1 叙词表的管理
叙词表管理系统的主界面如图3所示。
“添加”操作一般针对单个术语,主要存储术语名称与术语的词间关系,当添加新术语较多时,一般使用“导入”操作,导入操作只需将新术语信息按照类似数据库中存储的格式整理成Word文档,然后逐个提取文档中的术语信息,先存储术语名称,后存储术语的词间关系。
经常使用的是“查询”和“修改”操作,工作人员使用术语过程中,将查询结果模糊不清的术语根据本领域术语使用情况进行删减和修改,通过删除术语之间词间关系的连接存储来消除同义词问题,但并未对术语的信息进行删除。在使用术语过程中形成术语规范用法,明确术语意义,消除一词多义问题。
4.2 叙词表的可视化
可视化[11]的场景展现主要是通过点击可视化按钮弹出新的网页来加载呈现。
(1)等级关系的构建思想与实现
页面跳转过来,默认展现的是术语等级关系的可视化,利用树形结构来体现术语之间的层次关系。等级关系的核心主要是树形结构的构造,服务端先根据Ajax请求获取相关数据,然后建立服务器端的树形结构,再将树形列表信息根据需求传给前台进行操作。前台网页HTML主要通过
- 和
- 标签元素来达到层层等级的展现,最终在场景中显示以参数术语为中心的等级关系,如图4所示。
图4 术语等级关系展现界面
词间关系的跳转是通过点击场景最上端3个菜单来实现的。
(2)等同关系的构建思想与实现
等同关系主要是通过节点与连线来实现的,主要展现指定术语的所有同义词。根据实际工作需求对术语的同义词进行删减,确保经常使用的术语得到呈现,使查看更加清晰、明确。
等同关系的实现也是通过相同的流程来实现的。根据传递的参数术语从数据库中查找术语的同义词,将其传递到前台,前台函数构建客户端关系图。经过相关函数处理,在场景中展现图5所示的效果。
图5 术语等同关系展现界面
(3)相关关系的构建思想与实现
相关关系也是通过节点与连线来实现的,主要体现了术语之间的关联关系。为了用户查看方便,第一层展开以不超过8个术语为限环绕中心术语周围,剩余的术语通过“下一幅关系图”按钮展现。剩余各展开层的术语以不超过3个为限进行展现,并以3层为例对图形进行了绘制加载。
从服务端获取相关关系术语,前台进行图形绘制展现。先绘制中心术语,然后对环绕中心术语周围的8个术语进行绘制,并添加术语节点的展开事件。相关关系术语第一层展现效果如图6所示。
图6 术语相关关系展现界面
3层相关关系术语效果如图7所示。
图7 术语相关关系展现界面
5 研究意义
海洋叙词表的有效管理能够使术语得到规范化、合理化存储,满足用户需求,并使术语及相关信息的检索更加迅速、准确,利于共享标准化的术语资源。
海洋叙词表的可视化[12]能够协助相关人员查看术语间的词间关系,并能够更清楚地理解特定部门领域中的工作流程与关联术语信息,提供用户友好的视觉效果,方便用户以交互的方式管理和开发术语。
6 结论
本文主要是针对已完成的基于维基百科分类体系构建的海洋叙词表进行管理与可视化研究。根据实际需求,逐渐建立起一套适合特定部门使用的术语管理系统,并对术语词间关系进行了可视化展现。该系统能够满足基本的需求工作,方便了用户对术语的管理、查询、维护等相关工作。
但本系统还有较大的提升空间,例如,术语管理方面,对同义词和一词多义术语的消除是根据日常使用术语过程中发现问题才进行修改的,过程比较漫长,需要经过很长时间才能逐渐对术语进行规范管理。可视化方面,只展现了以查询术语为中心4层的等级关系和3层的相关关系,工作人员有时未能查看所有有用术语。
可进一步进行优化的方面:根据不同层次的工作人员、术语种类、使用频率和使用目的对术语进行分类管理,方便不同人员使用;借鉴本体添加术语间相关关系的实体活动,使词间关系更加清晰、完善。
[1]王华树.浅议实践中的术语管理[J].中国科技术语,2013(2):11-14.
[2]赵飞,周涛,张良,等.维基百科研究综述[J].电子科技大学学报,2010,39(3):322.
[3]袁维新.概念图:一种促进知识建构的学习策略[J].学科教育,2004(2):39-44.
[4]Protégé.Stanford center for biomedical informatics research[EB/OL].[2011-02-15].http://protege.stanford.edu/.
[5]TheBrain.PersonalBrain[EB/OL].[2011-02-15](2015-03-01).http://www.theBrain.com/.
[6]Ontopia.OKS Samplers[EB/OL].[2011-02-15](2015-03-01).http://www.ontopia.net/.
[7]方陆明,王彩华.利用微机辅助编制农业叙词表和建立叙词库管理系统的刍议[J].情报科学,1990,11(4):35-39.
[8]周宁丽,朱献有,崔淑兰,等.中国物理学文献数据库词表管理系统及其应用[J].现代图书情报技术,1996(1):24-26.
[9]王子熙,马蕾.《汉语主题词表》词间关系的可视化[J].现代图书情报技术,2006(2):26-29.
[10]朱良兵,纪希禹.基于 Topic Maps的叙词表再工程[J].现代图书情报技术,2006(9):81-84.
[11]刘俊.叙词表词间关系可视化方法及实现的比较研究[D].南京:南京农业大学,2008.
[12]干珍珍,肖桂荣.武夷山生态监测数据动态图表可视化研究[J].微型机与应用,2014,33(2):84-87.