APP下载

基于主题词表的数字出版领域本体构建

2015-12-10司莉陈雨雪庄晓喆

出版科学 2015年6期
关键词:主题词表数字出版

司莉 陈雨雪 庄晓喆

[摘 要] 领域本体在知识管理和语义网中起到越来越重要的作用,本文按照从提取主题词、概念的筛选与取舍、概念名称的规范化处理、概念分类体系的调整与概念归类、主题词表的编制与修订、确定概念间的语义关系、领域本体的形式化建模等程序构建了数字出版领域本体,并利用保护软件(Prot€間€椋┩瓿筛帽咎宓男问交涂墒踊允尽=ǔ珊蟮谋咎寰弑肝谋咀远暌⑽南仔畔⒂镆寮焖饔肟墒踊焖鳌⑹跤锓竦裙δ堋?

[关键词] 数字出版 领域本体 主题词表

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2015) 06-0080-05

The Construction of a Digital Publishing Domain Ontology Based on Thesaurus

Si Li Chen Yuxue Zhuang Xiaozhe

(Information Resource Research Center,Wuhan University,Wuhan,430072)(School of Information Management,Wuhan University,430072)

[Abstracts] Domain ontology plays a more and more important role in knowledge management and semantic web.This article explores the methods and the process of building a digital publishing ontology knowledge base based on thesaurus.The extraction and selection of descriptors,the establishment and revision of thesaurus,the building of semantic relationship between concepts, and the modeling of domain ontology are discussed.The modeling and visual display of the domain ontology is realized by Prot€間€?The system can provide a series of functions,including text automatic indexing,documental informations semantic and visual retrieval,term service,etc.

[Key words] Digital publishing Domain ontology Thesaurus

1 引 言

随着出版产业与数字技术、信息网络技术的加速融合,传统出版与数字出版并重发展的格局已逐步形成,出版产业发展方式发生了根本转变[1]。如何对数字出版领域的概念及概念间的关系进行明晰的表达与描述,成为数字出版发展过程中面临的重要课题,而构建数字出版领域本体是解决该问题的有效举措。

在表达知识结构方面,本体和主题词表有着与生俱来的联系。主题词表包含丰富的主题词与清晰的语义结构,易于从中提取概念与关系,为本体的建立提供了极为便利的条件;本体使用受控词表中的受控词及它们之间的关系来对某一知识领域的信息进行组织和正式地概念化[2]。因此,国内外一些学术机构和团体都在开展利用主题词表建立本体的研究。美国国家癌症研究所(National Cancer Institute,NCI)和马里兰大学帕克分校合作将NCI主题词表(The NCI Th€閟aurus)转换为一个OWL本体[3];植物本体联盟(The Plant Ontology Consortium,POC)基于其创建的受控词表构建了植物本体(lant Ontology,POP)[4];Sun等基于农业科学叙词表(Agriculture Science Thesaurus,AST)建立了果树栽培领域本体(Pomology Domain Ontology,PDO)[5];胡兆芹等进行了利用汉语主题词表建立领域本体的研究[6]。

笔者创建数字出版领域主题词表,以Prot€間€槲唇üぞ吖菇ㄊ殖霭媪煊虮咎澹迪质殖霭嫖锬谌莸淖远暌⑻峁┯镆寮焖鳌⒖墒踊焖骱褪跤锓窆δ堋?

2 本体构建步骤

数字出版领域本体知识库的建设过程包括提取主题词、概念的筛选与取舍、概念名称的规范化处理、本体分类体系的调整与概念归类、主题词表的编制与修订、确定概念间的语义关系、领域本体的形式化建模等步骤。

2.1 提取主题词

2.1.1 主题词的来源

(1)人工抽词

首先选取中国知网全文数据库作为数据源,下载国内数字出版领域研究文献(含期刊论文、会议论文、学位论文、报纸、专利、标准)的题录信息(含题名、摘要),并从中人工抽取与数字出版相关的关键词,进行去重处理,再经人工筛选后,得到4700余个相关概念,初步获取了数字出版领域内的重要术语。

(2)文本分词

人工抽取的术语并不能完全反映领域知识,为避免遗漏,选用中科院NLPIR/ICTCLAS汉语分词系统(2014版)对电子工业出版社出版的《数字出版理论、技术和实践》系列丛书中的9本专著进行自动分词处理,进一步提取有关术语,而后对分词结果作预处理:删除所有单字词、对剩余的语词进行去重处理。预处理后,余下的术语为34484个。

2.1.2 概念的筛选与取舍

分词结果的准确度对于领域本体的知识覆盖范围与表达能力以及文本标引的效果均有直接影响,任何分析系统的结果必须经过人工审核预处理。其具体过程如下:

(1)通过Excel的COUNTIFS函数一次性统计每个概念在书中的出现频次,并按频次由低至高排列所有概念。去除出现频次过低(设置阈值为3)的概念与过于泛指(通常为超高频词)、专指以及与数字出版无关的概念。

(2)对于存有歧义、专业性较强的概念,在专著、研究文献、网络百科中查阅其含义并备注。

(3)标明英文缩写词的英文全称及其对应的中文名称。

全面浏览专著内容,订正分词时切分出错的概念,同时补充遗漏的重要概念。最后共留存概念480余个。

此外,对人工抽词获取的近5000个概念进行了多轮筛选,具体工作大致同上,共保留概念700余个。将两部分概念进行比对,去除重复概念后,计有680个概念(含非正式概念100余个)。

2.2 概念名称的规范化处理

概念名称必须符合汉语构词特点,契合实际使用情况,便于用户检索,表述规范清晰。具体处理原则包括:若语词中存在标点符号,则去除标点符号或直接删除;外文名词术语均采用汉译名,如有多个译名,以最通行的译名为准,其余译名作入口词;若外文名词术语更为通行,也可直接选用其作为正式词;概念术语长度限制在10个字以内,过长的语词使用其简称、缩写或者直接删除;拆分并列式概念,将析出的概念/语词作为多个新概念术语。

2.3 概念分类体系的建立与概念归类

在人工抽词之后,笔者采取自顶向下的建模原则,初步确定数字出版领域概念的分类体系,编列前四级类目,并对已抽取的概念词进行分类,依其内涵分别归入各类目下。

首先将人工抽取的关键词初步划分为10个大类。文本分词后获取了一批新的概念术语,原有的等级体系也需予以相应调整,以便更加科学合理地容纳数字出版领域内的概念,因此增设了“案例”和“机构”两个一级类目,将“数字出版物与数字图书馆”和“传统出版”类名分别改为“数字出版产品”和“相关概念”,并撤销“数字版权”一级类目,使一级类目达到11个(见表1)。

表1 分类体系一级类目

此外,部分子类的设置也有所调整。本体等级体系的调整,解决了原有等级体系存在的类目涵义重叠、表意模糊等缺陷。考虑到概念数量有限,加之过深的层级体系不利于用户的浏览与检索,本体等级体系的层级一般为4级,极少数类目划分到5级。最后,依据新的等级体系,在准确把握概念内涵及外延的基础上,将所有概念逐一归入对应的类目之下。

2.4 主题词表的编制

将获取的数字出版领域概念术语编制成数字出版领域主题词表。概念术语编码采用英文字母与阿拉伯数字组配的方式,为每个概念赋予唯一编号,基本采取层累制编号法,具体编码方式如下。

①一级为两位数字(00到10);

②二级为对应的一级类目编号加一位英文大写字母(若类目多于26个,则加两位英文字母);

③三级为对应的二级类目编号加两位数字(01起);

④四级为对应的三级类目编号加两位数字(01起);

⑤五级为对应的四级类目编号加一位英文小写字母;

⑥入口词则是在相应正式词编码后面增加“UF”和两位数字(用于标识同一主题词对应的多个入口词)。

以“工具”类及其部分下位类为例,其编码如下:

04 工具

04A 存储设备

04A01 磁带

D 04A01UF01磁介质

04A02 光盘

D 04A02UF01光介质

D 04A02UF02光碟

04A0201 CD@

04A0201a CD-ROM@

04A0202 DVD@

04A0202a DVD-ROM@

D 04A0202aUF01 数字视盘

注:编码前标有英文字母“D”则为入口词

其中“工具”为一级类目,“存储设备”为二级类目,“磁带”“光盘”为三级类目,“CD”“DVD”为四级类目,“CD-ROM”“DVD-ROM”为五级类目,“磁介质” “光介质”“光碟”“数字视盘”则是相关概念的入口词,编码为相应正式词编码后增加“UF”和两位数字。

对于表述形式不唯一的概念(同义异形)以及彼此间涵义相近的概念,根据其出现的频次,并结合用户的检索习惯,确定了正式词(出现频次较多、用户使用较广泛者;对应于本体中的正式概念)和入口词(出现频次较少、用户使用不普遍者;对应于本体中的非正式概念)。而后按照已完成的分类表编排所有概念,添加用、代关系;入口词均紧随对应的正式词之后,与正式词的下位概念同级。对具有多种含义、涉及多种领域的概念进行多重列类处理,即将同一概念依其语义分别归入不同的类目,并以“@”符号加以标识。最后,编列入口词表收录入口词,以音序排列,所有入口词均给予唯一编号。

这样即编列完成了反映概念间等级结构的数字出版领域主题词表之范畴表。此外,还将所有概念按其首字或首字母的字顺排列,得到数字出版领域主题词表之字顺表。

2.5 确定概念间的语义关系

首先,将本体概念间的语义关系归纳为等同关系、等级关系和相关关系三类;接着仔细分析概念的内涵与外延,并咨询领域专家,以准确把握各概念的涵义与其间关联;最终确定概念间存在的10种关系。其中,除了“In relation to”外,其余关系均以关系对的形式存在,即包含两种互逆的关系。具体关系如下:

①Equals/Is synonym of(等同于/是**的同义词),如Copyleft Equals著作权/著作权Is synonym of Copyleft。

②Has part/Is part of(包含**部分/是**的一部分),如SGML Has part XML/XML Is part of SGML。

③Has type/Is type of(包括**一类/是**的一类),如软件Has Type iTunes/iTunes Is type of 软件。

④Has instance/Is instance of(有实例**/是**的实例),如出版单位Has instance爱思唯尔/爱思唯尔Is instance of 出版单位。

⑤Has tool/Is tool of(有工具**/是**的工具),如移动阅读Has tool HTML5/HTML5 Is tool of 移动阅读。

⑥Offer/Offered by(提供**/提供者是**),如OCLC Offer 数字期刊/数字期刊Offered by OCLC。

⑦Develop/Developed by (发明**/发明者是**),如Adobe Develop PDF/PDF Developed by Adobe。

⑧Has standard/Is standard of(有标准**/是**的标准),如ISO Has standard MPEG/MPEG Is standard of ISO。

⑨In relation to(与**相关),如3G In relation to 数字阅读。

⑩Manage/Manage by(负责管理**/管理者是**),如DCMI Manage DC/DC Manage by DCMI。

随后为抽取的概念间两两建立关系,前后共建立关系3500余对,并进行人工审定,保证领域本体的一致性,尽量避免冗余关系、循环错误等不一致性错误的产生。

2.6 领域本体的形式化建模

选用开源本体编辑软件Prot€間€?4.3建立领域本体的等级结构(即添加父类、子类及实例),设置概念的IRI(资源标识符)、label(显示的名称)、code(编码)等基本属性,定义概念间存在的关系种类,并为部分概念添加注释信息。该本体的等级结构即为范畴表中的等级结构,但入口词则与对应的正式词平级。接着使用Prot€間€橥绨鎃ebProt€間€椋扇《嗳嗽谙咝鞣绞剑拍钐砑庸叵担⒍员咎宓牡燃督峁埂⒗嗝捌涫粜灾到屑觳椤6杂诘韧叵担碋quals/Is synonym of关系,如概念的全称和简称、用代关系等),采用增设“fullname”(全称)与“abbreviation”(简称/缩写)属性、使用系统自带的“equivalent to”关键字等方式予以描述。最后使用Prot€間€榈牟寮﨩WLViz和OntoGraf实现领域本体的可视化浏览(图3)。

2.7 领域本体形成与界面

使用Prot€間€槿砑瓿杀咎宓男问交:螅勺远擅枋霰咎逯懈拍钍粜约捌浼涔叵档腞DF文档(图4)。

3 结 语

笔者通过对信息技术领域主题词表中涉及数字出版的主题词及其相互关系的分析,构建了适合科教出版的领域本体模型所需的要素与本体描述模型,使之能完整反映数字出版领域的知识网络;并通过抽取相关系列专著的信息,完成该领域本体的实例化。主题分类表和领域本体二者间应存在一定的对应关系,并作为动态数字出版标准规范体系的重要组成部分,为动态数字出版技术的集成开发、动态数字出版应用系统的建设提供支撑。

目前,在本体知识库建设方面已编制完成数字出版领域主题词表的范畴表、字顺表,利用Prot€間€槿砑瓿墒殖霭媪煊虮咎宓男问交涂墒踊允荆就瓿墒殖霭媪煊虮咎逯犊庀低车慕ㄉ韫ぷ鳎低辰ǔ珊蠼弑肝谋咀远暌⑽南仔畔⒌挠镆寮焖饔肟墒踊焖鳌⑹跤锓竦裙δ堋?

虽然当前研究已取得一些成果和经验,但对于未来的研究,还有以下建议和展望:实现数字出版领域本体知识库在线服务系统与其他数字出版业务系统的无缝集成,保证系统具有良好的可扩展性;强化后期维护和后台资源更新,实现数字出版资源建设、流程管理、用户服务的一体化;系统总结数字出版领域本体开发中的经验及策略,为建构更大规模、适用于其他学科领域文献的标引与检索的本体积累更多经验。

注 释

[1]常青. 世界图书出版西安公司是如何提升数字出版水平的[J]. 出版参考,2013,27:16

[2]Vihinen M. Variation Ontology for annotation of variation effects and mechanisms[J]. Genome research, 2014, 24(2): 356-364

[3]Golbeck J, Fragoso G, Hartel F, et al. The national cancer institutes thesaurus and ontology[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2003, 1(1): 75-80

[4]Plant Ontology Consortium. The Plant Ontology? consortium and plant ontologies[J]. International Journal of Genomics, 2002, 3(2): 137-142

[5]Sun Q, Wu Q, Liang Y. Study on Query System Based on Pomology Domain Ontology[M]//Computer and Computing Technologies in Agriculture V. Springer Berlin Heidelberg, 2012: 180-187

[6]Hu Z Q. Domain Ontology Construction from Chinese Thesaurus[J]. Advanced Materials Research, 2013, 753: 3209-3213

猜你喜欢

主题词表数字出版
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
学术期刊数字出版的运行模式与市场结构
浅谈新媒体在美术类图书出版中的应用
做一个全民阅读时代的“悦”读人
国际图书出版市场现状及趋势分析