论档案领域本体的构建
2020-04-09周小平
摘 要:本文主要就档案领域本体建构过程进行分析,从档案领域建构目的、列举术语概念、搭建本体框架、形成档案领域概念模型、本体OWL语言描述以及评价几个方面探讨档案领域本体构建的应用与实践。
关键词:档案;本体;OWL语言
本体是当前信息科学领域的研究重点,档案领域的本体包含了确定的档案学语义和术语概念之间的关系,进一步帮助人们认识档案学。
一、需求分析
本体最早源于哲学领域,20世纪后,逐渐转入计算机科学领域,成为信息科学领域的研究重点。本体主要表现为对特定专题领域内所存在的对象属性及其相互关系的集合。通常而言,本体是面向特定领域,用于描述特定学科领域,同样可以对该领域进行建模。
档案本体,即对档案学领域之中各种概念及其相互关系的形式化表达,是基于档案设计的抽象化了解。在构建档案本体过程中,最为首要的就是进行档案本体需求分析,明确构建档案本体的目的、范围以及应用定位。由于各个领域学科的知识体系十分庞大,想要通过构建本体整合所有领域概念十分困难,所以,在构建档案本体领域之前应该明确本体所覆盖的专业范围,以部分领域重点为出发点,由此及彼,由表及里,逐步向外延伸拓展,丰富本体建构,尽可能填充所有领域重点。同时应该明确档案领域本体构建的目的是什么,如何应用档案领域本体才能够发挥其最大作用,从而使得构建档案领域本体能够帮助档案领域知识学习,构建更加完善的档案管理系统。
二、明确重要术语概念
在档案领域本体构建过程中,需要明确重要术语概念,从而将档案管理过程所会涉及到的档案信息相关组织结构进行有效划分,也可以通过已有的档案管理系统中的自动标引抽取功能,确定档案本体领域重要名词术语。通常而言,档案领域本体概念包括以下几个类别:档案案卷编号、档案全宗号、档案种类、档案案卷标题、档案保管期限、档案状态、档案管理责任者以及档案案卷页数等。不同的档案均会有一个档案案卷编号,且档案之间互不相同,是各个档案管理部门用于确定档案的唯一正确标识,一个档案的档案案卷编号通常由4个部分组成,包括档案类目(艺术系或文学系等)、案卷号、序号以及工程代号,通过档案案卷编号能够帮助管理员快速了解档案基本信息。档案案卷标题就是案卷题名,通常是由立卷人自己进行拟定,题名能够简要概况档案文件基本信息,帮助档案管理人员迅速明晰档案内容。档案种类同样十分重要,档案管理工作首要就是将档案进行分门别类,通过将档案类别进行划分,帮助档案管理人员第一时间确定档案所属领域范围,领域范围主要指文学、科技、医学等等,不同档案管理系统可以按照各自的划分标准进行划分。
三、搭建本体框架结构
在领域术语分析结束以后,从各自概念中抽象构建档案领域本体框架。框架模式和档案术语分析中档案种类划分十分相似,就是将各个领域术语按照类别进行划分,与此同时,在分类建构过程中,能够初步确定各个不同类别之间的建构关系,从而形成大体框架。通过对于档案领域概念术语进行分析,可以初步明确框架结构。主要包括档案管理负责者、档案所处状态、档案编号、档案案卷标题、档案所处种类类别几大部分,再将其进行具体细分,那么档案管理负责人又可以分为不同学科领域部门,状态可以细分为已经删除、已经同步,档案案卷编号则包括上文分析所提及的档案类目、案卷号、序号以及工程代号。不同分类方法可以存在出入。基于以上框架结构分析,可以得知,本体不仅能够描述不同概念之间的相互关系,而且还能够描述客观世界当中实体与属性、实体与实体之间的复杂关系。
四、形成档案领域概念模型
在档案本体构建过程中,可以通过分类方法将不同概念进行整合,根据对于不同概念属性的熟悉程度,合理选择自上而下法与自下而上法。当遇到较为熟悉的内容,可以采用自上而下法,通过定义学科领域中宏观概括性的内容,然后再由此延伸拓展,逐步补充细节。对于具体细节性的内容,可以先从最小分支出发,然后将这些概念由点到面,泛化成一个综合性的宏观概念。总之,通过概念定义将概念术语以类的方式整理到本体类的层次分类系统中,各个类之间也就形成了一定层次关系。随后定义每一个类的属性,通过属性描述类中个体成员与其他类的关系,创建实例,定义函数。
五、本体 OWL语言描述
OWL即Web Ontology Language,是一种通过类、属性和实例进而描述知识组织关系的网络本体语言。OWL以语言表达和逻辑描述为基础,以XML为书写工具,用于表达计算机应用程序处理文件所包含的各种信息内容。在档案领域本体建构过程中就可以通过使用OWL语言对档案领域本体模型进行形式化描述,存储保存在计算机中,从而实现对于档案馆领域本体类、关系、属性和实例的定义,同时通过OWL描述属性的域、取值区间、描述关系等。
六、本体评价
最后,当评价和检验档案领域构建本体时,主要评价标准是档案本体是否具有清晰性、一致性、可拓展性等。清晰性即在档案术语定义过程中,并没有任何歧义,能够通过概念术语直接了解内容含义。一致性即指不同概念术语逻辑始终保持一致,逻辑链条不会发生断裂。可拓展性即指本体能够向外延伸拓展,可以相应补充新的概念属性和关系,不断扩充对于本体领域知识的认识,加深建构和理解。
七、结论
综上所述,本文主要分析了档案领域本体构建的应用与实践。构建一个完备的档案领域本体,能够帮助人们不断认识和探索档案学相关理论,提高工作效率,同时也为今后不断开拓智能数字檔案提供经验范本。
参考文献
[1]赵生辉,胡莹.拥有整体性记忆:档案领域数据本体管理论纲[J].山西档案,2020(06):17-27.
[2]陆铭.基于本体的档案馆藏资源语义知识库构建研究[D].吉林大学,2019.
作者简介
周小平(1967.08.01—),女,出生于四川省武胜县,乐善区仁和公社五大队五生产队,专业职务:副研究馆员,研究专长:档案管理,学历:大学本科。
攀枝花学院