基于本体特征的档案系统模型构建
2015-11-14周佳明
周佳明
(扬州职业大学,江苏扬州 225009)
本体一词最早出现在古希腊,表示对客观存在的事物的说明或解释。上世纪七十年代被用于人工智能,将其含义引申为构成相关领域的基本属性和关系。上世纪九十年代,它的概念又被进一步地规范化。本体是概念模型的形式化说明,且这些模型都是共享的。它具有以下几个内涵:概念模型、形式化的、共享的、明确表达的,这四个内涵在计算机人工智能方面具有知识表达的意思。上述定义把本体的概念推向了一个新的阶段。
一、档案管理系统中本体概念的引入
将本体论研究方法和技术运用到档案管理信息系统的建设中,对其进行建模和分析,将档案管理中的一部分转化为抽象概念,可以实现概念同概念间的关系构建。档案管理当中,本体论可以实现对档案数据和资源的描述,将数据的采集模式进行统一,从而统一实现信息共享与数据提取。
一般来讲,档案内容的揭示形式包括关键词和主题词等,这样的标引方案往往是模糊的、浮于表面的,计算机对档案内容的理解程度也是有限的。因此,通过计算机检索的方式查找所需要的档案内容较难。通过处理元数据,并基于元数据相关标准,可以实现元数据的组织和共享。这种方法有利于档案的规范和共享,但是无法有效提示档案中的具体内容以及各档案间的相互关系,尤其是由于元数据体系概念推理能力上的局限性,无法对档案检索和共享提供知识支持。而这种缺陷可以通过档案信息本体进行完善。档案信息本体与其他方法相比,长处在于可以实现信息的共享,从而建立相关的模型研究;另一方面还可以借助本体的研究防止概念产生;本体信息研究还可以通过建立知识库实现对档案管理系统的完善,从而为智能档案管理提供有效的支持。
档案信息的检索应用可以很好地说明档案信息本体的这些优势及其在档案信息管理中的作用。
二、档案管理系统中的建模工具
Protégé作为一种先进的开发工具,并不是独立发展起来的,而是基于面向对象的JAVA部分内容,它支持类、元类以及属性的OKBC兼容,在公理格式方面,符合PAL和KIF语言的相关标准;在知识获取方面,支持实例的自动生成和抓取。ProtégéPrompt插件是本地进行合并的重要手段,支持多种输入、输出格式,包括 OIL、RDF、XML 和 OWL 等[1]。
Protégé不是一个全新的工具,而是基于Java语言环境逐步发展和完善的,它具备以下的优点:操作方式更加友好,是利于操作的图形界面;对字符格式支持较好,尤其是对Unicode的支持,大大扩展了应用领域;系统在实际工作中需要其他软件和插件,在Protégé是免费被支持的;允许 DAML+OIL的相关技术标准,甚至最新的技术成果OWL在Protégé也是被支持的。另外,Protege还能够在系统外通过其他编辑工具进行修改操作。
三、档案系统应用本体建模流程分析
档案管理系统里所描述的本体是档案领域里的专有概念,用来表示专门的某个领域范围内的所有知识。领域本体属于专业性范畴,它把这个学科中的重要词条以及这些词条之间的关系具体地描述出来,描述的内容有时还包括学科内有影响力的理论成果。
具体来讲,档案领域本体就是针对查询功能的档案领域建模的结果,简单来说,就是通过有效挖掘,实际活动中凡是与档案相关的查询操作都抽象为一组概念(或者一组概念的相互关系)。档案本体对实际活动中档案的解释,是从概念结构和抽象空间两个层面上进行的,是一种系统化的过程。尽管实际的描述过程中,创建本体的手段可能并不唯一,但可以确保本体的建立是正确的、完整的。经过对档案领域查询功能的调查,结合已有的理论指导,具体的构建流程有(见图1):
图1 档案领域创建本体的过程
(1)确认需求分析。该过程中,第一要务是把构建本体的原因确定好,还要明确用户群体和涉及的相关部门,具体到本系统,它的需求就是面向档案领域。
(2)共享语词库创建。在这个步骤中,领域共享语词库的表示过程需要运用描述逻辑的手段进行。在本地的领域和范围内,本体建立者的第一要务是把共享语词库建立起来,然后把目前有用和将来可能有用的属性、语义以及实例等进行搜集整理。要想建立一个好的领域共享语词库,最重要的就是把领域内信息收集齐、把领域内知识掌握好,这些信息的来源没有固定的渠道,可以是有经验的专家、外部本体或者互联网等等。
(3)表示本体。该过程中,本体的描述需要使用OWL这个工具,首先要做的是描述逻辑,然后对不同的概念进行划分,最后是把类的属性进行定义以及创建实例。
(4)客观评价本体。在评估的过程中,需要对结果做一个判断,以此来确定下一步是返回(2)中重新创建,还是就此就结束这个过程。
四、档案领域本体的表达
对系统的需求进行实地调研后,结合档案信息的组织架构,档案领域概念的主要内容为:案卷编号、全宗号、题目、保管期限、记录好状态、负责人、类别、页码。
(一)应用在档案管理的本体模型
档案检索的需求是十分明确的,就是把主要的概念以及它们的相互关系构建在本体模型结构图中,局部如图2所示。
图2 档案领域本体局部结构图
档案领域内概念的关系类型具体情况为:
(1)part-of:一个概念是另一个的一部分。
例如:档案是本系统的整体概念,其包含的“内容”是概念“档案”的一部分。
(2)kind-of:表示某一概念是另一概念的下属、继承关系,在信息结构中类似的概念如上下位关系、父类-子类关系。
例如:有两个概念,分别记做概念 A、概念 B。另外有概念C、概念D,分别记做记C={X|X是A的实例},D={X|X是B的实例};对于所有的的X,如果属于D,那么一定属于C,C就是D的父概念,D就是C的子概念。
(3)instance-of:一个概念是另一个的某个实例。这与类和类的对象非常接近。例如:案卷编码的实例可以为QT-211-C/201308。
(4)attribute-of:一个概念是另一个的某个属性表示。例如:在档案的概念中,页数就是它的一个属性。
(二)基于案卷编号扩展的本体模型
查阅档案时,一般按照档案的类别、责任人、立卷日期等进行查询,但由于以上属性可能不是唯一的,所以准确性相对于按照案卷编号查询较低。一个档案必须有自己唯一的标识,即唯一的案卷编号,案卷编号是确定档案唯一性的重要属性。为了提高检索过程中的准确性和效率,本体扩展检索的基本思想是在档案的案卷编号基础上进行的,设计的具体示例如图3所示。
图3 基于案卷编号的本体表示结构图
由上图可以看到,结构图共分了五个层次:最上面是根节点,代表的内容是案卷编号;第二层是案卷类目,如前文的论述,按照需求分了6个部分;接下来的层是案卷编号;再接下来代表工程号;最后一层是标识案卷的时间序列。
在检索过程中,用户输入的案卷编号可能不完整,所以,就会查询到不同的层次节点上,这可以很容易地找到那些用户需要的节点信息,还能找到旁边、附属、下属的节点,经过这个过程,查询范围就变得更加宽泛了,这就实现了检索的扩展。
(三)Protégé中构建档案领域本体
系统建设要充分考虑目标客户的实际需求,具体来讲,建设档案系统的目的就是为了强化管理、提高工作效率。与企业级的信息系统应用相比,档案系统规模算是很小的,因此建模可以采取简单易操作的手动方式。
在Protégé构建本体的过程中,一般有四个过程,即需求分析、确定类和所属层次、确定属性(及具体值的范围)、实际添加实例。在档案检索领域的本体设计过程中,运用Protégé工具,利用其生成OWL文件进行实现[2]。图4是档案领域本体关系图,由Protégé工具自动生成导出。
需要输入实例的时候,首先要明确类和属性的结构是怎么样的。例如在已经排好序的父类中,把一个有序的子类插入进去,具体的插入算法可以选用数据结构算法描述的任何一种,包括折半、直接插入、两路排序插入、直接插入、希尔插入和表插入等等。
图4 档案领域本体关系图
运用Protégé的过程中,为了添加实例,需要使用Individuals标签的5个面板,涉及的属性内容包括类的思想、实例具体名称以及性能的复杂度等,接下来,在描述插入的详细过程中,运用直接插入的方法,具体内容如下:
基本思想:不做任何附加的工作,就可以把各个记录分别插入到一个有序的序列中去;
Individual:直接插入排序算法;
文字描述:某个有序的序列[1…,i-1],其共有i-1个元素的记录,需要插入r[i],这时序列中所包含的元素数就变为了i个,新的序列是r[…i];在插入的过程中必须要考虑的一点是存放序列的数组不能越界,因此仿照顺序查找的算法,在r[0]处设置一个“监视哨”,所有的插入都是自“i-1”往前挨个搜索,记录能够在查找过程中顺序后移一个位置,那么,排序的过程就需要n-1次的插入操作。简单说来,把序列的第一个元素作为最简单的有序序列,从第二个记录开始逐个添加到有序序列当中,直至所有的记录都被插入到序列当中,这时的序列按照关键字排序。
档案的本体库的建立过程,需要大量的实例被赋予相应的属性及属性值。
(四)性能分析与比较
查准率和查全率是信息检索评价的主要标准。把需要查询的一组文档标为{Relevant},相应的系统会检测出标为{Retrieved}的另一组文档,还有可能检索出另一组标为{Relevant}∩{Relevant}的文档。我们对查全率和查准率做出如下定义[3]:查全率是实际检索到的与信息有关联的文档总数与信息库中总相关文档数的比值。计算公式为:recall={Relevant}∩{Relevant}/{Relevant}。
查准率是全部检索结果中相关文档数与总数的比值。计算公式为:Precision={Retrieved}∩{Relevant}/{Retrieved}。
为了检测模型的效果,笔者在本体模型的基础上构建了一个简单的档案检索系统,以检索内容DQ、DQ-123、DQ -123-A、DQ -123-B为例,进行了简单实验。表1是基于系统档案查询模块的运行结果。
表1 用户输入逻辑表达检索、案卷编号本体扩展检索效果对比表
五、结语
本文介绍了档案领域本体的重要概念,运用Protégé工具,对档案领域本体进行了设计并完成构建,列出了构建的整个过程。档案信息需要完善存放且稳定性较好,因此,案卷编号本体化的方法,其结构是一个倒立的树型,它有自己的兄弟关系,还有父子关系,这为档案信息检索语义的扩展提供了重要的支撑。通过建立及应用本体,提高了档案信息检索的查全率和查准率,同时满足了用户个性化服务的需求。不过还需继续探索研究并改善诸如:实际操作中的系统的全面性、完善性和可维护性等问题。
[1]张本英.战后西欧国家对私人档案的政策[J].档案与建设,2012(8):12-13.
[2]张大伟.贴近民众讲究实效——美国档案馆利用服务情况纪实.[EB/OL](2008-03-21)[2013-08- 02].http://www.arch/ves.sh.cn/gilw/201203/t20120312-4542.html.
[3]李景.主要本体构建工具比较研究[J].情报理论与实践,2012(29):109-111.
[4]邓志鸿,唐世谓,张铭,等.Ontology研究综述[J].北京大学学报:自然科学版,2002(5):730-738.