APP下载

高校档案知识图谱构建及系统实现探析

2023-09-10张雯君

兰台内外 2023年22期
关键词:高校档案知识图谱

张雯君

摘 要:随着数字化进程的深入,智慧校园的广泛建设,产生大量形式异构、内容繁杂的高校数字资源。高校数字资源在收集、检索查询上的功能缺失,导致档案关联度差,无法深度开发资源和信息共享。构建一种基于知识图谱的档案管理系统,解决高校档案管理过程中知识关联弱,档案价值挖掘程度低等问题,为高校档案智能管理提供新的思路。

关键词:高校档案;知识图谱;档案系统

知识图谱这一概念起源于Google公司提出的“Google Knowledge Graph”,目的是优化搜索引擎,用来提供更复杂的关联信息查找,从语义层面解析用户的意愿,从而给出更加具有针对性的搜索结果。高校档案记录了学校在教学、科研过程中发生的多种活动,对于学校的管理和建设起着重要的作用。将知识图谱技术与高校档案相结合,有效开发和利用多种形式的高校档案资源,从高校档案数据中构建高校档案本体关联知识图谱,以可视化的形式展示高校档案,并基于知识图谱展开有效的知识推理和语义檢索,实现高校档案价值增值。

一、档案知识图谱研究应用

随着人工智能的快速发展,知识图谱在档案学探索中的运用逐渐增多并不断发展。参考现有的知识图谱在档案学中的应用,可以得到启发。例如,利用知识图谱做关键词共现分析,得到所有档案中共同出现的关键词词频,以此研究档案的热点内容、共同特征等;绘制档案关键词共现的时间序列图谱,展示不同时间段的档案的热点或共同特点;利用突现词探测法了解档案中出现的新内容,还可以结合时区图得到一段时间内的档案热点内容,知识图谱除了应用于语义搜索,还被应用于推荐系统、辅助决策等方面。

二、高校档案知识图谱构建的可行性

知识图谱作为大数据时代一种可以揭示实体之间关系的技术,在知识的推理和语义检索等方面展示了巨大的能量。能够对档案信息重新整合,将关系抽取出来,并利用可视化图谱展现其系统化、有序化的知识组织。将知识图谱运用在高校档案管理系统中具有以下优势:

1.知识图谱可以实现信息共享,揭示数据之间的关联性

高校档案具有数据量大、内容丰富的特点,为了快速挖掘档案资源信息,知识图谱可以将相关联的数据重新组织成一个网络数据群,以可视化图谱的方式展示其知识脉络。这样不仅可以实现不同资源之间的快速连接,还能够让需求者快速获得档案信息,使得资源共享服务得到最大化。

2.知识图谱可以提升档案利用效率

知识图谱通过挖掘碎片化的信息、重新组合以及描述发展进程,了解实物之间的完整关系。因此,相比于传统的档案管理系统,知识图谱可以提高档案之间的利用率,实现查询、检索自动化,全面展示该领域中各要素的关联情况、发展情况等。

3.知识图谱可以展示档案数据的动态特征

高校档案随着不同阶段的加工往往会表现出动态的变化特征,知识图谱的加入可以实现档案数据的实时更新,对其开展动态调整从而保障档案的完整性与准确性。

相较于其他内容的大数据,高校档案数据记录真实的教学活动和管理建设工作,经过严格的分类,其内容的表达也有严格的规范,有着较为完整的档案元数据标准,为基于知识图谱的档案管理系统打下良好的数据基础。目前,从高校档案管理现状以及系统需求分析,结合知识图谱构建过程,以山东建筑大学档案为数据源,开发具有智能采集与归档、碎片化加工、增强高校档案资源间关联关系性能等系统,提升高校档案管理水平,并解决其管理过程中知识关联弱,档案价值挖掘程度低等问题。

三、高校知识图谱构建方式和流程

1.高校知识图谱构建方式

知识图谱普遍存在两种构建方式:一是自顶向下的构建方式,首要建立图谱模型,构建知识图谱本体,随后将实体及属性匹配设计到模式层本体中。自顶向下的方式,是垂直领域知识图谱常用方式,因难度技术较低,需要依靠分类体系确定性高的结构化知识库;二是自底向上的构建方式,利用公开的数据,运用知识提取出知识,选择高质量的知识导入知识库中,并加以组织。自底向上的方式,体系更加完备,具有较高的智能化,适用于非结构化的知识库。高校档案知识库存在大量异构数据,较适用于自底向上的构建方式。

2.高校档案知识图谱构建流程

运用信息技术抽取非结构化、半结构化以及结构化数据的有效信息形成知识网络是高校知识图谱构建的基础。高校知识图谱的构建过程有三个阶段,即知识抽取、知识融合与知识计算。知识抽取,即从高校原始数据中提炼出实体、属性以及实体之间的关系;知识融合是指在完成知识抽取后,对新知识中相同的实体进行整合,或消除具有矛盾和歧义的知识;知识计算的过程就是对新获取的知识展开筛选评估的过程,经过评估合格后的知识补充到知识库中。

(1)知识抽取。 知识抽取是高校档案知识图谱构建的第一步,通过自动化或半自动化的知识抽取技术,从高校档案原始数据中获得实体、关系及属性等可用知识单元,为高校档案知识图谱的构建提供知识基础。

(2)知识融合。由结构化数据、非结构化数据等多源异构数据源抽取的知识存在冗余、语义冲突和知识重叠等问题。为了能够更有效地构建知识图谱,要应用知识合并技术从数据模式层融合和数据层融合两方面实行融合,对知识实行实体消歧、冲突检测、共指消解和实体整合处理。实体链接为知识融合的关键技术,主要包含实体消歧和共指消解。分别用于解决一词多义以及指向同一实体有不同表述的问题。目前,实体消歧主要采用聚类法,而共指消解可以使用分类的方法和聚类的方法求解。

(3)知识计算。经过知识抽技术得到的知识,经过知识融合后,生成初步表达。然而,为了得到结构化、网络化的知识网络,产生更精准的模型,还需要展开知识计算。首先,知识计算需要构建本体,也就是通过人工编辑的方法或由数据驱动机器的方法构建特定领域的本体。其次,开展知识推理,运用推理技术从现有数据中获取新关联,完成新知识的补充。知识推理的知识开展质量评估,实现知识可信度的量化,保障知识库的质量。

四、基于高校档案知识图谱的档案管理系统设计路径

1.国内高校档案管理现状分析

通过国内外高校档案管理研究综述,并调研山东大学、济南大学以及山东交通学院等山东省内高校档案管理现状,在充分了解高校档案资源专业性、综合性等特点的基础上,在研究中发现高校档案管理经过近几年的发展,信息化水平有所提升。但在高校档案管理模式、档案收集、加工以及存储与利用、信息共享等方面还存在诸多问题。

(1)高校档案管理模式。目前,国内高校仍以纸质档案管理为主,相关档案管理制度主要适用于传统档案管理。档案信息化制度建设和技术建设方面成果较少。部分高校因信息化管理意识欠缺、经费不足以及技术能力薄弱、专业人员缺乏等问题,尚未开展纸质档案数字化工作。对于已开展数字化工作的高校,仍有一半以上数据检索需要靠人工完成,学生通过自行前往档案馆查阅,信息化还处于较低水平。

(2)档案内容的完整性。高校档案管理的第一步是档案收集,档案收集的完整性、可靠性和准确性决定了档案利用价值。目前,高校档案收集工作普遍存在档案收集不當、内容缺失的问题。主要涉及三个原因,一是档案收集制度不完善,缺乏有效的监督机制使得档案未能及时归档;二是档案的来源比较广泛,分散于各个部门,加大了档案收集的难度;三是档案收集流程不规范,未做到应收尽收,存在缺少附件、日期不明确和内容缺失等问题。

(3)档案的存储与共享利用。一般来说,高校档案分散存储在不同部门,且各部门之间无法相互访问,各部门之间缺少沟通与联系,高校档案管理存在着分散和多重管理的问题。解决这一问题,需要各类单位、机构、部门建立共享机制,实现资源共享。此外,由于档案存储不当,存储流程细节不够具体,极易造成档案丢失。电子档案的存储会因为具有一定的开放性而遭到泄露和入侵。目前,各高校的档案系统还未实现专业化与数字化,档案之间的调用与查阅过于烦琐,无法直接利用。因此,构建一个科学、系统的高校档案管理系统是必不可少的。

2.系统技术支持及框架设计

面对海量的异构数据,高校管理者需要从管理软件中解决档案的智慧化收集和归档等问题。运用知识图谱技术,汇集高校行政、人事、科研、资产和学生等各类的档案,从而使之产生关联,为高校高质量发展提供档案数据支撑。

基于知识图谱构建方式的利弊,选择自下而上的构建方式,构建高校档案管理系统。总体架构自下而上划分为数据解析层、智能识别层、语义关联层和智能管理层。

(1)数据分析层。数据分析层为高校档案管理系统提供数据与收集规则。由于高校档案资源分散于各个部门管理,且类型各异,有储存在数据库的结构化数据,也有以图片、文本形式存在的非结构化数据。这些档案没有经过系统处理,加大后期档案的识别与加工难度,因此,需要在数据解析层设计档案收集规则。针对不同格式的数据源分别开发对应的解析工具,使用ETL引擎对来源数据实行解析、抽取和结构化处理,保证从各数据源采集的数据可以统一清洗、规范、管理和使用,并严格按照统一数据标准实行存储。

(2)知识抽取层。在智能识别层主要提取档案中不同类型的实体、关系与属性值,并用三元组的表示方式揭示各档案数据之间的关联。例如,从结构化数据中生成档案、人员、时间和具体发生的事情等实体,并获取对应的属性值。由于高校档案数据量过大,可利用机器学习方法完成档案资源关系的抽取,按照知识图谱中知识抽取的步骤将这些内容存储在数据库中,并转化为RDF三元组的形式,方便后续的管理与应用。

(3)知识关联层。语义关联层对抽取出来的信息实行知识融合和语义丰富化。从多个来源获取档案数据后,由于某些实体可能存在多种表达方式,因此,需要消除矛盾和歧义,并补充其属性信息。在知识图谱中,可视化直接提供了高校档案的直接分析。根据建立的知识图谱系统原型,使用相关的推理引擎对高校档案中的关联关系作出合理推理,以便后续的更新与管理。此外,可以利用文本相似度等方法对档案中的内容作出相似度分析,丰富图谱中档案的关联程度和数据信息。

(4)智能管理层。根据已经构建好的基于知识图谱的高校档案管理系统,在智能管理层融合数据解析模块、语义识别模块和语义推理模块等。利用档案数据的特性,对知识图谱中的数据开展知识挖掘,形成高校档案和其他数据库的新关联。此外,在可视化功能上,使用者利用检索功能对想要查询的档案资源进行调动,通过系统内部的解析形成个人的档案知识图谱。

3.系统核心功能

(1)智能化采集与归档。目前,高校档案资源主要包含纸质资源与电子资源两种。其中,纸质档案要利用扫描设备实现数字化。对于不同来源的信息数据利用智能化技术对档案资源所包含的内容展开智能识别、采集,排除无效信息,满足用户的查询需求。

(2)自动抽取与关联。高校档案种类多且繁杂,需要运用知识图谱技术开展知识抽取。通过构建实体、关系、属性的RDF三元组,利用实体抽取辨别实例数据是否被定义,利用关系抽取分析实体关联程度,利用属性抽取采集特定实体信息。

(3)语义增强。在传统的档案系统中,档案之间的利用率极低,限制了档案中真正有价值的信息流动。而基于知识图谱的高校档案管理系统可以利用语义技术促进档案数据的关联与利用,将档案实行多元化语义关联,方便系统管理员智能化组织档案资源,以增强档案资源语义性,形成高质量的高校档案知识图谱,提升档案管理效率。

五、高校档案知识图谱构建思考

通过开展高校档案知识图谱应用研究,旨在推动高校档案管理模式向语义关联化与智能化发展。构建高校档案知识图谱及开发高校档案系统时,还需要考虑几个问题:(1)由于现有的知识图谱绘制软件较多,选择合适的绘图软件变得很有必要。已有学者对使用率较高的几个知识图谱软件的功能、优势和缺陷进行了对比分析,使用者在选择时仍要充分了解不同软件的特性,充分理解其应用的主题,并做出最合适的选择。(2)知识图谱绘制软件多数对中文数据的兼容性不强,通常需要对中文数据展开格式转化。

参考文献:

[1]董 伟,朱小梅,徐少同.基于知识图谱的近10年国际电子政务研究进展分析[J]. 图书情报工作,2012(13):19-25.

[2]张 璇,苏 楠,杨红岗,等.2000-2011年国际电子政务的知识图谱研究——基于Citespace和VOSviewer的计量分析[J].情报杂志,2012,31(12):51-57

[3]赵范心.基于知识图谱的档案知识服务模式思考[J].办公室业务,2022,(13):64-66.

(作者单位:山东建筑大学)

猜你喜欢

高校档案知识图谱
浅析提高高校档案过程管理质量的思考
高校档案信息化管理工作改革及创新分析
探讨高校档案管理工作的创新策略
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
高校档案信息化建设存在的问题及有效策略
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展