APP下载

基于关联数据的学科电子档案资源聚合框架的构建

2019-03-02吴玲玲

图书情报研究 2019年1期
关键词:语义关联学科

刘 竟 吴玲玲

(江苏大学科技信息研究所 镇江 212013)

1 引言

随着2015年国务院对《统筹推进世界一流大学和一流学科建设总体方案》的印发并启动了中国高校“双一流”建设,教育部门和高校高度重视学科建设活动。其中,学科评估是学科建设工作中较为重要的一项内容,需要调取、查阅有关学科存档资料,以此作为数据参考[1]。

通过文献调研发现,目前我国对学科档案管理的实践与研究均十分薄弱。一方面,大多高校的学科档案建设管理制度不规范,档案资料散存在多个部门和个人手中[2];同时,随着网络和多媒体技术的发展,更多的学科电子档案由此生成,但大多为简单存储,尚未进行整合、形成一个有机整体。另一方面,学科档案相关研究较少,研究主要集中于对学科档案管理规范、建设策略以及体系建设等方面的理论研究,学科电子档案的资源组织和聚合方面还处于研究空白。由此可看出,目前我国对学科档案管理重视不够,学科档案的建设与管理现状,一定程度上影响了学科建设工作程序化、制度化和规范化发展。

《全国档案事业发展“十三五”规划纲要》中明确提出,到2020年,要初步实现以信息化为核心的现代化档案管理[3]。我国档案管理工作正处于纸质档案与电子档案并重的阶段,有学者预见,未来高校档案必然会发展到以电子档案管理为主的阶段[4]。但电子档案不是简单存储,由于数据量巨大,需要进行语义关联,将信息尽可能整合在一起,才能帮助有效检索[5]。

由此,本文通过阐述学科电子档案、资源聚合等相关概念及分析基于关联数据的学科电子档案资源聚合的基础理论,尝试构建基于关联数据的学科电子档案资源聚合框架,用于指导学科电子档案资源聚合的实现。

2 学科电子档案与资源聚合

2.1 学科电子档案的资源范围

关于学科档案的概念,有学者提出是学校在从事学科建设活动中直接形成的对学生、学校和社会有保存价值的各种文字、图表、声像等不同形式载体的历史记录[6]。学科档案涉及材料众多,还未有相关档案部门对学科档案归档范围进行说明,但很多研究已涉及该领域。盖丙兰通过分析学科档案管理工作流程,提出学科档案是学校业务层面上生成的档案,包括学科建设、教学、科研等相关资料[7]。李娟认为学科档案包括学科综合类档案、科研类档案、师资类档案、社会服务类档案以及学术交流类档案[8]。刘恩贤认为学科档案分为宏观和微观两个层面,宏观上包括学校上级文件,以及学校组织学科申报、检查、评估、验收等活动的资料和文件。微观上包括师资队伍、科学研究、人才培养、社会服务、条件建设、学术交流和制度建设等方面的档案[9]。

另外,相关文件内容也有所涉及。2017年教育部学位中心下发的第四轮学科评估指标体系中明确指出,要以师资队伍与资源、人才培养质量、科学研究水平和社会服务与学科声誉为一级评价指标,以师资质量、专任教师数、支撑平台、培养过程质量、在校生和毕业生质量、学术论文质量、出版专著或教材、社会服务贡献和学科声誉为二级指标对学科发展进行评估[10],为了更好的服务学科,学科档案应该包含以上所有资源材料。此外,2008年教育部和国家档案局制定的《高等学校档案管理办法》中强调,高等学校应当对纸质档案材料和电子档案材料同步归档,文件归档范围包括党群类、行政类、学生类、教学类、科研类、基本建设类、仪器设备类、产品生产类、出版物类、外事类和财会类[11]。

本文的研究对象为以计算机磁盘等设备进行存储的那部分学科档案,称为学科电子档案[12]。综合相关研究和文件内容,结合学科电子档案建设意义——为高校学科建设提供参考,优化学科评估工作,作为考察学校过去一段时间教学与管理水平的凭证,本文认为学科电子档案包括学科团队、科学研究、人才培养、条件设施、学术交流、学科社会服务工作以及规划制度建设等方面的材料。在信息化、现代化为核心的档案管理背景下,学科电子档案具有重要价值,是高校科研、教学和学科发展的重要组成部分,需要对其进行充分挖掘和利用。

2.2 资源聚合及其方式

资源聚合是指通过智能技术实现资源的融聚并产生新的知识元,旨在发现资源之间的语义关联,构成一个多层次、系统化的资源有机整体[5]。资源聚合研究着重解决了异构资源的语义关联和跨库检索问题。目前,国内外已运用资源聚合理念,实现了社交网络平台、智能web应用、个性化推荐等技术层面的应用[13-16]。

基于语义的电子资源聚合方式主要分为基于元数据的资源聚合方式、基于本体的资源聚合方式和基于关联数据的资源聚合方式三类。

(1)基于元数据的资源聚合方式。元数据作为一种基本的信息资源描述与组织方法,主要用来解决资源管理和共享问题,其资源描述功能在资源存储与检索方面发挥了巨大作用。美国博物馆采用该聚合方式实现了对IMLS(Institute of Museum and Library Services,美国博物馆与图书馆服务研究所)资助中心内容资源的一站式检索[17];另外,国内学者张宇等制定了一种伸缩性良好的元数据规范,对分散系统中的异构数据进行了集成,并在医药卫生数据共享工程应用中取得良好经济效益[18]。

(2)基于本体的资源聚合方式。由于元数据在异构资源的描述应用上功能较弱,学者们又提出了基于本体的资源聚合方式。在此基础上,Kuo提出了基于本体的知识聚合框架[19];Scherl等对大量异构的军事决策资源进行了智能融合[20];冷伏海采用重构领域本体分类、构建基本类间关系本体和语言分层转换等方法,促进了特定领域本体的整合[21];曾建勋提出了一种基于科研本体的聚合模型,通过科研实体之间的关联关系,达到资源聚合的目的[22]。

(3)基于关联数据的资源聚合方式。基于元数据和本体的资源聚合方式虽然能够较为全面地描述资源,但无法在多领域的异构资源之间建立语义联系,如学科电子档案中的人员类、科研成果类和科研团队类等。而关联数据的提出为解决资源的开放聚合提供了新契机。国外已充分利用关联数据技术,实现了科研人员、所属机构、研究成果和科研项目之间的整合和集成[23]。在国内,苏春萍提出了基于关联数据的医学图书馆信息整合模型,有助于医学资源的充分利用[24]。基于关联数据的电子资源聚合将成为下一阶段资源集成与服务的研究重点。

由于学科电子档案资源种类多,保存格式多样,如图片格式、文字格式、网页格式等,且资源分布在多领域,采用基于元数据和基于本体两种方法实现学科电子档案资源聚合显得比较薄弱。因此,研究采用基于关联数据的资源聚合方式对学科电子档案资源进行聚合研究。基于关联数据的学科电子档案资源聚合研究目标是,实现学科电子档案不同类型、不同来源资源的聚集和语义层面上的融合,深化学科档案信息服务功能,开发利用其潜在价值,从而更好的服务于高校的教学、科研和学科建设,服务于国家的科技发展与经济建设。

3 基于关联数据的学科电子档案资源聚合的理论基础

学科电子档案资源种类繁多,如学科团队、科学研究、社会服务等,但各类资源之间存在着较强的语义关系。关联数据及其技术可将存在关联关系的各类资源进行语义链接,实现资源的聚合和检索。

3.1 学科电子档案资源间的语义关系

学科电子档案涉及学科团队、科学研究、人才培养、条件设施、学术交流、学科社会服务工作以及规章制度建设等方面的资源。各类资源之间具有多种语义关联关系,具体如图1所示。

图1 学科电子档案资源关联关系

由图1可知,学科电子档案各类资源之间关联密切,如学科团队与学科团队之间的合作与交流关系;学科团队和学生之间的培养与合作关系;学科团队与科学研究之间的科研产出关系;科学研究与社会服务之间的相互促进关系等。各类资源及其关联可借助RDF进行语义描述和链接,学科电子档案各类资源之间关联关系的存在,使得学科电子档案资源的语义关联和聚合成为可能。

3.2 关联数据技术的作用与优势

关联数据是将未进行关联的资源链接起来,即在语义网中采用URI和RDF发布、分享和链接各类数据、信息和知识[25],可促进资源整合为一个富含语义、互通互联的有机聚合系统,实现用户在整个知识领域内资源的准确、可靠查询与阅览[26]。目前,已有学者基于关联数据实现了对非物质文化遗产、馆藏资源、网络社区学术资源等进行聚合[27-29]。

在关联数据研究领域,存在较为通用的语义描述规范,从不同角度分为关联数据集的语义化描述、知识组织体系的语义化描述和数字资源描述模型等。这些语义关联描述模型所涉及的词表和本体可面向所有资源,无论有形的还是无形的,包括BIBO、PRISM、DC、SWRC、FOAF等。其中,BIBO作为书目文档分类本体,主要用于描述语义网中以RDF形式存在的书目资源[30];PRISM可用于在出版渠道和平台管理等出版内容[31];DC是都柏林核心集,主要用于解决网络信息资源的描述、控制和管理问题[32];SWRC是为描述与特定研究社区密切相关的各类核心实体,以及他们之间的关联关系而建立的本体模型[33]。在构建学科电子档案资源的关联数据时,可针对学科电子档案各类资源的特点和属性,对现有语义关联描述模型中的词表和本体进行复用或适当修改、完善。因此,利用关联数据可高效地对学科电子档案资源进行描述,进而实现资源的语义链接和资源聚合。

3.3 学科电子档案资源聚合与服务的支撑技术

在确定学科电子档案能够建立关联关系后,可借助各种支撑工具,如将关联数据的RDF三元组存储于Virtuoso中,建立索引机制,形成基于语义的关联数据网以实现资源聚合与发布;或采用D2R开源软件,实现关系型数据库的RDF转换,并通过URI标识资源,以SPARQL查询功能,提供资源的查询、检索服务。还可采用Drupal内容管理系统,结合其内嵌的各管理模块,动态分配URI,生成关联数据并发布。

学科电子档案资源聚合的价值,主要是以面向用户实现基于关联数据的信息浏览与知识查询来实现的,包括集成检索、资源浏览以及导航服务。在便捷查询信息的基础上,借助关联数据技术,深入链接到其他学科电子档案相关信息的详细数据,更多的挖掘出数据网中的知识单元。

4 学科电子档案资源聚合框架及其应用

4.1 “框架”的构建

“框架”是建筑学中的概念,表现为一组抽象构件及构件实例间交互的方法,是一种可复用的设计,用于解决或处理复杂问题[34]。在对学科电子档案资源的语义关系和聚合与服务的支撑技术分析的基础上,本文构建了基于关联数据的学科电子档案资源聚合的框架(如图2所示),包含资源层、语义关联描述层、关联数据创建层、关联数据聚合层以及应用服务层五个部分,各部分由下而上,构成实现基于关联数据的学科电子档案资源聚合的完整流程。

图2 基于关联数据的学科电子档案资源聚合框架

(1)资源层。资源层是实现资源聚合的第一步,学科电子档案资源类型包括学科团队类资源、科学研究类资源、人才培养类资源等核心资源,涉及的数据类型有图片、视频、音频和word/excel等。在该阶段,应全面分析学科电子档案的资源类、子类、属性及其关系。

(2)语义关联描述层。语义关联描述是学科电子档案资源关联数据构建和资源聚合实现的关键,该阶段主要通过深入分析各类资源的结构、内容和关联关系,形成语义关联模型,从而为资源关联数据的创建奠定基础。在学科电子档案领域,可借用BIBO、PRISM、DC、SWRC、FOAF等现有本体或词表来构建语义关联模型。

(3)关联数据创建层。构建了资源的语义关联模型,下一步骤是借助关联数据关联与创建的方法和工具创建关联数据。主要包括RDFizer、开源工具D2R Server以及关联关系自动构建工具Silk、LIMES等,这些工具可为不同形式、不同载体、不同内容的学科电子档案资源关联数据的创建提供技术支撑。

(4)关联数据聚合层。该层是连接服务层和语义关联模型层的中间层,也是实现学科电子档案资源聚合的又一关键程序。目前,有多种工具可用于实现学科电子档案资源聚合,如艾金勇通过采用D2R服务器、D2RQ引擎与D2RQ映射文件,实现藏书书目数据的深度链接和聚合[35];瑞雪娟等借助Drupal工具,实现了多类型学术资源的信息聚合[36]。施旖采用主题图知识组织技术,对非遗档案资源进行了聚合,实现了知识定位等多种功能[37]。由此,可根据具体实际情况,选用D2R平台、Drupal内容管理框架和主题图知识组织等技术方法实现学科电子档案资源聚合。

(5)应用服务层。提供更好的资源服务是实现学科电子档案资源聚合的最终目的,由此,应用服务层处于框架的顶层,是聚合效果的呈现方式。目前,主要可通过专门为用户提供html浏览、RDF浏览、语义检索及知识服务等资源服务形式,实现基于关联数据的学科电子档案聚合资源的应用服务。

4.2 “框架”的应用

构建基于关联数据的学科电子档案资源聚合框架,具有多方面的实际应用功能,具体为:可以引导学科电子档案关联数据的创建与发布、指导基于关联数据的学科电子档案资源聚合的进行以及促进基于关联数据的学科电子档案资源聚合平台的设计与实现等。

(1)引导学科电子档案关联数据的创建与发布。关联数据的创建与发布流程较为统一,主要是通过建立资源间的语义关联,借助相关成熟工具将其转化为关联数据并发布。框架的前三个层次就是按照该流程设定的,能够引导学科电子档案关联数据的创建与发布。步骤为通过资源层,明确学科电子档案具体资源类型,以及资源类的子类、属性及其关系;而后,进入语义关联描述层,借助支持学科电子档案语义描述的本体或词表,实现资源的语义关联;最后,依据关联数据创建层中建议的学科电子档案资源关联数据的创建与发布方法,引导实现不同形式、不同载体、不同内容的学科电子档案资源关联数据的创建与发布。

(2)指导基于关联数据的学科电子档案资源聚合的实现。基于关联数据的学科电子档案资源聚合框架的构建,主要目的就是为了指导基于关联数据的学科电子档案资源聚合的进行。在关联数据聚合层中,已依据现有的资源聚合研究实例,列举出有效的资源聚合技术方法。资源聚合建立在关联数据创建的基础上,在基于前三层次实现学科电子档案关联数据创建的前提上,依据一种资源聚合技术,能够实现学科电子档案资源聚合。一般促进资源从多种角度进行聚合,以增强资源的关联强度。

(3)促进基于关联数据的学科电子档案资源聚合平台的设计与实现。学科电子档案在实现资源的获取、描述、关联以及多种模式的聚合后,可通过设计开发基于数据库及面向Web的分布式应用系统,即基于关联数据的学科电子档案资源聚合服务平台,从而以更好的形式为特定用户服务。已有的研究案例表明了实现资源聚合平台的意义,如刘炜等利用关联数据技术重组图书馆资源,构建了图书馆历史文献服务平台[38];曾琦研究构建了基于关联数据的图书馆云服务平台[39];黄冬春通过构建基于关联数据的农业科技信息资源服务平台框架,促进了农业科技方面的用户知识交流等[40]。

基于关联数据的学科电子档案资源聚合平台的设计与实现,属于框架的顶层应用服务的设计,此时,该聚合框架可作为服务平台设计与实现的基础支撑环节。

5 结语

本研究在分析学科电子档案资源语义关系、关联数据的作用与优势以及学科电子档案资源聚合与服务支撑技术的基础上,借助关联数据技术,从语义关联的角度构建学科电子档案资源聚合框架,用于指导聚合实现,拓宽学科档案研究领域,填补研究空白;也可为之后的学科建设活动提供便利,帮助规划未来的学科发展发向,促进学科档案工作程序化、制度化和规范化发展。

在“框架”实施时,还要注意以下几点问题:首先,进行关联数据聚合时,注意根据数据量大小建立数据管理中心,以便更好地对数据进行维护和管理;由于目前在关联数据的访问权限控制上还没有可使用的标准,由此需要对其安全访问进行规范化和标准化研究;另外,在实际聚合的过程中,会遇到关联数据更新问题,直接涉及到数据链的修改或删除的问题,由此,必须要保证关联的同步更新,避免出现访问无效死链的情况从而影响用户满意度。

本文提出了“基于关联数据的学科电子档案资源聚合”的理论框架,尚未进行实践验证。在后续研究中,将以该框架为基础,实现基于关联数据的学科电子档案资源聚合服务。

猜你喜欢

语义关联学科
真实场景水下语义分割方法及数据集
【学科新书导览】
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
土木工程学科简介
语言与语义
“一带一路”递进,关联民生更紧
奇趣搭配
“超学科”来啦
智趣
“吃+NP”的语义生成机制研究