数字人文下的图书馆开放数据服务机制分析*
2021-01-07凌霄娥
凌霄娥
(广西民族师范学院图书馆 广西崇左 532200)
大数据时代的信息风暴改变了人们的思维、生活与工作方式,大数据在各行业、领域的开发和利用有助于推动社会发展。数据价值的挖掘要通过各技术平台实现,要求人们能够参与。因此,如何高效利用大数据资源成为目前业界需要考虑的主要问题。大数据使图书馆数据发生了改变,使其从少量、有序、单一的结构化数据转变成为海量、无序、多元化的非结构化数据[1]。本文基于现代数字人文视角,分析图书馆开放数据服务机制的创新。
1 数字人文内涵和发展现状
数字人文指的是使用现代化网络信息技术开展的多学科人文领域应用组织方式,其研究基础是将计算机技术融入人文学科,使人文文献资料向图片、音频、视频等数字媒体化方式转变,是一门涉及多学科领域的交叉学科。数字人文研究主旨是利用数字化技术和人文学科相互融合产生的全新服务模式,拓宽人文学科的发展方向和渠道。在此过程中尤为重要的就是寻找计算机技术和人文学科的相关连接点,从而创新数字人文背景下的服务内容。
和国外发达国家对比,我国数字人文研究起步较晚。我国高校图书馆的数字人文研究比较多,有很多研究成果被广泛应用。比如,武汉大学图书馆数字人文研究中心将最新的计算机数字处理技术应用于图书馆人文文献资料查询与存储,便于高校人文社科研究学者利用网络数据库查询和获取所需资料信息,提高学术研究效率。部分研究学者提出在古籍文本数字化建设过程中使用数字技术、色彩还原技术以及数据重建、图像分析等技术,具有良好应用效果。目前,大部分高校图书馆面向大众开放数字化人文数据库,为人文学科研究者与爱好者提供文献支持。总体而言,目前我国数字人文研究层次水平比较低,在相应问题研究不断深入的过程中,图书馆信息服务也会充分展现更多社会人文研究成果[2]。
2 基于开放数据的图书馆角色定位
在科学知识出版、开放研究出版、开放存取运动等开放数据具体实践过程中,图书馆一直都是推行者与参与者。由于开放数据运动的实践主体为政府,发达国家尤为重视公众需求,比如法国、美国等国家征求公众的意见,逐渐开放有价值的数据集,充分展现开放数据运动过程中政府的推动者、践行者地位。图书馆在此背景下要精准定位自己的角色,充分发挥自身优势,以此实现开放数据的价值。Hope等人在研究过程中表示,图书馆员是知识支持专家与工具箱,能够实现概念知识的技术研发支持。我国研究人员表示,在开放数据环境中,图书馆的角色一般为数据保存管理中心、科学产出匹配知识服务中心[3]。
2.1 知识服务中心
在科学研究的不同阶段,图书馆科研服务及其作用也不同。比如在科研概念阶段,图书馆为进行科学研究与计划讨论的用户提供书目,并且将讨论结果创建成全新的知识。图书馆科研功能体现为:在知识分析与出版时,通过开放存取实现科研实验数据、科研进程与结论的共享交流;在同行评审时,充分发挥自身的科研情报作用,基于开放存储与社交网络分析论文与数据,提取有用的指标作为论文评价的科学依据,从而科学评价某研究领域论文与作者的学术影响力。
2.2 开放数据管理与保存中心
欧洲研究图书馆协会表示,在科学研究开放工作流中,要提高专业图书馆可见度,重视科学数据的保存与再使用。本文认为,图书馆应将数据密集型科学研究特征作为科研范式,尤其是将记录科研过程与实验过程等主要信息的科学数据作为科学研究再使用的主要数据对象,图书馆有责任扮演开放数据管理中心的角色,给科学家等用户群体提供开放数据的检索、分析与保存等服务。图书馆针对数据连续使用视角还要设置开放数据关联、标志、发布等服务[4]。
3 数字人文对图书馆发展的影响
3.1 拓展图书馆服务职能
在高校图书馆发展过程中,数字人文起到了推动作用,并且对图书馆服务提出了高要求和挑战。图书馆服务模式的转变促使文献服务向数据知识服务转变,并对馆藏文献资料进行保存、收集和整理,利用文本分析、资源导航、数据挖掘等技术对知识进行整合,将信息技术和资源与学者研究相结合,人文研究人员通过海量文献信息精准、全面地寻找与主题相关的内容,保证跨学科研究。图书馆在此过程中推动文献服务向知识服务转变,拓展了服务职能[5]。
3.2 改变图书馆馆藏资源结构
图书馆馆藏资源主要包括数字文献和纸质文献,目前纸质文献占据较大的比例,数字文献占据了馆藏文献小部分的内容。数字人文背景下,人文学者研究范式得到改变,在资源、技术获取方面对图书馆提出了更高要求,传统纸质文献已经无法满足实际需求,需要图书馆对馆藏资源结构进行调整。图书馆在经费有限的条件下,要适当降低纸质文献的购买率,可以购买人文数据库,增加数字资源的投入比例,满足人文学者的研究需求。虽然数字化馆藏无法替代纸质资源,但其所占空间小,能够快速检索,并实现智能化处理,在未来会成为图书馆主要的馆藏资源[6]。
3.3 拓宽图书馆学研究范围
数字人文将现代信息技术和人文科学相结合,通过全新技术手段与方法使人文研究者的知识获取和研究方式得到改变,有利于跨学科与跨领域的研究,属于目前人文社会科学创新发展的重点。基于数字人文背景,现代信息技术在图书馆领域被广泛使用,图书馆打破了传统学科界限,改变了馆内学科固有的模式,使面向社会的研究得到加强,朝着学科整合研究体系发展,使传统图书馆学理论与方法内容得到充分体现,还将信息时代背景下不同领域学科的补充、渗透特征展现出来。数字人文发展使图书馆学发展为现代科学,转变了传统的服务模式,拓宽了图书馆学研究范围,丰富了图书馆学的研究内容[7]。
3.4 开展嵌入式学科服务
图书馆在传统模式中的主要功能就是实现知识汇聚,在提高知识普及率、提升读者阅读效率等方面处于被动地位。此为新时代人文领域面临的主要问题,如何使作为知识传播场所的图书馆在知识普及过程中的地位得到提高,使被动服务转变为主动服务,成为人文领域从业者需要考虑的主要问题。比如,嵌入式服务模式指的是通过图书馆知识汇聚场所的作用寻找所需专业知识,吸收西方发达国家科研成果,以此寻找规律、得到启发,促进本国相关研究的发展;另一方面根据图书馆自身独特定位,将图书馆作为数字人文创建的研究平台,将数字人文理念嵌入图书馆体系中。实践表明,将嵌入式学科服务模式应用到现代图书馆中具有重要作用[8]。
为了适应新时代数字人文环境,图书馆服务体系要转变为集成化知识体系。意即在信息整理组织处理过程中,图书馆通过已有数据库掌握多个信息资源的联系,寻找科学规律,关联各知识章节,使知识整体认知朝着高水平方向发展,在图书馆知识普及过程中创建专业化的知识结构,使更多信息资源通过集成化知识模式向广大使用者进行传递。在此过程中,集成化使知识传递更加简单明了,使人们对资源获取、储备、整理的需求得到满足。虽然集成化知识能够使图书馆知识推广效率得到提高,创建更为广阔的平台,但也会使相关部门任务加重,对集成化知识进行深度整理,要求图书馆的工作效率与服务水平得到进一步提高。
图书馆作为新时代的信息平台,主要功能是对数据进行全面分析。信息时代,大部分信息平台的主要职能是提供数据分析服务。在数字技术与人文技术融合过程中,数据分析服务具有重要作用,能够深度挖掘科学知识,使科学思维得到拓展;还能够通过人文领域分析数据,对人们需要的数据进行提取。对图书馆数据进行有效分析,需要图书馆从自身丰富的文献资源中提取相关信息。在此过程中,单位和组织要强化数据分析能力,使相关人员专业技能素养得到提高[8]32-40。
3.5 丰富数字资源储备
我国目前正在探索人文技术和数字技术的有效结合方式,图书馆也积极投入数字人文研究,创建相应平台和完善硬件设备,为人文领域和数字化技术结合提供平台支撑。另外,图书馆也要提高馆藏量,使专家学者能够创建有效数据信息,满足广大用户对数字信息的需求。在此过程中,图书馆从业人员要树立正确的数字人文理念,积极投入相应研究,利用科研成果人文领域中的问题,促进两者结合发展。在资源投入方面,图书馆不必使用大量资源创建研究中心,能提供文献材料知识即可。
另外,在丰富自身社会资源储备的过程中,图书馆要进一步加大资源投入,可以使用国外先进知识体系;加强版权意识,获取每份数据文献都要征得作者同意。图书馆从业人员要提高自身专业能力,保护文献作者的合法权益。
3.6 整合多领域数据源
分析现代开放数据运动的发展,主要实践包括机构知识库、开放政府数据、存储学术期刊,和数字人文时代所要求的多类型、多领域的发展程度还有一定的距离。图书馆的馆藏资源比较丰富,适合担当大数据时代数据整合与开放的实践者。因此,图书馆要整合各方资源,比如气象、政府、科技、人文等领域的实验数据,以满足公众对于图书馆检索服务的需求。
另外,数字人文背景下开放数据是对不同政府部门、系统、机构的数据集进行整合,所以要创建数据共享与互操作框架。图书馆可以根据成功案例创建或者参与由政府、企业、社会机构构成的知识联盟,利用协作分析技术实现系统、数据的无缝隙整合[9]。
4 数字人文下图书馆开放数据服务的影响
4.1 图书馆信息咨询服务
图书馆数字阅读量不断增加,数据信息也不断增加,导致数据库超负荷运行,如何对数据进行有效管理成为数字人文背景下需要解决的主要问题。目前,对于图书馆开放数据的管理并不成熟,主要面临的问题包括:其一,目前信息存储系统无法利用大数据管理实现信息共享,信息库数据结构比较复杂,数据的共享与存储是主要问题;其二,由于数据呈爆发式增长,信息网络传输性能无法满足实际需求,文件管理与保护是需要考虑的问题;其三,互联网的共享性,要求对全网开放信息资源,因此要重视信息保护,尤其是保障信息安全性与真实性;其四,长时间的数据积累,导致文件的重复性使用,占据的存储空间比较大,因此,目前需要解决的主要问题就是数据存储。
大数据本质为数据,数据本身存在安全问题。目前开放式网络资源共享速度比较快,导致信息安全风险较高。比如,用户在利用互联网对图书馆进行访问的过程中会和图书管理员进行交流互动和资源共享,如果在此过程中网络环境存在漏洞,就会泄露用户信息。互联网时代与前互联网时代的信息安全具有一定差别,人们希望在共享资源的过程中对个人隐私进行保护。这就要求能够兼顾资源共享和隐私保护,对两者关系协调处理,使其能够共同发展。
简单来说,图书馆要满足时代发展的需求,对信息资源进行调整,使现有信息资源服务系统转变成为完善的信息服务系统[10]。
4.2 图书馆信息服务环境
在现代数字技术不断发展的过程中,传统图书馆信息服务设备已经无法满足数字人文发展的需求。目前传统图书馆服务设施受到数据技术的冲击,利用数据库能够快速查询普通文献信息,但是如果数据信息比较复杂就难以查询。所以图书馆要使用先进数据管理技术,使大数据处理需求得到满足。其次,图书馆管理人员还要与时俱进,学习新技术,提升数据库使用能力。新时代对于图书馆管理人员也提出较高的要求,要及时掌握大众偏好,提高服务质量与效率,从而满足用户需求。
4.3 图书馆信息服务模式
目前社交网站备受欢迎,图书馆也开通了网络互动功能,利用交互平台加强用户和图书馆的联系,增强了图书馆的吸引力。图书馆利用互动平台收集用户反馈建议与有价值的数据信息,提升服务水平。图书馆还能够整合互动平台资源,用户可以利用搜索功能查找和下载所需资料,也可以上传自己的研究成果并与其他用户分享,以此促进学术交流,使图书馆信息资源得到进一步扩充。图书馆要严格筛选数据,保障其真实性。
信息组织指的是处理收集的信息,创建有效数据处理系统。由于收集的数据种类繁杂,所以在数据集中处理过程中面临大量技术难题。传统图书馆数据处理技术无法满足数字人文的数据处理要求,所以要利用个性化方式处理图书馆数据[11]。
4.4 图书馆信息服务方式
由于现代数字技术的不断发展,传统信息服务方式已经无法满足目前的环境需求,图书馆要通过拓展新业务使自身信息服务能力得到提高。首先,图书馆要收集大量视频、音频、图片等数据信息,通过合理加工使图书馆信息资源得到扩充;其次,要选择互联网中有价值的信息进行处理,丰富自身的服务业务;最后,要利用互联网给客户提供个性化服务,比如通过微信定位服务,图书馆可以将周边服务项目推荐给用户,方便人们的出行。用户终端可向用户推送实时信息,使用户实时掌握图书馆最新动态,便于后续信息查询。
5 图书馆开放数据服务机制的创新
5.1 数字人文下图书馆开放数据服务的目标
其一,数字人文数据全面开放。伯纳斯-李曾经根据开放数据程度创建了五星评价模型,一星指数据可上网,二星指数据机器可读、三星指数据采用非专有格式,重视网络数据开放,但是要消除信息孤岛,数据就要达到四星标准,使用RDF资源描述框架,五星则可使关联数据需求实现,以此得到高质量数据。图书馆可以创建数字人文平台,通过初始数字化扫描进行数据管理,实现初始数据的加工、清洗、转化,以此得到关联化、结构化的数据,再利用开放结构将数据提供给公众,推动大众科研创新,实现数据全面开放,促进开放科学发展。
其二,简化数字人文数据。开放数据存在数据无法理解的问题,我们可以基于五星评价模型提出发布数据集中使用本体,使可读性得到增强。图书馆应创新开放数据,使数据朝着RDF格式转变,重视API标准化或者为不同类型用户设置针对性访问方法。图书馆还应实现数字人文开放数据管理的通用设计,使不同专业背景的用户都能够使用,让开放数据转变为简单数据,从而解放数据。在人们使用数据的时候,利用平台的可视化分析软件发现知识,可以有效促进对数字人文开放数据的智慧化使用[12]。
其三,整合图书馆原有资源和数字人文。图书馆原有的特藏资源在不同数据库和发布平台中使用,基于数字人文环境,图书馆通过数据仓库或者本体整合关联数据,基于此创建人文服务平台,为人文学者提供支持服务,使原有的资源使用率得到提高。因此,平台能够通过提供众包数据、统一检索与分析数据等功能使知识发现程度得到提高。
5.2 设置数据馆员岗位
5.2.1 招聘数据馆员
在图书馆开放数据服务过程中,馆员为重点。数据服务工作的开展,与数据馆员密切相关。馆员的行为及服务理念将直接影响图书馆服务工作质量。基于大数据背景,图书馆在服务理念上朝着主动化、个性化的方向发展,并且改变了工作方式,对于数据馆员的专业技能与知识提出了全新要求。所以,图书馆在招聘数据馆员的过程中要严格把关,以此保障数据服务工作的顺利开展。
首先,考察馆员的学科背景知识。数据服务馆员一般应具备图书情报学和计算机专业背景,部分特殊部门要求馆员具备社会科学或其他学科背景。工作经验也尤为重要,尤其是科研信息咨询服务与知识库创建等方面。在数据服务过程中,这些技能具有重要作用,能够使馆员尽快融入数据服务工作中。
其次,考察馆员的个人技能。选拔人才的重点就是要求受聘人员能够胜任服务岗位,个人技能为重要保证。馆员要进行数据服务,就要全面认知数据生命周期,并且具备数据服务、分析与项目管理的能力。数据库生命周期知识能够使馆员认识到数据运行规律,精准定位自己的工作,以此进行数据服务工作。数据处理能力十分重要,馆员要对数据进行收集和存储,并且使用常用分析软件分析数据,为用户提供个性化、立体化的服务,为数据的正常流通提供保证。无论是哪个岗位,都要求受聘人员具备管理能力。这样他们才能合理规划图书馆资源与服务,掌握相应的法律与政策知识,促进图书馆服务工作有序开展。
5.2.2 培训数据馆员
数据服务工作难度较大,图书馆要组织馆员参与专业培训,加深馆员对于数据服务工作内容的理解,使其树立良好的工作意识。培训还能够提高馆员服务意识与工作能力,保证其胜任数据服务工作,促进图书馆数据服务工作的顺利开展。目前,馆员培训主要包括:
其一,数据服务意识。馆员要全面掌握数据概念,提高数据敏感性,有针对性地收集信息,并对信息进行整理与分析。另外,馆员应思考图书馆数据服务工作的特点,强化主动服务意识,主动收集用户需求信息,主动推广图书馆服务。主动推送式服务是开展数据服务工作的主要方式,利用高质量和个性化服务深入开展数据服务工作,能够促进图书馆数据服务工作快速、稳定发展。
其二,知识培训。图书馆开放数据服务工作是传统服务工作的延续,不仅要求馆员掌握图书馆专业知识,还要具备数字人文背景下的技能与知识。外语课程与计算机为必修项目,是因为图书馆外文资源量不断增加。另外,为了满足个性化服务要求,馆员要具备专业化数据分析能力。其次,充分挖掘馆员创新与交往能力,树立图书馆正面形象,促进图书馆服务事业快速发展。在大数据时代中,数据馆员知识结构按需变动,要求图书馆基于实际需求进行培训,完善图书馆数据服务框架。
其三,心理素质教育。对于复杂的数据服务工作,馆员可能会出现焦虑、自卑等心理,所以,要重视馆员心理。另外,图书馆要对馆员开展职业道德教育,使数据交流工作能够有序、安全地开展[13]。
5.3 数据的收集和处理
5.3.1 数据收集
图书馆和数字人文中心管理者要根据项目实际需求和数据规划要求,对负责人员开展培训,包括数据收集等工作。图书馆利用资金筹措等方式提供平台建设资金,根据数字人文专家和图书馆需求设计图书馆开放数据服务机制,完成数据收集前的准备工作。之后,相关工作人员通过元数据收割协议,对图书馆和合作机构的馆藏进行元数据收割。在对公众数据进行收集时,图书馆可以通过人文专家创建相应的标准,设置激励机制,在平台中发布项目数据需求和概况,实现登录接口、入口的设置,利用游戏激励的方式激发公众持续参与的热情。另外,图书馆要满足用户对数字资源与纸质文献的需求,及时处理用户反馈,通过专题讲座、工作坊等方式对用户进行数据素养教育,以通用性、适用性的原则协调课程体系,提高用户对数据的科学认知。
5.3.2 数据处理
其一,数据清洗。通过数字人文馆员实现数据清洗,在此过程中馆员将知识库中所存储的初始数据进行提取,然后根据项目数据的需求,利用相应的数据清洗工具剔除重复、错误、不准确、缺失的脏数据,保证基本数据质量。馆员在数据清洗时要以唯一性、真实性与可靠性的原则核实数据来源,避免出现数据伪造等问题,对不精准的数据进行修正。
其二,数据加工。图书馆在数据加工前要协助数字人文专家创建元数据框架,基于已有元数据,根据项目特点添加其他原数据集,确定字段结构,实现项目元数据规范标准的制定;在数据加工时与专家合作,以信息加工数据库与元数据标准实现元数据的补充、录入、排序、存储。
其三,数据转换。虽然数据通过加工、清洗之后已经成为结构化、清洁数据,但是要想利用API接口对外开放,还要通过数据转换。数据转换包括层次转换与格式转换,使文本类信息转变为机器可读信息。技术人员和馆员相互协作,利用RDF格式转变工具将数据编码存储到RDF存储库中。RDF资源描述框架能够使Web资源需求得到满足,具备针对性的模型与语法,能够对多图、单图或者节点模式进行存储。单图调动和存储比较简单,并不经常使用。如果数据量比较大,可将数据切割为多单元存储,创建多图模式。小的节点模式一般比较灵活,不需要在物理层面对数据集进行整合,在更改数据之后不需要对整合数据进行更改。数据在通过格式转换之后,利用统一或者分类的开放方式进行开放[14]。
6 结语
信息社会复杂多变,图书馆要积极践行数字人文理念,探索数字人文背景,利用嵌入式学科服务和集成化知识服务开展数据分析服务,丰富数字资源储备,创建数字人文平台,从而实现现有图书馆开放数据服务机制的转变及图书馆平台效应的优化,并完善服务体系,改革规章制度,使图书馆能够在数字人文背景下得到快速。