数字人文背景下高校图书馆员专业素养培育研究
2019-07-10
(武汉商学院,湖北武汉 430056)
1 引 言
数字人文,源于人文计算,是在计算机技术、网络技术、多媒体技术等新兴技术支撑下开展人文研究而形成的新型跨学科研究领域。20世纪60年代以来,在数字技术支撑下,人文研究的方法发生了重大变化,人文学者文献知识的获取、分析、集成和展示,多采用数字化检索、标引和组织[1]。
目前,众多人文学者开始致力于将数字技术与人文领域相结合,运用数字技术探索和解决人文领域的各种问题。人文学者在研究中囿于数字技术短板,迫切需要寻找和获得资源、平台服务和学术研究的支持,而高校图书馆作为知识服务机构具有信息资源优势、知识获取优势、大数据技术等优势。换言之,数字人文的研究和发展带给图书馆挑战的同时,也为图书馆引来了研发新系统提供新型服务的机遇。高校图书馆需要尽快培育一支高素质馆员队伍,为高校数字人文研究和教学助力。
2 数字人文知识服务系统构建
数字人文知识服务系统是一项系统工程,即以高校图书馆员为主导,以人文学者需求为中心,利用先进的数字技术和通讯手段,对人文知识进行收集、整理、组织,深度分析挖掘,以主动服务的方式提供给人文学者,进行创造性的知识迭代。
2.1 数字人文知识服务系统构成要素
数字人文知识服务系统由馆员、数字人文用户、信息资源、数字人文知识服务平台等核心要素构成。
高校图书馆馆员是数字人文知识服务有效开展和推进的核心智力资源。其职责是作为数字人文用户合作伙伴,主动了解数字人文需求,并负责组织协调基于用户需求驱动的数字人文信息资源采集整合、知识组织以及情报研究等活动,提供个性化数字人文研究指导以及专业参考咨询服务。
数字人文知识服务平台是数字人文知识服务系统的重要环节,呈现高校图书馆提供的各项服务,连接图书馆员、数字人文用户与信息资源等重要要素,是图书馆知识服务的外化[2]。
数字人文用户是数字人文知识服务系统的服务利用与数据受益者。
为了更好地从用户的角度展示系统的功能,本文用统一建模语言UML(又称标准建模语言)功能模型用例图描述系统主要构成要素之间的关系(详见图1)。
图1 数字人文知识服务系统
2.2 基于云计算平台的数字人文知识服务系统
基于云计算平台的数字人文知识服务系统采用数据驱动的架构作为系统设计和构建的主线,该架构可根据业务应用的需求和服务场景,快速做出调整,充分发挥系统的能力和价值[3](详见图2)。
图2 基于云计算平台的数字人文知识服务系统架构
2.2.1数据准备
基于云计算平台的数字人文知识服务系统提供服务的基础即大数据,这些数据主要来源于高校图书馆自建的数据库、已经购买或正在试用的第三方数据库商提供的数据、大量OA资源以及与数字人文知识主题相关的其他各种信息资源。资源类型主要涵盖电子图书、期刊、硕博论文与会议等各类文本、图片、音频、视频等。
2.2.2系统功能设计
云计算平台的数字人文知识服务系统主要由数据采集子系统和知识服务子系统两部分组成。数据采集子系统采用CS结构,知识服务子系统采用BS结构。知识服务子系统主要由数字人文门户模块、信息素养模块、参考咨询服务模块、学术交流与互动社区、个性化服务模块和后台管理模块六个模块组成。
2.3 系统关键技术
基于云计算平台的数字人文知识服务系统能否有效运行取决于提供的数据价值大小。数据采集、存储方式、数据挖掘的深度以及应用的程度等均会对数据价值产生影响。
2.3.1数据采集与预处理
数据采集与预处理是利用ETL(extraction-transformation-loading,中文名称数据提取、转换和加载)工具将分散、异构数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中,是数字人文知识服务系统联机分析处理、数据挖掘、知识呈现和服务的基础。
2.3.2数据存储与管理
数据存储与管理利用分布式存储系统、云存储、非关系型大数据管理与处理技术,实现对结构化、半结构化和非结构化海量数据的存储与管理。
2.3.3数据分析与挖掘
利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的分析与挖掘,以获取大量深入的、有价值的、智能的数据。
2.3.4数据呈现和应用
数据呈现和使用即将传统数据可视化技术应用于大数据,将数据或从数据中挖掘的知识清晰明朗地展现给用户,便于用户理解和应用。
3 数字人文知识服务系统建设困境
基于云计算平台的数字人文服务系统涵盖云计算、数据挖掘、机器学习、统计学与数字人文等多学科领域知识,对高校图书馆员专业素养要求较高,数字人文知识服务系统建设难度较大。
3.1 元数据仓储粒度确定
高校图书馆一般采用元数据仓储技术实现资源存储,元数据仓储不是直接将异构数据库的资源内容复制到仓储,而是将描述数字资源的元数据存储在仓储中,用户通过元数据及其链接实现对资源的获取[4]。异构数据库的元数据描述标准通常不一致,设计元数据仓储时需重点确定数据粒度。数据粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。数据粒度不仅影响数据仓库所能回答查询问题的细节程度,而且影响存放在数据仓储中的数据量大小[5]。数据粒度选择不当,需频繁对高粒度数据分解或者低粒度数据编辑聚集处理,增加CPU/IO通道压力,影响系统运行的效率,还有可能增加空间需求成本。高校图书馆馆员需要结合业务特点,认真听取用户的反馈意见,把握用户需求,选择合适的粒度级别,这样在设计和实现中的其余方面才能顺利进行。高校图书馆馆员不仅需要具备一定专业知识,还需具备一定数字人文专业基础知识,与数字人文用户建立紧密合作关系。
3.2 多源异构数据采集与预处理
高校图书馆采用元数据帮助查找、存取、使用和管理与数字人文主题相关的信息资源,这些元数据分散于不同的系统、平台或网页,有着不同格式,不同特点,不同性质,高校图书馆采集元数据后,需要分析元数据的特点与属性,选择合适的工具转换数据格式,对转换后的元数据进行数据质量分析,制定数据处理规则,按照数据处理规则对数据进行相应的修改,以满足数据的规范性、一致性、完整性、有效性及本地化的数据质量要求等。然而,由于数据量庞大,元数据描述规范统一的任务量较大,质量把控难度较高,部分期刊或论文被多个平台或系统揭示或收录,即使做到了元数据描述规范统一,仍给数据查重带来巨大压力,加之部分系统、平台或网页常英文显示,对高校图书馆馆员专业和英语能力要求较高。
3.3 分布式存储与查询
分布式存储系统将大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务,具有可扩展、低成本、高性能和易用等特性。高校图书馆馆员需根据业务技术选型,设计好数据结构,选择适合的分布式存储技术存储元数据及其他数字资源,妥善解决数据分布、一致性、容错、负载均衡和易用性等技术问题,采用分区、建立索引和读写分离等技术手段实现高效地存储和读取数据。
4 数字人文馆员专业素养培育提升途径
基于云计算平台的数字人文知识服务系统对高校图书馆员的专业素养提出了较高的要求,高校图书馆员亟需转变观念,夯实专业基础,拓展专业思维,培养学习力,通过参与项目研发,不断修炼专业技能,迎接信息时代的机遇与挑战。
4.1 拓展专业技能
必备的专业知识和技能是高校图书馆员的立足之本,高校图书馆员应精通图书情报专业基础理论和基本工作方法,还应掌握有关学科的专业知识与技能。数字人文背景下,高校图书馆员除具备图书情报专业知识外,还需在正确认识数字人文的内涵和认知误区的前提下,加强数学如统计学和计算机科学多领域专业基础学习,注重构建自己的知识体系,不断拓展专业思维,做到既有扎实的专业基础,知其然也知其所以然,更能触类旁通,了解当前主流技术特点,根据业务做好项目选型,完成软件开发,不断提高利用数字技术支持人文研究的能力。
4.2 培养学习力
大数据时代,高校图书馆新服务、新技术、新应用顺势而生并层出不穷,高校图书馆员需培养学习力,不断更新和补充知识,紧随时代发展的步伐。数字人文作为一门新兴学科领域,高校图书馆员可通过看权威书籍、看视频讲解、馆内外培训、国际学术交流平台、专场学术讲座和社交网络群等多途径快速获取数字人文学科所需的专业知识,以及突破数字人文知识服务系统建设困境所需的其他领域的专业知识与技能。
4.3 参与项目研发
项目研发通常含有需求分析、可行性分析(商业可行性分析和技术可行性分析)、编写项目计划书、系统设计、数据库设计、架构设计、代码开发及工作分配、测试、发布或提交给客户等若干阶段。参与项目研发,高校图书馆员不仅可以培养团队协作精神、锻炼社会交际能力和提高组织管理能力,而且在理论指导实践,实践验证理论的过程中,通过独立思考、自主学习与同行交流,不断强化对专业知识的理解,拓展学习的深度和广度。