数字化大发展背景下博物馆藏文献数据库建设与使用策略初探
2021-02-26任生楠
任生楠
【摘要】 目的/意义:利用互联网信息化技术将博物馆收藏的图书、报纸、档案、期刊、图片等内容进行有效的保护和复用是对历史文化传承和研究的重要举措。方法/过程:搭建7层架构的文献数据库系统,每层之间通过松散耦合的方式相互通信,同时为了系统的安全需要有安全访问控制层,并将数据库存储、资源管理系统、发布服务系统等部署在同一台服务器上。结果/结论:在文献数据库建设过程中要加强知识图谱与知识演进变化的研究,同时要解决史料征集与资源互换的问题。
【关键词】 博物馆 数字化 文献数据库
引言:
2021年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》(以下简称“《十四五规划》”)正式发布。笔者发现,数字化建设任务相比以往的5年规划,其战略位势和建设内容都有了前所未有的提高,具体表现为数字化第一次在五年规划中作为专篇论述,即“加快数字化发展 建设数字中国”位列规划第五篇,前四篇分别是:“开启全面建设社会主义现代化国家新征程”、“坚持创新驱动发展 全面塑造发展新优势”、“加快发展现代产业体系 巩固壮大实体经济根基”和“形成强大国内市场 构建新发展格局”,这足以说明数字化在十四五国家发展战略中的重要地位。值得关注的是,“博物馆数字化”在《十四五规划》中两次被提及,博物馆数字化大发展的机遇已经来临。
数字化大发展可能为博物馆在展览策划、藏品保护、学术研究、公众服务、业务管理等方面带来前所未有的变化,本文讨论的文献数据库建设就是博物馆学术研究领域的一项创新性工作。
一、数字化背景下博物馆建设文献数据库的意义
习近平总书记指出:“保护好、传承好历史文化遗产是对历史负责、对人民负责。我们要加强考古工作和历史研究,让收藏在博物馆里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活起来。”为了深度挖掘文化遗产中蕴含的大量珍贵的知识,充分利用好其产生信息资源的无限性、可再生性、可共享性,开展对文化遗产信息资源的数字化采集、加工、挖掘、管理、传播及应用已经成为博物馆适应数字化时代的必然要求。
博物馆收藏的特定历史时期的图书、报纸、档案、期刊、图片等内容,具有极其珍贵的历史价值和学术价值。利用互联网信息化技术将其进行有效的保护和复用是对历史文化传承和研究的重要举措。此外,文献数据库建设将会吸引机构及学者共同进行全方位深入研究,相关学术资料及其衍生出的研究成果可在展陈、社教、文创等方面提供支撑,进而扩大博物馆在学术界的影响力。
二、博物馆藏文献数据库建设策略
2.1总体目标
通过对博物馆藏特定历史时期的图书、报纸、档案、期刊、图片等内容的数字化加工采集,同时利用网络信息采集技术整合多方数据资源,构建文献数据库,最终实现文献资源数字化后的分享传播及研究利用。
2.2設计思路
2.2.1平台架构
数据库系统由原始资源层、数据收集层、数据资源层、资源处理层、资源管理层、业务应用层以及访问层自上而下组成,每层之间通过松散耦合的方式相互通信,同时为了系统的安全需要有安全访问控制层。
1.原始资源层
主要是以博物馆藏研究资料为主,包括图书、报纸、档案、期刊、图片等,也包括互联网资源。
2.数据收集层
此部分主要功能实现图书、报纸、档案、期刊、图片及互联网资源的收集整理、OCR识别、图像处理、标引及上传入库的过程。工作人员通过在线提交、网络获取、数字化加工等多种渠道和方式将博物馆藏资源相关的数据统一提交到数据中心,进行集中存储和管理。
3.数据资源层
这一层是整个数据库系统的核心,为上层的应用系统提供数据服务是它的主要作用。经过收集、加工的数据最终存储在这一层上,并建成几个核心的专题资源库:图书库、报纸库、档案库、期刊库、图片库、其他资源库等。
4.资源处理层
这一层主要是通过关键词提取、相似索引等方式,采用自动分类、自动聚类等手段,进行用户行为分析、热点分析、关联分析等各类智能挖掘功能,进而完成对资源数据库中的各类资源元数据的挖掘分析。
5.资源管理层
收集整理的数据资源最终建成数字资源建设与管理平台,这一层主要是对本层数据库里的资源进行管理和维护,包括元数据、数字对象以及各类资源的访问权限。此模块按云存储的架构采用分布式存储系统建立博物馆资源数据中心。
6.业务应用层
这一层是为应用系统提供基础支撑的平台,包括信息检索、知识关联、资源分类、在线浏览下载、应用权限控制、用户行为分析等。
7.访问层
这一层主要是实现各类资源的统一发布,为用户提供统一的访问入口,同时为其他业务系统提供程序访问接口,以便进行数据交换。在建设过程中应考虑多终端应用。
2.2.2网络架构
文献数据库是一个基于网络的文化数据信息化平台,其网络部署具有很大的机动性和伸缩性,整个平台的部署与将来的使用方式及用户群体有很大关系。在最节省硬件的情况下,文献数据库可以部署在一台高性能的服务器上,包括数据库存储、资源管理系统、发布服务系统等都可以部署在同一台服务器上。同时,整个系统主体部分可部署在单位内网上,对互联网用户提供发布服务的系统可部署在外网上,并分配公网 IP 和域名,外网部署的发布服务器可以访问内网的资源库,从而获取对外发布的各种内容资源。
2.3标准规范
2.3.1信息资源加工规范
基础不牢,地动山摇。统一数字资源加工标准,为数据库建库打牢基础是非常必要的。我们当前有着现成的、少量的数字化资源与原始的、海量的非数字化资源,其中非数字化资源需要对其进行数字化转换,才能为文献数据库所用。我们应该针对不同资源,定义文件格式采样规范,如图书采样标准、图片采样标准等。
2.3.2元数据规范
元数据( metadata) 是描述某种类型资源( 或对象)的属性并对这种资源进行定位和管理、同时有助于数据检索的数据[1]。数据库建设的元数据标准可参考都柏林核心元数据(DC),DC元数据是在充分吸纳了图书情报界的编目、分类、文摘等经验,同时在利用计算机、网络的自动搜索、编目、索引、检索等研究成果的基础上发展起来的。它是描述、支持、发现、管理和检索网络资源的信息组织方式,其最大特点是数据结构简单,信息提供者可直接编码[2]。建议将元数据从两个角度进行定义:一是将数据结构化,元数据的作用是对信息资源进行结构化描述;二是突出元数据的功能性,元数据应该用来发现、识别与评价信息资源,并对其进行选择、定位和调用,进而追踪资源在使用过程中的变化,最终实现信息资源的整合、管理及使用。
三、博物馆藏文献数据库使用策略
3.1确保文献数据库用的“活”
既然建设文献数据库的初衷是为了让“躺”在资料室、档案室的大量文献“活”起来,让用户足不出户就能便捷地访问、检索、查阅及下载,笔者认为除了上述的想法之外,我们应该让文献数据库为用户带来一些非凡的体验。
3.1.1研究知识图谱的应用
文献数据库提供的不仅仅是关键词的精确与模糊搜索文献的功能,还应该能呈现例如人物关系、事件关系的知识图谱,以某个人物或某个事件为关键词搜索后呈现的图谱,用户的鼠标在界面上移动到任何人物或事件的时候,都会出现与该人物或事件关联最大且用户使用最多的几项文献或文章,用户可以直接查阅、研究。
建议成立一个单独的“知识图谱研究项目小组”,专门就馆藏文献中各类高频应用的、能够有知识图谱展现的关键词进行一一研究,使搜索后呈现的知识更丰富,也区别于其他知识库静态地展现自有文献资源,未能与用户有直接的互动关联。
3.1.2研究知识演进变化
馆藏文献在纸质化使用的过程中,很少有人会对其中所包含的内容做关联与演进变化分析,而文獻数据库的投入使用,有可能将文献原始资料由分散的、静态化的呈现方式转变为关联的、动态化的呈现方式。可以试想一下,文献上的一篇文章它的关键词是可以提炼出来的,提炼之后我们还能够做些什么?是否可以通过知识关联系统分析提炼出它的研究起点、来源以及由这篇文章提炼出来的研究新方向。而这些研究起点、来源与新方向正是了解文献与文献之间强关联与弱关联的有力证据,研究人员可以通过这些文献之间的关联性开展大量创新研究工作。
3.2确保文献数据库补的“全”
博物馆藏文献数据库可能是专注于某一特定历史时期的文献资料的,而博物馆现藏原始资料大概率是不全的,这就需要工作人员花费一定的时间与精力去补全。笔者认为可以通过史料征集与资源互换的形式解决。史料征集方面,博物馆可以扩大征集信息来源,与社会各类媒体、信息行业建立信息互通机制,依托论坛、微信、微博、QQ 等社交平台,定期发布征集信息,拓展征集空间,鼓励、引导社会组织和个人参与其中[3]。资源互换方面,有能力做数字化建设的博物馆可以申请与那些有着丰富馆藏资源,但是自身数字化建设又迟迟无法推动的博物馆合作,将后者的资源进行数字化后与之共享成果,又能通过此途径快速带动其博物馆数字化的快速发展。
四、结束语
在“十四五规划”的大蓝图下,博物馆数字化将迎来井喷式发展,谁能掌握优质资源与数据谁就能掌握话语权。而文献数据库作为博物馆数字化建设的一个组成部分,其展示内容直观性,展示方式的便捷性能够吸引更多的科研人员参与,并通过对历史的传承、精神的延续,促使人们形成意识上的文化觉醒。
参 考 文 献
[1]许鑫,张悦悦.非遗数字资源的元数据规范与应用研究[J].图书情报工作,2014,58(21):13.
[2]艾雪松,石宪,彭超,王志强.文物信息资源元数据模型构建与应用研究[J].情报科学,2019,37(6):70-71.
[3]王守梅,档案史料征集面临的困境及应对措施[J].黑龙江档案,2021,(3):179.