面向智能服务的数字馆藏资源组织与存储研究
——以文博机构为例
2021-10-15冯秋燕朱学芳
冯秋燕,李 川,朱学芳
0 引言
大数据、云计算、物联网、人工智能、5G等新型智能技术与领域应用需求的融合改变了行业组织结构,重组了业界生态系统,催生了多种智能互联感知产品与智能服务的出现。智能服务由具有感知、连接和驱动等智能意识的智能产品(或智能设备)通过收集环境数据并处理成智能数据,在智能服务系统内通过数字平台提供情景相关和面向需求的个性化解决方案,从而为供应商和客户创造附加价值[1]。智能服务的实施方式因行业性质、工作内容、需求目标的不同而千变万化。图书馆、博物馆、档案馆作为储藏记录历史发展书籍、档案及遗物的机构,收藏保护和教育传播一直是其核心工作和主流文化。特别地,博物馆不断地采纳新型数字信息技术(如3D仿真、VR/AR体验等),通过研究、展示、教育等方式尽可能还原并再现过往的历史拼图,立足现在,以主动的态度、超脱的视角参与社会文化的构建,为其数字馆藏资源公共化利用程度的提升和创新型智能服务的发展奠定了基础。《国家文物事业发展“十三五”规划》鼓励在全国范围内启动智慧博物馆建设工程,运用物联网、大数据、云计算、移动互联网等现代信息技术研发智慧博物馆技术支撑体系、知识组织和‘五觉’虚拟体验技术[2],推进文物数字化、信息化,促进文物藏、保、用、管、研等信息整合及公开,植入智慧科技,推动文物事业向智能服务方向发展。以博物馆为例,通过互联网和移动社交平台,以网上展览、直播导览、动画解说、仿真建模等方式提供公共文化服务。例如2020年春节期间,中国博物馆推出2,000多项线上展览,浏览量超过50亿人次[3],反映了公众对数字馆藏资源的文化需求和便捷式智能服务的渴求。面对百花齐放且自行储藏的数字馆藏资源,亟需一套互联高效的组织与存储机制,打破地域壁垒,增强文物间“对话”,以期用数字馆藏表征文物实体,推动建立跨越时空的常态化的数据应用与智能服务模式,满足日益多元的公共文化需求。
1 研究现状
1.1 智能服务
2005年Allmendinger等提出智能服务可超越与其捆绑在一起的产品或设备而进行维护和升级[4]。从宏观上讲,智能服务是指利用具有监控、优化、自主适配的智能互联产品,整合服务提供方与服务对象的活动、需求及资源,通过不断地交互调优为双方提供服务,实现资源的动态配置及双方价值共创,是一种具有技术中介性、活动连续性、交互反馈性、迭代匹配性的服务模式[5],应用场景有智能交通、智能政务、智能制造、智能医疗等。从微观上讲,智能服务主要是指机构凭借智能设备定时或实时地收集现场环境数据并采用客观的数据模型和高效的数据分析平台进行预处理和深入剖析,主动为用户提供情境感知式服务,注重个性化、精细化、高质量服务方案的推荐[6],是智能化物理产品和虚拟化信息服务的有效增值组合与高效价值共创,应用案例有远程监控、C2B方案定制、预测性维护等。
近几年来,国内图情领域相关研究主要聚焦于智慧服务模式、体系架构、机制策略、发展建议等顶层框架设计或上层模型构建的研究[7-9],智能服务是实现智慧服务的基础,智慧服务是智能服务的顶级形态与最终目标[10]。而国外图情领域关于智能服务的研究则侧重于智能产品介绍[11]、使用意愿[12]、影响因素[13]。智慧博物馆研究主要涉及智慧博物馆的内涵[14]、技术应用[15]、智慧博物馆建设[16-18]等。综合来看,国内外研究均较少涉及依托事实服务数据的动态感知和智能服务细节的整合封装,致使顶层框架与实际情况的断链脱节,精准服务效力不足。数据、信息、知识、情报是实现领域智能服务的物质基础与关键要素。从微观层面,以数据逐层对齐服务需求细节,将信息精炼成知识,萃取成情报,提升服务内容的质量,才能真正意义上驱动智能服务主动发现、精细调度能力,进而推动新型智能服务理论的全面应用。
1.2 文博领域数字馆藏资源的组织与存储
数字馆藏资源是指利用数字技术对馆藏实体进行数字化加工而获得的能代表实体本身的虚拟的数字形态资源[19]。文博机构数字资源以转化型产生方式为主,是馆藏文物的数字化表征。数字馆藏资源的组织与存储涉及资源描述、分类、组织、存储等多个环节。
(1)资源描述。文博机构主要是以元数据的方式描述、登记、保存、管理文物数字资源。馆藏元数据体系属于数字馆藏资源标准化规范的组成部分之一,与文物分类体系密切相关[20]。目前已有一批元数据标准成功应用于文博领域,如VRA Core、DC、CDWA、CIMI、《博物馆藏品信息指标体系规范(试行)》《文物数字化保护元数据标准规范》(征求意见稿)[21]。
(2)分类和编码。是进行各种馆藏资源相关研究的首要工作[22]。国内各文博机构对藏品的分类标准并没有严格统一规范的约束说明,致使分类各异、组织杂糅。加拿大和美国官方推荐的文物分类标准InfoMuse[23]和Revised Nomenclature3.0[24]将器物和建筑的功能作为主要分类依据。实际应用中,采用组配分面分类法可能更合理[25]。
(3)组织。各大文博机构使用各自的信息系统组织管理文物,在数据结构、表示方法、存储方式等方面各不相同,尤其是语义表征的差异性阻碍了异构数据集的连接互通。基于此,部分研究者在元数据的基础上引入了本体的概念。本体是概念化的明确的规范说明[26],具有很强的概念表达和知识获取能力,适用于解决信息资源组织过程中出现的问题和瓶颈[27]。综合元数据与本体方法可建立细致而规范的文物数字资源分类与组织准则。基于此,梁艳琪构建了绘画类文物的分类本体,并采用关联数据技术对其进行语义融合研究[28]。李迎迎构建青铜器文物信息资源分类本体,采用知识地图的方法组织青铜文物及其关联信息[29]。
(4)存储。随着网络信息资源规模、种类和复杂度的增加,数据间的关系及拓扑结构也愈加复杂。传统的关系型数据库已经不能满足大数据处理与分析的需求,非关系型数据库NoSQL(Not Only SQL)凭借其数据模型的灵活性得到了迅速发展[30]。图数据库作为NoSQL 数据库中的一种,提供了良好的数据库存储与简便灵活的数据处理方案[31-32]。在图情领域,黄奇等提出基于图数据库的OWL本体存储模型,设计其拓扑结构及存储映射规则,从理论层面证明该存储模型存储语义的有效性和科学性[33]。博物馆数字资源具有存储容量大、媒体形式多、增长迅速等特点,需要一个能支持快速访问和大容量的存储系统[34]。目前关于文博领域数字馆藏资源存储研究较少,实践上,各大文博机构大多采用传统的关系型数据库,自行建立本馆的资源管理系统,支持馆藏展示或简单的查询工作。现行存储方式的弊端是不利于馆际文物间的连通和交流,割裂了文物间可能存在的属性关系或事件关联,影响了文物知识链的探索及其所蕴含文化的传播。
博物馆智能服务方面主要面向观众,通过多种服务系统的建立以及交互技术的应用,使观众在参观博物馆过程中可以更好地融入博物馆,主动去了解、接收相关的知识,不再像传统博物馆那样被动接收[2]。以微观性的数字服务平台构建为例,文博机构数字业务需要连接各地馆藏数据,突破“围墙”弊端,以虚拟的无形数据替代馆藏文物实体,以智能交互的方式耦合馆藏显性知识、专家隐性知识与领域知识库,用数据对接服务,契合公众需求,促进数字馆藏资源与智能服务的融合。情境式个性化智能服务的实现需要以庞大的数据源作为依托,其中必然涉及数据的组织和存储工作。
2 理论基础
(1)元数据与自然语言处理技术。文物元数据是描述馆藏文物实体的结构化数据,能将文物的核心信息以言简意赅的方式第一时间传达给用户,在文博领域也已广泛使用。本文使用描述性元数据描述文物信息,主要参考《文物数字化保护元数据标准规范》(征求意见稿)[21]。各大文博机构网站大多采用自由文本的方式描述文物,内容较繁杂,可借助于自然语言处理(NLP)技术完成已有文物的元数据字段解析与填充工作。由于文物描述方式和内容的特殊性,本文利用jieba在进行分词与命名实体识别时,动态加载自定义词典,并编写字符串匹配修正算法以兼顾解析内容的合理性。整体流程如图1所示。
图1 分词与词性标注流程图
(2)本体与图数据库。在数据的组织与存储阶段,元数据完成了对文物个体的规范化描述,但缺乏对文物属性的多主题揭示,通过构建领域本体可使不同数字馆藏元数据间产生关联与链接。在面对大规模复杂关联数据时,传统的关系型数据库往往出现查询速度慢、响应延迟、链接复杂等缺点,而图数据库恰好填补了这项短板。Neo4j 是代表性的图形数据库,严格遵循图论使用节点和边来表征海量多源异构的实例及其间复杂关联语义关系,模式结构易于理解且具有灵活的可扩展性、良好的可移植性、高效的可访问性。
3 研究设计
本研究涉及数字馆藏资源的收集、数据处理与加工、数据组织与存储、数据应用与智能服务4个流程,整体研究框架见图2。首先从国家/省/市级文博机构收集数字馆藏资源;其次对数据进行清洗、分类和集成,参考元数据标准和领域知识库将待组织的数字馆藏资源加工成统一的数字馆藏元数据形式;然后兼顾数字馆藏资源所表征的实体特点,设计并构建数字馆藏资源领域概念本体,规范数字资源间的类属层次与组织关系;将概念本体对齐映射为图数据中的相应元素;链接并对标实例元数据,完成馆藏数字资源的存储;最后,以数据驱动面向情境的应用进而支撑智能服务的实施。
图2 研究框架
特别说明的是,在数据处理与加工阶段,本文的研究对象为可移动文物,采用了“质地+功用+器型”由粗到细的分类标准。具体做法是:首先综合前人研究、相关书籍、各大文博网站、专家意见,初步确定“质地”与“功用”层次;其次利用jieba 中文分词和字符串匹配修正算法进行分词和命名实体识别,完成文物各元数据描述字段(若有)的填充工作,抽取器型,并不断丰富“功用”和“器型”种类,最终建立标准的文物分类框架和元数据描述条目。本步骤的意义在于利用不同层次的抽象分类(见图3),从上到下充分体现文物资源的共性与特性,依次完成文物的自适应分类和映射。
图3 可移动文物分类示例
在数据组织与存储阶段,结合元数据规范、各文博网站布局展示,与文物相关的条目有普查号、时间、类别、相关地点、相关人物、相关时间、上下文介绍、图片、音频、视频、三维模型等内容。复用CIDOC CRM概念参考模型,设立文物数字馆藏本体、描述、地点、人员、时间、标准分类等一级概念类目(见图4),各类目又有专属的下级类目及其核心属性。
图4 馆藏文物本体框架
从本体组织转换为图数据库存储主要考虑类、属性与关系间的映射关系,见表1-2。若不特别说明,表中的字段均采用Neo4j默认存储类型即字符型。表1根据文物年代特性,增加所属时段标签。本文统一采用历史纪年法,处理原则见表3;对某些朝代,如辽、夏、金与宋代属于同一时间段,将前者的所属时段标记为后者(见表4),这样在保留原时间信息(创作/使用年代)的同时,可以降低数据的分散性。本文关注数字馆藏资源所表征的文物特性,不过多涉及其与外延属性的关系,故将外延属性作为节点标签的属性键标出。表2中图数据库建立“属于”“划分为”“归类于”3种关系类型足以表征文物数字馆藏本体与标准分类、材质、功用、器型间的7种关系类型,并支持双向查找。
表1 类/属性层次映射
表2 关系层次映射
表3 所属时段约定规范
表4 创造/使用年代与所属时段对照表
在数据应用与智能服务阶段,图数据库灵活的模式结构和完备的语义存储功能被应用到多角度可视分析、多元因素探索、大规模规则关联等深度信息挖掘中,支持知识探索、人文传播、历史陈述等抽象化智能服务的实现。图数据库作为一种桥接实践,通过冰冷枯燥的数据将鲜活丰满的历史文化呈现在人们面前,一端是高价值的数据关联,另一端是有温度的人文情怀,更好地实现了“人-数字馆藏-文化揭示-教育传承”的服务模式,使得数字馆藏资源的价值被充分挖掘和发挥。
4 实例分析
选择铜器作为实例分析对象,原因有:(1)习近平总书记指出:“要推进黄河文化遗产的系统保护,守好老祖宗留给我们的宝贵遗产。”[35]在黄河文化遗产中,铜器文物占最大比例,对铜器进行研究,可促进对黄河文化进行多方位的探索。(2)铜器囊括功用丰富,根据本文数据,依功用可划分为21个大类,故对铜器文物的研究可以给较少功用的其他材质文物的研究提供参考。(3)铜器的元数据内容非常全面,对铜器的研究可泛化至铁器、金银器、玉器等文物研究。
本实验流程如下:
第一,数据收集阶段。收集的铜器类馆藏文物数据来自全国馆藏文物数据库①,从中抽取黄河流经9个省份的数据(125,093条),并获取其官方网站(若有)的数据。
第二,数据处理与加工阶段。由于文物的特殊性,有些数据资料无从査找,依据仅有的数据资源进行研究。基于铜器文物元数据标准,利用jieba和字符串匹配修正算法进行分词和命名实体的抽取(见表5);利用部分文物名称[36-37]分词(纹饰、形制特别标注为ww、wx)作为初始自定义词典(其中文物名称自定义词典约1.1MB,地名词典[ns]约1.4MB,历史人物词典[nr]约6KB,时间词典[t]约1.4KB),循环迭代(见图1)抽取剩余文物的年代、特征和器型,依据器型可将该文物归属到功用类别中,逐步补充功用与器型层次的类属(见图3)。根据文物数字资源著录规范和专家意见,本文类属处理原则见表6;针对其他属性内容,从上下文描述中识别(若有);针对不符合命名规范的文物,直接从其上下文描述中提取相关元素(若有)。经过穷尽式对比、类聚,本文将铜器文物归属为21种功用分类。针对地点经纬度坐标,利用百度地图坐标拾取系统获取。
表5 分词与命名实体识别示例
表6 类属处理原则
第三,数据组织与存储阶段。建立铜器数字馆藏本体,参考表1-4 完成图4 中概念类、属性、关系到图数据库Neo4j映射,以元数据形式表征的数字馆藏个体存储到Neo4j,见图5-8。图5显示铜器所划分的功用分类(左侧实线标注),以功用分类“酒器”为例展示其所包含的器型种类(中间虚线部分标注,其他功用分类也可相似的方式展开),以“钅”“和”为器型示例展示其所包含的文物(右侧点线部分标注,其他器型展开与其相似)。图6展示文物春秋蝉纹弧刃单系铜斧的部分存储结构。纹饰是铜器重点研究内容之一,图7展了以春秋蝉纹弧刃单系铜斧中的纹饰蝉纹为线索寻找相关文物。图8进一步呈现图7所现文物的部分结构及其间关系。
图5 材质-功用-器型存储示例
图6 文物存储(部分存储结构)示例
图7 含有“蝉纹”的相关文物
图8 图7所现文物及其部分关系
图8中,每一个虚线椭圆扇形表示该功用分类下的器型及其所对应的文物,每一个椭圆中的元素是相同层级的元素。以动物纹“蝉纹”为线索,铜器中饪食炊器、工农具、酒器、兵器、生活用具、饰品、交通工具中均有该种纹饰的文物,交通工具中的节约和(车)胄、饪食炊器中的鼎、兵器中的矛拥有蝉纹的较多,“蝉纹”主要出现在商周,汉、宋、眀、清也有些微出现。“蝉纹”具有饮食清洁之意,故在鼎中大量出现;蝉寓意复育,有生还之意,故在车马器(节约)、兵器(矛)中大量出现,饱含了对平安的祈求。
第四,本文主要研究数字馆藏资源的组织与存储,设计数据处理、查询效率、关系查找、交互操作、可扩展性等指标对比关系型数据库和图数据库在数字馆藏资源组织和存储方面的差异,为上层数据应用与智能服务选择存储模式时提供指标参考。参照相关研究将图 4 中的本体(即语义关系)以主外键与关系表的方式存放入关系型数据库,保证关系型数据库和图数据库具备相同的数据粒度。如表7 所示,在关系层次较深或关系较复杂时,图数据库具备良好的存储和查询性能,图数据库操作便捷,直观性和可扩展性强。此外,对图数据库中频繁子图的挖掘、连通子图的识别、最短路径的测度等是对原始数据潜在模式和隐藏规律的有效探索,藉以数据赋能应用,推动智能服务的实现。
表7 关系型数据库与图数据库对比
5 总结与展望
数字馆藏资源已然具备大数据特性,如何开发利用直接影响文博机构智能服务的质量。图数据库具有高性能、易访问、易扩展、高可用等优势,特别适用于处理大数据存储与分析任务。本文综合运用情报学、文物学、计算机科学与技术等多门学科知识,引入元数据、本体、NLP、图数据库等技术研究文物数字馆藏资源“自下而上”的自适应分类、规范统一的本体组织、灵活高效的语义存储。从理论上丰富了数字馆藏资源组织和存储的研究方法;从实践上推动了跨机构数字馆藏资源的关联与融合,打破空间藩篱,将文物及其关系存储至后台,将文物知识进行集成,不再割裂文物之间的文化属性,可自主发现文物间的关联,以铜器数字馆藏为实例数据,验证本文整体框架的可行性,可为其他文物的研究提供借鉴参考,同时为隐藏知识挖掘、历史规律探索等智能服务的实现提供有效的数据支撑。后续的研究,一方面要完善数据属性及其关系类型;另一方面以讲好中国故事为目的,着手挖掘图数据库中存储的知识块节点,以期为用户提供更好的智能服务。尽管智能服务在各行各业如火如荼地展开,但如何公开共享并连接各地的数字馆藏资源,规范组织和高效存储这些多源、异构、海量的数据;如何契合用户需求,将新一代智能信息技术与大数据分析方法有效融合;如何激活馆藏文化资源,提升传播内容质量;如何实现共享知识、传承文明,推动智能服务发展,将是研究的重点。
注释
①国家文物局.国家文物局综合行政管理平台[DB/OL].[2020-06-26]. http://gl.sach.gov.cn/#/Industry/Col⁃lection-Collection.