少林文化大数据平台关键技术研究

2022-07-14张丽娟张富

档案与建设 2022年6期

张丽娟张富

摘要：少林文化大数据主要包括文化原生数据和文化衍生数据。利用相关关键技术，将文化原生数据转换为文化衍生数据是弘扬少林文化、挖掘少林文化人文内涵的必要支撑，是少林文化大数据平台实现技术经度和文化纬度交织融合的重要纽带。文章在详细剖析少林文化大数据的多维度多属性特征基础上，对自然语言处理、全文检索、可视化引擎相关关键技术问题进行了探讨，创新了具有少林文化属性的相关技术应用，以期为相关研究提供借鉴。

关键词：少林文化；文化大数据；数字人文；人文GIS

分类号：G270

Research on Key Technologies of Shaolin Culture Big Data Platform

Zhang Lijuan1 ，Zhang Fu2

（ 1.School of Electrical Engineering and Automation of Luoyang Institute of Science and Technology， Luoyang， Henan 471023； 2.School of Surveying， Mapping and Geographic Information of North China University of Water Resources and Electric Power， Zhengzhou， Henan 450046 ）

Abstract： Shaolin culture big data mainly includes cultural native data and cultural derived data. Using related key technologies to convert cultural native data into cultural derived data is the necessary support for promoting Shaolin culture and mining the humanistic connotation of Shaolin culture， and it is also an important link for the Shaolin culture big data platform to realize the interweaving and integration of technical longitude and cultural latitude. Based on the detailed analysis of the multi-dimensional and multi-attribute characteristics of Shaolin cultural big data， this paper discusses the key technical issues related to natural language processing， full-text retrieval and visualization engine， and innovates the application of relevant technologies with Shaolin cultural attribute， in order to provide reference for relevant research.

Keywords： Shaolin culture； Cultural Big-Data； Digital Humanities； Humanistic GIS

少林文化孕育千年、底蕴深厚，是中国优秀传统文化的典型代表。2020年10月，中国嵩山少林寺召开了“档案与少林文化大数据”论坛，开始以少林档案工作为先导，探索少林文化大数据的发展路径，并于次年通过了《少林文化大数据平台建设方案》。

随着平台建设的持续推进，少林文化大数据已由单一少林档案资源，拓展延伸至更为多样、海量、分散、动态的更具广泛意义的数据资产，少林文化大数据平台将全面打造新时代少林文化发展的生产要素，夯实延续少林千年辉煌的基石。本文在少林文化大数据特性基础上，分析少林文化大数据平台技术框架及关键技术问题，以期为包含档案在内的文化大数据建设与领域应用提供参考。

1 少林文化大数据的数据来源和分类

1.1 数据来源

少林寺藏档案资源主要包括：文书档案4万余件，藏经阁图书5万余种、30万余册。包含北齐至明清时期拓片近万件，古籍3万多册，其中善本近6千种2万余册。现代图书约4万种，大藏经20多种，武术典籍10多种，禅医药典籍3万余卷。电子档案资料数万件，内容超过100T容量。据不完全统计，尚未收集整理的资料保守估计还有上百万件，其中，实物档案碑刻塔铭247种，各类塑像、壁画、钟鼓、石狮、匾额等关键附属物约1200项。

少林寺历史上饱经战乱，诸多历史资料留散民间，许多历史资料至今仍然留存在海外，因此，国内外资料库有关少林历史的资料也是少林文化数据的主要来源之一。目前，仅对国内资源库进行筛选，初步统计出大约10万册/卷/个/通。

伴随少林文化大数据平台的日渐完善，其数据来源也从以寺藏档案资源为主扩展为泛档案化的信息资源聚合，初步测算，平台一期建成后预计数据量将达1.4PB，之后年自产数据量将达到0.8PB-1PB/年。

1.2 数据分类

少林文化大数据依据其产生方式不同可分为：少林文化原生数据和少林文化衍生数据。其中，少林文化原生数据是在少林寺历史发展与实践中，以自然的方式直接或间接产生的基础原始数据，是少林文化大数据整合管理、开放共享、价值挖掘、知识发现的必要支撑。按照其承载的信息属性不同，又可分为：少林文化内容数据和少林文化行为数据。少林文化衍生数据是在少林文化原生数据的基础上，依托大数据处理技术对原始数据的属性、结构、功能、关联性等进行分析和加工所催生的新的、具有一定认知理解的其他文化数据类型，是推动文化大数据开发利用与技术发展的内在动力。按照其呈现场景不同，又可分為：少林文化时空数据和少林文化知识数据（如表1所示）。

2 少林文化数据的“多维度多属性”特征

在梳理少林文化数据资源的过程中，笔者发现越久远的历史资料越具有独特的文化属性，而这些数据往往又在专业和时间维度上具有明显的不连续性。如果把“时间、专业、类别”划分为三空间维度，任何一种数据资源至少同时具有三个维度的多属性特征（如图1所示）。

比如：“三教九流石碑”碑刻时间是嘉靖四十四年（1565年），但在文化时间维度上可追溯到一百多年前的明朝成化皇帝；专业维度上又具有宗教、哲学和艺术等属性；在少林文化类别维度上又属于禅和艺等。

少林文化数据从单一维度很难完整地诠释少林文化内涵。首先，在时间维度上，分散的各专业资料不仅连续性、完整性不够，而且数据产生的“时间点”与其代表文化主题的时间跨度无法依据时间属性直接关联对应。这种时间维度特点，还直接导致数据以多种语言形式存在。其次，在专业维度上，少林文化涉及宗教、武术、建筑、书画艺术、医学、历史和外交等多个领域，而且同一文化主题涉及的领域之间又交叉融合，数据的专业归属相对比较模糊。再次，在少林文化类别维度上，“禅、武、医、艺”并非孤立存在，其深层的思想逻辑、文化内涵相辅相成，密不可分，数据与这种表象分类存在“多对多”的关联关系。

因此，少林文化数据这种多维度多属性特征，决定了从数据采集到价值挖掘，都需要依赖多种专业的高度融合，甚至还需要从时间、地点、人物、事件、事物、现象、场景中寻求碎片数据之间的隐含关联性，以此相互印证、彼此粘连。这种典型的文化数据特征对大数据技术再一次提出了新的挑战。

3 少林文化大数据平台技术框架

少林文化大数据平台是大数据技术经度和少林文化纬度相互交织的表现，试图确保在不同应用场景之间，呈现出一个覆盖全要素、全过程、全周期的“经纬图”。在具有普适性大数据平台基本功能的同时，需顾及少林文化数据特征，并满足少林数据资产开发与利用、禅宗文化传承与传播、少林知识研究与发展、少林寺务管理与决策的四大需求。平台的核心层为数据层、逻辑层、应用层，每层设计思想如表2所示。

4 少林文化大数据平台关键技术

在少林文化大数据平台建设过程中，不仅需要借用大数据相关技术，还需要充分顾及少林文化数据的独特性。本文主要从文化大数据语义解析、数据检索查询和文化时空化呈现三个方面，对涉及的自然语言处理（Natural Language Processing，NLP）、全文检索引擎、文化时空可视化技术进行阐述。

4.1 自然语言处理技术

自然语言处理（NLP）是对自然语言信息进行处理的技术[1-2]，主要实现人机间自然语言交流[3]，包含自然语言理解和自然语言生成两个层面[4-5]，二者互为逆过程。[6]

通常情况下，NLP分为五个步骤：①获取自然语言语料数据。②数据预处理。主要进行数据清洗、谓语分词、词性标注等工作。③语言规则性表达。一种是基于传统的自然语言处理建模，对语料数据结构化拆解与表达。另一种是基于神经网络的深度学习建模。④模型训练，可根据语料语种、语法特征、禁止约束规则等选择样本进行模型训练。⑤结果评价。常用的评测指标有准确率、召回率、综合评价指标等。

少林文化数据历史跨度大，数据资料存在文字多样（古文字、繁体、梵语等）、标点缺失（碑刻、古籍尤其突出）两大问题。因此，无法直接使用NLP进行语义解析，而需要在上述第②、③步骤进行优化补充。

针对文字多样问题，平台采用多字库自增量动态补充技术，统一转为现代字词库，并由现代字词库映射到现代语义库。初始状态下，录入各种词典常用字（词）数据作为多字库基础数据。后期根据语言模型，进行反复训练，以此增补维护多字库和现代语义库。

针对标点缺失问题，主要基于现代研究成果，结合自学习算法进行处理。事实上，标点缺失与文字多样问题密不可分，二者需要相互交叉处理，初始状态需采用人工干预方式进行。

4.2 全文检索技术

全文检索技术是基于检索资料的内容而非仅基于外表特征的一种检索技术。少林文化衍生数据主要是加工处理后的数据，通常存储在数据库中，其检索方式可以采用数据库检索方式。对少林文化原生数据实现全文检索是本文讨论的重点，经研究发现，少林文化原生数据最终都可以转换为文本和图片两种表达形式（转换路径如表3所示）。

（1）基于文本数据检索

针对文本类数据，全文检索的实现过程可描述为：使用索引程序检索文本资料中的每一个词，对每一个词建立一个索引（指明该词在文中出现的次数和位置），当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找结果及其关联的源资料内容一并反馈给用户。因此，基于文本的全文检索技术包括两大核心内容：索引处理和查询处理。[7-8]

建立索引的目的是减少后续查询的平均耗时，但需要增加时间复杂度和空间复杂度。索引建立后，基于索引模型保存索引库，索引模型通常分为正排索引和倒排索引两类。如今，建立索引的算法模型已经比较成熟，本文不再赘述。

查询处理是在索引建立之后完成。实际上针对大数据海量数据而言，传统的检索很难快速从数据集中查找到所需要的信息[9]，目前较为常用的是模糊匹配查询技术，如：动态规划字符串匹配[10]、自动机模糊匹配。[11]

值得说明的是：少林文化大数据平台针对文本全文检索时，顾及文字多样性问题，需从原始文本庫和现代语义库中同时检索，以弥补传统文本全文检索的不足。

（2）基于图片数据检索

少林文化大数据平台提供文化图形元素基因的检索功能，因此，针对图片数据实现检索时，需要采用两种技术：基于内容描述的图片检索和基于样本的图片匹配检索。其中，前者是一种基于文本（语义）特征（如关键字、注释等）的图像检索方法，可以理解为文本信息检索技术在图像检索中应用扩展。[12]后者是一种基于视觉特征（如颜色、布局、纹理、形状和结构等）的图像检索方法，也常称为基于内容的图像检索技术。[13]

4.3 可视化引擎

可视化技术主要将可见、不可见或抽象的事物，采用符号、图形、图像、视频等多种可视形式清晰直观地呈现技术。从来源类型上可分为数据呈现和信息呈现两种，前者主要针对数据本身进行可视呈现，而后者主要针对数据所承载的信息进行可视呈现，包括常用的空间信息可视化、地理空间信息可视化、时空信息可视化、地理时空信息可视化等。

从呈现形式上，可视化技术涵盖包括：地理地图可视化、文本可视化、多维数据可视化、动态时序可视化、网络图可视化和时空数据可视化。

如上所述，少林文化数据存在明显的多维度多属性特征，少林文化主线很难从某个单一维度进行可视化呈现，因此，少林文化大数据平台面向不同文化主线的描述形式，采用不同的可视形式。本文把少林文化主线的描述形式归纳为五种（如表4所示）。

5 結语

少林文化集禅修、功夫、禅医等多种文化元素于一身，具有跨宗教、跨种族、跨国界、跨文化的特色，使得少林文化大数据在数据来源、结构特点等方面也有独特的技术需求。少林文化大数据平台作为少林文化价值的挖掘研究、作为传播弘扬少林文化内涵的重要载体，在融合大数据通用技术基础上，创新了具有少林文化属性的相关技术，对同类型属性的文化大数据研究具有借鉴意义。

*本文系国家社科基金一般项目“国家大数据战略背景下档案数据治理体系构建研究”（项目编号：19BTQ097）阶段性研究成果。

注释与参考文献

[1]刘小安，贾杉杉，彭涛.卷积神经网络在自然语言处理中的应用研究综述[C]//.中国计算机用户协会网络应用分会2017年第二十一届网络新技术与应用年会论文集.《计算机科学》编辑部（Editorial Board of Computer Science），2017：31-34，49.

[2][4]赵京胜，宋梦雪，高祥.自然语言处理发展及应用综述[J].信息技术与信息化，2019（7）：142-145.

[3]罗枭.基于深度学习的自然语言处理研究综述[J].智能计算机与应用，2020（4）：133-137.

[5]李宜哲，王帅丁.自然语言处理的发展及应用前景综述[J].IT经理世界，2020（5）：210-211.

[6]Allen， J.自然语言理解第2版[M].刘群，张华平，骆卫华，等译.北京：电子工业出版社，2005：3-9.

[7]孙芳媛.基于倒排索引和字典树的站内搜索引擎的设计与实现[D].哈尔滨：哈尔滨工业大学，2016：5-6.

[8]杨文清，黄宜华，张福炎.中文Web文档库全文检索技术研究与实现[J].中文信息学报，1999（4）：50-57.

[9]王静帆，邬晓钧，夏云庆等.中文信息检索系统的模糊匹配算法研究和实现[J].中文信息学报，2007（6）：59-64.

[10]Ukkonen E. Algorithms for approximate string matching[J].Information and control，1985（1）：100-118.

[11]Ukkonen E. Finding approximate patterns in strings[J]. Journal of Algorithms，1985（1）：132-137.