中华优秀传统文化数字化与框架体系探索
2023-06-11韩泉叶张耀民
韩泉叶 张耀民
[摘 要]中华优秀传统文化数字化是传统文化创造性转化的路径之一。本文介绍了中华优秀传统文化数字化的必要性,阐述了目前传统文化数字化研究的现状,在此基础上构建了传统文化数字化框架,给出了构成框架的三个主要部分功能,最后对实现数字化采集与海量存储、公共服务与资源共享以及大数据分析与反馈功能的平台部分进行了详细剖析。
[关键词]传统文化;数字化;框架体系
[中图分类号] TP311.132[文献标识码] A [文章编号]1008-4649(2023)01-0088-06
Exploration on Digitalization and Framework System of Chinese Excellent Traditional Culture
Han Quanye,Zhang Yaomin
(The Open University of Shaanxi ,Xian 710119)
Abstract:Digitization of Chinese excellent traditional culture is one of the paths of creative transformation of traditional culture. This paper introduces the necessity of the digitalization of Chinese excellent traditional culture. The present situation of digital research on traditional culture is expounded. On these basis, the digital framework of traditional culture is constructed. The three main functions of the framework are give. Finally, the platform part of the framework is analyzed in detail. Which realizes digital collection & mass storage,public service & resource sharing, and big data analysis & feedback function etc.
Key words: Traditional Culture; Digitalization; Framework Systemn
中华文明数千年一系,蕴藏博大丰厚的精神文化资源,浩瀚典籍里的文字佳篇,博物馆里的精品,广阔大地上的文化遗存,都是文明华彩乐章的历史凝结,已成为今天繁荣文化事业的“战略性资源”。面对信息化、数字化发展大趋势,以社会主义核心价值观为标准,取其精华去其糟粕,将中华优秀传统文化数字化是传统文化创造性转化的路径之一,运用数字新技术、新应用,大力发展数字文化新业态,催生数字文化新产品。
一、优秀传统文化数字化的必要性
在互联网信息技术风靡全球的时代,利用数字技术赋能传统文化转化与传承,将中华优秀传统文化数字化,通过传统经典再造,弘扬主旋律,传播正能量,打造具有中国特色、中国风格的数字化产品,在内容上符合精神文明需要,是新时代传统文化创造性转化与传承的伟大实践,也是新时代优秀传统文化传承与发展的必然。韩泉叶,等.中华优秀传统文化数字化與框架体系探索[J].陕西开放大学学报,2023,(1).
1.优秀传统文化数字化是时代发展的必然
近年来,以数字技术为支撑、数据资源为关键要素的数字经济蓬勃兴起,习近平总书记强调,要“充分发挥海量数据和丰富应用场景优势,促进数字技术和实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,不断做强做优做大我国数字经济”[1]。
中华优秀传统文化数字化是新时代的一种新思维,日新月异的数字技术,为弘扬中华优秀传统文化开辟了新的空间和路径。实现以数字技术为载体的中华优秀传统文化的创造性转化和创新性发展是大势所趋。传统文化的数字化能让传统文化传播的更快更广、产生更大影响,充分展示中华历史之美、文化之美。
2.优秀传统文化数字化是文化沉淀与保护的需要
中华优秀传统文化运用传统方法进行修复和保护有其一定的局限性,相较于传统的纸质保存方法,数字化和网络存储打破了时空限制,更容易进行资料的归纳整理与实时更新,有助于永久保存文化资源,增加了收藏价值。运用数字技术,通过数码显微技术、三维虚拟技术等手段,能够解决手工修复无法完成的难题。对于文献典籍、非遗文化、古村落这类不可再生的文化资源、文化遗产,通过拍摄图片、录音、录像、文字识别等方式组建数字化档案,进行数字化保护,让书写在古籍里的文字“活”起来,让古村落文化遗产得以沉淀和传播,增加其可读性和趣味性;数字化可以很好地保护现有的文化遗产,后人可以随时随地地进行查阅,而不必去实地考察文化遗物,也就避免了对文化遗物造成部分破坏和损害。
3.优秀传统文化数字化是大众多元化文化需求的必然
随着互联网+应用的迅速普及,人们学习生活方式的改变,网上文化需求的比例迅速增加,只留在文字典籍、博物馆、旅游胜地里的传统文化已不能满足大众需要,不同层次,不同群体对文化的需求多元化趋势加快,人们期待着品种多样、内容丰富的精神文化产品的出现,习惯于通过网络追求更丰富、更方便、互动性更好的文化生活,优秀传统文化也就自然地向数字世界进军,这与当代人的阅读习惯相适应,与大众化的文化需求相适应。
二、传统文化数字化研究现状
关于传统文化数字化方面的研究,到目前为止,已取得了一些成绩,主要是利用现有的信息技术,将有关传统文化的内容进行数据资源的数字化处理、借助图片、音频、视频等信息转换、存贮、检索和交互展示等方式,有效地将各类传统文化转变为数字化产品,这在某一时间段为传统文化保护、传承提供了一种思路,其对应的数字化后的数据信息存储,是对结构化数据的简单存储,更多半结构化、非结构化数据,如视频等类型数据,利用不够充分,更不涉及如何利用保存数据来产生信息、知识,或者有价值软件商品等方面的问题。
随着大数据时代的到来,各种新媒体应用的爆发式增长,原有的数字化方法不能应对传统文化数字化过程中产生的大量非结构化和半结构化数据,缺乏对海量数据的支持,特别是面向海量数据后如何挖掘传统文化数据的模式、分析内在的关系结构,从而指导未来复杂社会条件下开展传统文化数字化保护、传承等方面的思考。这已不是图片、音频、视频的简单存储能解决的,而是需要一个包含数字化资源采集、数字资源存储、数字资源管理、数字化生产、数字化展示、数字化传播和数字消费等在内的数字化保护和开发全生命周期的数字化共享和服务平台[2]。
目前传统文化与影视、动画、数字博物馆的交叉研究相继出现快速增长。学术研究发展趋势基本符合数字新媒体技术发展趋势,即从数字化、视听化发展到网络化、移动化、交互化。总体来说,目前国内的研究,对新媒体创新的内容研究多,对数字化技术的研究偏少,特别是具有保障功能的数字化体系研究不多信息安全技术类的保障没有;单一学科视角多,跨学科综合研究少;创新传播的系统性研究、特别是网络传播保障机制方面的研究偏少。
鉴于以上情况,下面对传统文化数字化框架体系进行详细的研究与阐述。
三、构建传统文化数字化框架体系
优秀传统文化数字化是将优秀传统文化转变为可度量的数据,并加以处理的过程,包括数据采集、传输、存储、计算和应用。目的是把传统文化形成数字模型,通过共享、呈现、优化等方式展现在大众面前,最终实现文化的转化与传承。
传统文化的数字化是一个系统工程,是需要运用海量存储、光速传输、智能分析、精准推送、云端共享等数字技术,将优秀传统文化转化为可储存、管理、共享的数字形态,包括在网络环境下搭建智能化数字共享平台、开发数字软件,同时将社会主义核心价值观贯穿整个数字化转化体系的每个环节,达到进一步实现传统文化的创造性转化与传承。
传统文化数字化框架体系如图1所示。主要由平台部分、应用/终端部分和两翼保障部分组成。
图1中,平台部分用来完成传统文化数字化转化的核心功能,主要包括数字化采集与海量存储、异构系统整合与资源共享服务及数据分析与反馈三部分。
应用/终端部分包括热门应用和手机电脑等终端设备。其功能是接收平台部分推荐的资源、跟踪用户行为数据并提交给平台部分的数据库存储、相应用户请求抽取平台部分的资源。也就是说,一方面平台部分将大数据分析得到推荐资源或热度资源,推荐给热门应用,如抖音、B站、微信、MOOC等;另一方面,用户通过手机、电脑等终端设备请求访问平台部分或热门应用,并将访问浏览的行为数据信息存入平台部分的数据库。
两翼保障[3-4]部分主要是为优秀传统文化数字化及其网络传播提供清朗的网络空间、可行的制度保障和完备的社会保障。包括以社会主义核心价值观为标准的左翼和右翼,即“网络空间安全”和健全的“政府主导监管、社会参与、市场运作”机制。
四、平台部分剖析
平台部分用来完成传统文化的数字化处理,包括:数字化采集与海量存储、异构系统整合与资源共享服務、数据分析与反馈三个部分。
(一)数字化采集与海量存储
在传统文化数字化系统体系中,传统文化原始素材从来源上大致分为来自图书馆、来自博物馆、来自美术馆、来自各种旅游景点的实体实物和非物资文化遗产等文化遗存,因此根据传统文化来源对传统文化以文本、图片、图像、音频、视频等非结构化数据(信息)形式进行分类采集与梳理,数字化为相应的数字图书馆、数字博物馆、数字美术馆、数字旅游景点和数字非物质文化遗产遗存等数字资源。
数字化采集到的数据有结构化数据和非结构化数据,结构化数据(如二维表数据)由于其数据量不大,采用块存储方式,如:SQL Server。非结构化数据(如图像、音频、视频、文本等)由于其占比越来越大,为满足大容量、高吞吐的存储要求,系统对非结构化海量数据存储有文件存储和对象存储两种方式,相应地,它们分别采用树状嵌套分层结构和扁平结构,分布式多节点并发处理,以物理上分散、逻辑上集中的形式存储。其非结构化海量数据存储框架如图2所示。
图2中,文件存取统一接口,封装了系统中非结构化数据的读写操作接口,其中Hadoop HDFS负责对大文件的存储,HBase负责对小文件的存储。
对象存取统一接口,封装了对象文件的元数据和接口命令,该元数据是独立出来的,并不封装在对象文件内部,这样可以大大提高对象的排序、分类和查找速度。
针对文件存储和对象存储两种非结构化数据海量存储方案,实际应用中要根据具体情况而定,其适用场景及特点如表1所示。
所谓元数据(Metadata)指对象数据的标签,记录着对象的各种描述信息。
(二) 异构系统整合与资源共享服务
异构系统整合与资源共享服务采用应用虚拟和资源虚拟技术,为数字图书馆、数字博物馆、数字美术馆、数字旅游景点、数字非物质文化遗产等分散数字资源共享、服务整合和异构系统之间互融互通,提供基于标准、面向服务、事件驱动的数字化资源服务、共享,主要包括以下关键技术:构建统一的资源数据标准,异构系统的互融互通,资源共享模式与调度,数据质量检测和数据运行监控,推送各类优势资源,统一应用认证。
其一是构建统一的资源数据标准,包括资源标识符标准、资源元数据标准、资源互操作标准和资源目录标准等。现有的海量数字化资源,分散在不同地方,不同系统中,要实现资源共享,必须构建统一的资源数据标准,独立于不同的应用,才能进行资源数据融合,完成资源数据的交换和集成,达到资源共享。
其中,资源数据标准中的数据源,要兼容支持各种类型的数据库,既支持结构化数据又支持非结构化数据,包括SQL Server、Oracle、MySQL、DB2,Cube数据集市、XML、SOAP服务、REST服务、RSS服务等。
其二是异构系统的互融互通。通过异构数据桥接方式,使用统一资源数据标准,统一异构系统之间的资源数据,从而实现异构系统的互融互通。异构数据的桥接可提供上百种数据转换的组件,用户根据自己的数据转换规则选择相应组件,完成复杂的数据转换需求,用到的数据库数据转换组件有:字段拆分组件、字段组合组件、数据过滤组件、多字段计算组件、空处理组件、字段映射组件、数据类型转换组件、脚本转换组件等,可实现异构数据与数据交换网关的桥接,不需任何编码即可实现资源的服务化共享(通过配置自动生成REST/SOAP服务)。
其三是资源共享模式与调度。从共享管理角度看,资源共享采用层次化方式,即,国家、省、市、县或顶级节点、二级节点、三级节点……。其共享模式如图3所示
图3中,位于n层的每个节点内保持了本节点的资源统一目录、资源的元数据库和部分热门成品资源,该层节点将各自元数据提交到其上层所属节点,上层节点对其管辖的所有节点提交的元数据进行审核,并保存通过审核的元数据,同时将审核结果告知被管辖节点;顶级节点保存其下属所有节点的总目录、总元数据和部分热门资源;
资源共享时,使用顶级节点的总目录,根据资源元数据定位到该资源所在节点,然后按照算法调整该资源的热度值,同时按照相应的调度策略,将该成品资源同步至顶级节点;用户通过顶级节点的统一目录对资源进行检索和下载;用户之间采用当前广泛应用的IP电话、IP视频、IP会议的国际标准的JXTA P2P端到端数据通信架构来传输资源,端到端之间可以自动根据带宽创建多条并行数据传输通路,任何一条通路出现故障,均不影响端到端的数据传输,保证了端到端传输的实时性和高可靠性。
其四是数据质量检测和数据运行监控。使用DQC(Data Quality Control)和SLA(Service Level Agreement)工具进行数据检测与监控,及时发现使用中不断暴露的数据问题,补全数据缺失、不准、不稳定等,完成数据清洗,去掉冗余数据,构建闭环的数据生态,推动资源数据质量提升;
其五是主动推送各类优势资源。根据大数据分析与反馈的结果,将满足各层次文化受众体的传统文化资源推送出去,将人们喜闻乐见易于理解的资源推送出去,人们通过手机、电脑、移动终端发出服务需求后,共享平台会通过浏览器向用户提供资源和程序等。
其六是统一应用认证。各类传统文化应用数量繁多,为了为各类特色应用提供统一的检索、导航、不同终端访问接口等,需要统一应用认证。当用户访问平台时,输入用户名和密码进行登录,账号信息被保存,该用户通过平台访问其他应用时,被保存的账号信息被传递给该应用,从而实现统一应用认证。统一认证流程如图4所示
(三) 大数据分析与反馈
大数据分析的主要目的是精准推送资源和辅助决策。
平台采用HDInsight分布式计算,处理大量非结构化和结构化数据并快速从中获得价值,整合业务分析工具Pig、Hive、Pivot、Map、Impala等,以实现精准分析、精准推送、精准把握群众文化需求,合理引导文化消费。
1.通过大数据分析与反馈实现精准服务
其一是个性化服务。通过数据分析处理用户的行为数据,挖掘用户兴趣,提供价值数据,为用户个性化推荐,包括数字化文化资源推荐、文化应用软件推荐、兴趣群组推荐等个性化服务,提供更精准地投放文化内容,更高效的提供文化服务。
其二是为远程学习者提供学习指导。通过数据分析处理学习者最感兴趣的传统文化是哪些,最想学习的传统文化是哪些,或最合理的授课、时间安排、地点安排,以提高中华优秀传统文化传播的受众精准性。
其三是方向性指导。通过数据分析文化热点,实现大众主流文化需求的精准推送,精准对接大众传统文化需求,从而满足大众文化需求,贴近大众审美趣味,有效增进大众参与度,吸引青年人主动了解和传播优秀传统文化。
其四是趋势指导。分析大众喜闻乐见的文化传播形式,为文化转化、传播的展现形式研究及其他应用软件的开发提供指导。开发者根据反馈,在云系统的API基础上不断改进、开发出新的应用产品。有利于管理者制定有针对性的、适合大众需要的平台服务来实现传统文化的创造性转化和传播。丰富传统文化的时代内涵,为民族文化的创新和传播提供更多的可能。
2.大数据分析工具的选取
不同的数据分析工具有着不同的适用场所,具体选择根据实际需求来定。
表3中,在数据获取阶段,通过SQL从数据库中提取数据,也可通过python爬取数据;数据处理阶段,如果数据量不大,Excel方便快捷,在大数据量的情况下,使用SQL和Python更为常见,在大量不可变数据的批处理作业中,Hive则最为合适;分析建模方面,Excel、BI工具用于简单分析,R、SPSS用于专业的统计分析,Python也是不错的选择;做可视化时,可以使用常见的BI工具Tableau、PowerBI、FineBI等,报表工程师更适合选择专业的报表工具例如Finereport,开发人员喜欢选择开源的可视化工具,如Echarts、Tagxedo。
Hadoop是对大量数据进行分布式处理的软件架构,能够处理PB级数据,且使用成本低,是进行大数据分析的合理选择。其上衍生的Hive、Pig和Impala三种分析工具,Hive是基于Hadoop的一个数据仓库工具,其语法类似SQL,适合于长周期的、复杂的批处理查询分析任务,其最大缺点是慢,而Impala是基于Hive的大数据实时分析查询引擎,适合于实时交互式SQL查询,数据库管理人员使用。Impala是处理海量数据的高性能SQL引擎,它的查询可以达到秒级,甚至有些数据少的可以达到毫秒级,延迟很低,比Hive、Pig或Map Reduce快10到50倍。Pig是一個基于Hadoop的大数据分析工具,其语法是类似shell的数据流语言,运维人员使用。
3.数据分析核心算法
为了帮助管理者辅助决策,实现资源的精准推送,需要从用户大量行为信息中挖掘用户感兴趣的内容信息[3]、从大众视角挖掘当前社会热点信息,图5描述了第一种情况,图6描述了第二种情况。
图5是一个封闭的实时反馈图,根据用户m的历史访问行为数据,过滤出该用户的访问行为偏好,采用内容相关性算法和用户相关算法,为该用户推荐内容或应用,跟踪用户下一步实时访问行为,包括点击、浏览时间、下载等,并将此实时访问行为数据记录入该用户的历史访问行为数据中,同时刷新用户的行为偏好,进入下一轮实时反馈。
基于内容相关性算法:
通过分析信息内容的相关性,即,根据用户浏览的信息内容,向该用户推荐与内容关联度最大的信息。
内容关联度计算公式如式(1)所示,最大关联度公式如式(2)所示:
公式(1)(2) 中,RC值越大表明双方内容关联度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示从不同角度判断与信息X具有相关性的第n个信息,RCn表示X信息与信息Yn的相关度,在相关度集合{R1C,R2C,…RnC…}中,求出相关度的最大值RCmax,其对应的Yi就是要推荐的信息。
基于用户相关性推荐算法:
通过分析两个用户相似的偏好,计算他们之间的相似关联度,关联度越大者,他们的相似偏好越大,可以根据用户甲的浏览行为,将其他相似度大的用户浏览内容推荐给用户甲。
根据用户年龄、性别、职业及其历史浏览的内容1、内容2、……内容i,构建用户偏好矩阵,并根据用户再次的浏览下载等行为,动态刷新更新此偏好矩阵,用Matrix(X)表示用户X的偏好矩阵。用户关联度计算公式如式(3)所示:
公式(3)中,RU值越大表明用户X与用户Y的关联度越大,其中Y是元素Y1,Y2,…Yn的集合,即Y={Y1,Y2,…Yn…},集合中Yn表示第n个用户,RnU表示用户X与用户Yn的关联度,在用户关联度集合{R1U,R2U,……RnU…}中,如式(4)所示,求出关联度的最大值RUmax,其对应的用户Yi的浏览信息偏好就是要推荐的。
基于内容相关性算法和基于用户相关性推荐算法皆是从用户角度出发,依据用户个人喜好进行内容推荐,让用户得到自己感兴趣的内容,从用户角度考虑很好的解决了用户需求,但其也存在一些问题,如:该用户的喜好是否为大众主流喜好,是否弘扬社会主义核心价值观等,为保障向用户推荐的资源属大众主流喜好,或是弘扬社会主义核心价值观的资源,将大众喜欢的内容推荐给用户,从而使用基于热度的资源推荐方法,如图6所示。
图6中,首先依据资源大类将数字化内容分为数字化图书馆类、数字化博物馆类、数字化美术馆类、数字化旅游景点类和数字化非物质文化遗产遗存类,每类资源下有其具体资源1、资源2、……、资源n,对于任选资源,该资源主要展现形式又分为文本类、音频类、视频类、VR类等,计算资源下具体展现资源的点击量、驻留时间与内容量之比、下载量等合成该展现资源的热度,形成热度值排序表。当用户登录平台浏览时,根据用户当前浏览的展现资源向其推荐热度值高的资源,热度值计算如式(5)所示。
hot=αA+βB+γC(5)
A表示某资源的点击量,B表示用户在该资源上的驻留时间与容量之比,C表示该资源的下载次数。α,β,γ分别表示A,B,C的动态可调整影响因数。
五、结束语
为了使中华优秀传统文化得到更广泛的传播,将传统文化数字化是传统文化创造性转化路径之一,也是时代发展的必然趋势。传统文化数字化框架体系的构建是文化与科技的融合,是传统文化数字出版和服务方式的创新,能够推动移动互联时代个性化学习,完善文化传播体系,为加强精品数字文化的生产和传播,提升我国文化软实力,促进文化产业的可持续发展提供技术支撑。
[参考文献]
[1]“十四五”数字经济高质量发展的行动纲领, http://theory.people.com.cn/n1/2022/0119/c40531-32334626.html
[2] 向江,等.杨毅全国公共数字文化共享云服务平台研究与设计[J].计算机工程与应用,2018,54(13):258-265.
[3] 韩泉叶,等.基于大数据的高职院校信息化建设框架体系研究[J].电子测试,2020(8).
[4] 韩泉叶,等.基于数据生命周期的智慧校园设计及原型实现[J].中国教育信息化,2021(6).
[5] 高丹,等.基于尾随迭代分析的精准内容推荐方法[J].办公自动化杂志,2021(11):62-64.
[责任编辑 李 帆]
[收稿日期]2022-10-11
[作者简介]韩泉叶(1974— ),女,江苏省睢宁市人,陕西开放大学教育研究中心主任,教授,工学博士。张耀民(1976— ),陕西省蓝田县人,陕西开放大学信息与智能技术学院院长,工程硕士。
*[基金项目] 陕西省高等教育理论与实践研究项目“中国优秀传统文化数字化与传播保障研究”(项目编号2022HZ0959)。陕西省“大思政課”建设试点项目“一室三会、两支撑、四平台”思想政治实践育人体系的构建与实施。