大数据技术的媒资档案管理方法
2022-02-15廖金材张燕丹
廖金材,张燕丹
(福建省龙岩市永定区融媒体中心 福建 龙岩 364100)
0 引言
媒资档案是在广播电视节目制作以及传播过程中形成的电视、网络等媒体的资源档案,不仅包含文字资源,还包括语音、视频等资源信息,具有数量大、种类多等特点,因其独特的特性存在,导致媒资档案管理具有难度高、易丢失、工作量大等特征。最初媒资档案管理方法主要是通过人工收集、整理、建档存储,对于文字类的媒体资源信息整理成纸质档案,对于语音、视频类的媒体资源信息存储到独立的硬盘上,并将标签贴在硬盘上,方便媒资档案查找和使用。这种方式需要花费大量的资金,并且消耗大量的人力资源,不仅效率低,如果不对其进行定期整理和检查,非常容易出现档案丢失现象。随着信息技术和网络技术逐渐与档案领域融合,为了提高档案管理效率,相关学者提出了数字化管理方式,在一定程度上推动了媒资档案数字化、信息化建设。左晋佺等[1]利用大数据技术,构建用户、节点、组织、下属机构、档案云储存模式的档案管理平台。在数据库中利用元数据特征属性完成可视化档案管理。但是,该方法无法对档案管理系统中存在的数据进行融合处理,导致档案管理响应时间较长,存在系统响应效率低的问题。相世强[2]以Java语言为基础,利用JFinal技术构建急速WEB开发框架,实现系统化、自动化、多元化的档案信息管理。但是,该方法在规定时间内无法对多个媒资档案数据包进行有效处理,存在系统媒资处理能力和并发性较差的问题。
虽然目前媒资档案管理已经取得了相应的成果,但是由于国内媒资档案信息化管理起步比较晚,仍然处于比较低的技术水平。现有的管理方法存在不足,在实际应用中当对海量媒体资源信息管理时,经常出现信息残缺,建立的媒资数字档案完整性较差,档案信息丢失量较大、响应时间较长、并发性较差等问题。基于此,本文提出大数据技术的媒资档案管理方法,以期优化媒资档案管理效益,同时确保档案信息安全性和完整性。
1 基于大数据技术的档案序列加密分类
为了保证媒资信息的完整性和安全性,利用大数据技术对媒资档案数据序列进行加密分类,在加密分类前对待管理的媒资信息建立相应的数字标签,以元数据作为档案数字标签构建的对象,以媒资信息内容元数据为主,比如媒资主题、信息源、资源、时间,其中媒资主题的确定是根据媒资信息中出现频率最高的关键词确定,以关键词作为媒资档案主题,对媒资档案本体划分[3]。信息源是指媒资信息的来源,资源主要为媒资信息的主要形式,包括文本、图片、音频以及视频。时间是指媒资信息的产生时间,根据以上四个媒资信息属性,生成媒资档案数字标签,用公式表示为:
式c中,V表示媒资档案s数字标签;a表示媒资档案主题;表示媒资信息源;表示媒资档案资源类型,其中文本资源类型用“1”表示,图片资源类型用“2”表示,音频资源类型用“3”表示,视频资源类型用“4”表示;e表示媒资档案时间属性[4]。
根据媒资档案数字标签,对媒资数据序列进行加密分类处理,下图为基于大数据技术的媒资数据序列加密分类如图1所示。
图1 基于大数据技术的媒资数据序列加密分类示意图
媒资数据序列加密包括3个功能层:数据分类层、数据块内部结构层和加密分类格式层。数据分类层实现媒资数据包中的文本、图片、音频以及视频等类型划分。数据块内部结构层主要包含数据头、数据块和数据位,通过数据头存储媒资数据基本信息,利用数据块对空间进行实时调整,根据数据位改变链接行或迁移行。加密分类格式层中通过数据块数量计算索引数据,限制数据操作者数量扩大空余空间,根据大数据长度读取媒资数据记录,利用本组拥有密钥管理和跟踪数据块。
随机选取一个已经生成数字标签的媒资信息,假设该媒资n信息数据序列长度为h,该媒资信息数据操作者数量为,按照等价分类法将媒资信息数据序列分类成长度相等的m和大数据块,每个大数据块的第一个数据作为该数据块的密钥,将其作为变量,计算出媒资信息数据密钥组合值,其计算公式为:
式中,x表示媒资档案数据密钥;wm表示第m个大数据块密钥[5]。生成大数据块密钥后,设定length-sive为大数据块列表,利用singther-length表示大数据块位长,根据大数据块所在位置,生成大数据块位置编号,并将其与数据块密钥添加在大数据块块头位置,媒资信息密钥组合值添加在大数据块块尾位置,从而实现为媒资信息数据序列的加密分类。
2 媒资档案整合
按照分类的大数据块信息特征,对媒资档案进行整合,首先构建媒资档案信息分析模型,该模型用公式表示为:
式中,u表示构建的媒资档案信息分析模型;Cm表示媒资信息数据块特征量;F(X,t)表示时间t时媒资数据X的模糊度;p(t)表示媒资数据分类函数;K表示媒资信息总特征值[6]。利用该模型对媒资档案信息特征进行分析,根据分析结果对媒资档案信息特征进行重构,得到的媒资档案主成分特征为:
式中,z表示特征重组后的媒资档案信息主成分特征;A表示媒资档案信息的模糊特征分量;g表示媒资档案信息的谱分解系数;α表示媒资档案信息状态点频率;γ表示媒资档案信息采样率[7]。根据媒资档案信息主成分特征,对具有相同特征的媒资档案信息组合在一起,从而实现媒资档案整合。
3 媒资档案存储管理
将整合后的媒资档案存储到数据库中,进行建档存储,为了保证数据存储具有充足的空间,配备西部数据(Western Digital)硬盘,存储容量为14 T,辅助数据库完成媒资档案存储管理任务[8]。将整合好的数据信息进行转码,其中音频和视频信息统一转化为MP4格式,图片转换为JPG格式、文字信息统一转化为PDF格式,在数据库中建立数据表格,利用数据表格对媒资档案进行分类存储,表1为媒资档案存储数据表。
表1 媒资档案存储数据表
将整合后的媒资信息存储到数据表中,生成媒资数字档案,将其存储到数据库中,当用户想要访问媒资数字档案时,数据库会自动审核用户身份,如果身份验证通过,用户在数据库检索栏中搜索关键词,数据库根据媒资档案特征,将媒资数字档案与关键词进行匹配[9]。用户可以事先在数据库中设定一个匹配阈值,如果关键词与数字档案匹配度大于该阈值,则数据库会向用户发送媒资数字档案压缩包,用户利用密钥对数字档案进行解密处理,即可实现对媒资数字档案可视化展示,用户在服务器上对媒资数字档案进行下载、转发等操作,从而实现对媒资档案管理。
4 实验论证分析
为了验证本次提出的基于大数据技术的媒资档案管理思路的可行性与可靠性,选取某媒资档案数据包作为实验对象,该媒资档案数据包大小为10.62 GB,其中包含2.62 GB文字信息、3.46 GB音频信息、1.06 GB视频信息、1.61 GB图片信息以及其他信息,利用本次设计方法与左晋佺[1]方法、相世强[2]方法对该媒资数据包进行档案管理。为了保证本次实验结果具有较高的可信度,两种方法的实验环境相同,均采用Windows11操作系统,配备两台SFHF-554服务器,以及一台西部数据(Western Digital)硬盘,按照上述流程对媒资档案数据序列加密分类、整合以及存储,实验共生成7个媒资档案。
4.1 媒资档案信息丢失量分析
存储完成后,令用户每隔1 s对媒资档案进行下载和转发一次,30 min后检验媒资档案信息是否存在丢失,记录每个媒资档案信息丢失量,将其作为三种方法管理质量评价指标,信息丢失量越大,表示媒资档案完整性越低,媒资档案管理质量越差,根据记录的实验数据绘制成表格,具体数据如下表2所示。
表2 不同方法应用下媒资档案信息丢失量对比
通过对上表中数据分析,可以得出以下结论:应用设计方法管理媒资档案,档案信息丢失量较小,最小可以达到0,最高数据丢失量仅为0.09 GB,数值较小,基本可以忽略不计,说明设计方法能够有效保证媒资档案信息的完整性。而应用左晋佺[1]方法管理媒资档案,档案信息丢失量最小为0.38 GB,最高数据丢失量已经达到0.96 GB,相世强[2]方法管理媒资档案,档案信息丢失量最小为0.18 GB,最高数据丢失量为0.77 GB。左晋佺[1]方法和相世强[2]方法数值远远高于设计方法,设计因为本次设计方法采用大数据技术对媒资档案信息进行了加密分类处理,提高了档案数据信息的安全性。因此实验结果证明了在保证档案完整性方面,设计方法优于左晋佺[1]方法和相世强[2]方法,相比较左晋佺[1]方法和相世强[2]方法更适用于媒资档案管理,同时也验证了大数据技术在媒资档案管理中具有良好的应用效果。
4.2 档案管理响应时间分析
在媒资档案数据包中随机选取文字信息、音频信息、视频信息、图片信息以及其他信息共计800个档案信息数据作为测试对象,分别采用设计方法、左晋佺[1]方法和相世强[2]方法对档案信息数据进行管理,对比不同方法的档案管理响应时间,测试结果如图2所示。
图2 档案管理响应时间
分析图2可知,随着档案信息数据数量的增加,设计方法、左晋佺[1]方法和相世强[2]方法的档案管理响应时间不断增长。对上述方法的测试结果进行对比发现,设计方法的档案管理响应时间均低于左晋佺[1]方法和相世强[2]方法的档案管理响应时间,由此表明设计方法具有较高的档案管理响应效率。这是因为设计方法利用大数据技术在媒资档案数据序列加密分类前对媒资信息建立了相应的数字标签,以元数据作为档案数字标签构建对象,以此提高了档案管理响应效率,进而缩短了档案管理响应时间。
4.3 档案信息融合能力分析
每分钟档案信息融合个数表明档案信息融合能力,即档案管理能力。因此,将档案信息融合能力作为测试指标,在时间为30 min内,测试设计方法与左晋佺[1]方法、相世强[2]方法的档案信息融合能力,测试结果如图3所示。
图3 档案信息融合能力
对图3中的数据进行分析可知,时间与管理媒资档案信息数据集之间成正比关系,随着时间的增加,设计方法、左晋佺[1]方法和相世强[2]方法档案信息融合数量不断增加,在相同时间内,左晋佺[1]方法和相世强[2]方法的档案信息融合数量均低于设计方法。这是因为设计方法构建了媒资档案信息分析模型,以数据块特征量为依据完成媒资档案整合,进而提高了档案信息融合能力。在相同时间内档案信息融合数量越多,表明媒资档案数据管理能力越强,通过测试发现设计方法具有较强的档案管理能力。
5 结语
综上所述,此次将大数据技术应用到媒资档案管理中,提出了一条新的媒资档案管理思路,并通过实验验证了该思路的可行性与可靠性,有效保证了媒资档案信息的安全性和完整性,此次研究为了提高档案管理质量,推广大数据技术在媒资档案管理中的应用,为基于大数据技术的媒资档案管理提供理论参考,具有良好的现实意义。但是由于此次研究时间有限,并且提出的管理方法尚未在实际中进行大量应用与操作,在某些方面可能存在一些不足之处,今后会对基于大数据技术的媒资档案管理方法优化进行研究,为媒资档案管理提供有力的理论支撑。