基于云平台的多媒体管理技术研究分析
2021-09-10张天宝
张天宝
摘要:在我国现代信息技术不断发展的时代背景下,信息技在教育领域的深化应用使得高职院校的多媒体管理工作面临着新的挑战。面对着数据信息量的不断增长,传统的高校多媒体资源管理方式已经难以适应新的多媒体管理要求。当前部分高校已经开始设计基于云平台的多媒体资源平台,从根本上推动多媒体管理基础的发展。基于此,本文通过深入探究基于云平台的多媒体管理技术应用策略,以及相关平台的构建,以期提升高职院校多媒体管理工作质量。
关键词:云平台;多媒体;管理技术;研究分析
在现阶段,很多工作者在管理云平台生的多媒体管理资源的过程中,往往对以下问题感到十分头痛:首先资源库中小文件的数量太多,并且小文件的读写性能太差,导致在文件应用过程中会造成一系列的消耗。此外,数量众多的小文件会增加文件管理工作的复杂性,主要体现在需要大量的资源进行源文件的存储上。其次,为了提高不同用户的应用体验,当前很多平台会对文件进行多码率的存储,但是现阶段很多平台基本上采用的是单机转码方式,在这种方式下需要等待较长的转码实践,并且结点的硬件配置较高。由此可见,改进海量小文件在云平台上的存储方式是非常重要的。
一、多媒體转码工作现状及主要问题分析
在现阶段的多媒体管理工作中,对于视频文件的转码主要方式主要分为三类:第一类转码方式是依赖于云平台的高配置服务器转码;第二类转码方式是基于当前较为流行的分布式计算机框架转码;第三类转码方式是依赖于单机服务器转码。
基于云平台的高配置服务器转码,转码任务需要在高配置且功能强的服务器上开展。工作人员将所需转码的文件上传至服务器且转码完成之后会自动反馈转换的文件。这种方式主要优势在于操作简便,同时最大的缺陷在于视频文件的转码受服务器性能的制约,这种转码方式对服务器的性能依赖相对较高,同时也不能满足多项转码工作同时开展的要求。
基于分布式计算机框架的转码,能够充分利用集群中的空闲的计算机转码上传文件的,这种方式虽然对设备的硬件配置要求不高,具有较高的转换率,但是集群中的不同节点对同一任务的协调配合程度直接影响着转码工作的复杂性,这就需要工作人员设计出复杂、精确的转码方案。
基于单机服务器转码,可以在短时间内开展大量视频文件的转码操作活动,它不但具有分布式转码方式在利用空闲计算机的优点,同时还能够借助当前的云平台提高转码速度,推动转码系统更为高效、可靠的运转。这种方式受到企业的技术限制,在实施过程中具有很强的局限性。
在现阶段的多媒体资源管理工作开展过程中,最常用的方式主要是应用Hadoop开展分布式计算机框架的转码活动,由于Hadoop具有开源性,所以在操作过程中具有很强的维护性与扩展性。但是在当前的Hadoop基础上对大量的视频开展分布式转码,需要以HDFS作为底层存储平台。因此,为了更高效、可靠地管理多媒体资源的存储,本文的研究主要以云储存平台CEPH-分布式文件系统为主。
二、基于云平台的多媒体管理技术介绍
Hadoop起源于Apache Nutch项目,由Apache基金会主导设计,Hadoop云平台具有开源性的分布式基础构架,主要应用于数据处理工作,其底端存储系统主要由HDFS构成,计算框架使用了流式计算模型Map Reduce.
(一)HDFS分布式存储系统简介
HDFS是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。主要负责数据的存储,HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。这种存储系统十分依赖可靠性的数据,数据冗余性较强,具有较强的可拓展性,数据流处理速率较高并且具有很高的数据处理容错率,可以实现数据的高校存储。
这一存储系统主要由Name Node和Data Node两个节点组成,前者负责元数据的处理,后者负责多项数据存储。系统中的Client通过两个节点之间的互相通信对分布式文件系统进行访问,在获取元数据的基础上对文件执行IO操作。
(二)Map Reduce流式计算模型简介
Map Reduce流式计算模型由谷歌公司于2004年研发,主要应用于海量数据的并行处理,这种计算模型的应用能够操作者无需借助分布式编程经验,也无需编写数量庞大的并行计算程序,直接对分布式资源进行有效的管理。管理人员应用这种数据模型能够分离业务逻辑处理与数据具体实现,操作人员只需要调用不同的接口就能够开展大规模的分布式计算工作。
在实际的工作过程中,工作人员提交Map Reduce作业,需要将处理的文件分为不同的模块,形成独立处理的MAP子任务,开展并行的数据处理活动。在子任务开展过程,采用键值的方式进行数据输入,数据处理完成的结果以Key为单位,汇总到相同的reduce中,并且输入结构也经过了相应的排序处理。这种流式计算模型与HDFS的运行模式相似,都建立在Slave的框架上,一个为Job Tracker(对用的是HDFS中的name node),另一个Task Tracker对应的是HDFS中的Data note。每一个Hadoop集群主要由一个Job Tracker和若干个Task Tracker构成,前者负责任务调度,后者负责任务执行。
三、基于云平台的多媒体管理平台架构分析
(一)云计算技术构架
立足于云平台的多媒体管理技术平台主要由云计算的四层构架组成:
首先是基础设施层,这是云服务工作的最基础层,通过应用基础层硬件虚拟化技术的应用,将硬件资源转化为服务资源,主要包含三方面的资源:(1)网络资源;(2)存储资源;(3)计算资源,然后通过上层管理,提供计算、存储服务。基础设施层主要建设高性能的数据处理中心,并降低数据处理成本,同时借助虚拟化技术保障基础的资源服务功能。
其次是平台服务层,这一层的主要工作内容为提供资源管理工作所学的分布式计算机引擎以及存储访问借接口,同时存储和查询平台中的元数据,完成多媒体资源管理工作中的其他操作流程。
此外,还有应用服务层,这一层的功能为多媒体管理服务应用的实现,比如文件上传、视频转码以及文件保护等其他平台的基本服务。
最后是Portal层,主要工作为响应用户的指令,比如文件存储、资源检索等,是管理平台的服务应用接入口,用以实现相应服务。
(二)管理平台主要内容阐述
从宏观的角度来讲,多媒体管理平台主要用来接受用户传入的多媒体文件,然后应用Web服务器提供相应接口,形成数据服务。数据管理平台的主要内容主要分为以下几项:
1.基于云平台的多媒体管理平台首先要负责将文件上传到CEPH的集群中进行存储,主要分为大文件和小文件和云存储模式,对于大型文件,主要采用云端文件普通上传的形式,对于小文件主要采用语义聚类的方式进行存储。其次,在文件上传完成之后需要对文件进行分布式转码处理,特别是视频类文件。针对分布式任务,分发给Map Reduce模型,而对不同节点使用Ffmpeg进行文件转码处理。
2.关于多媒体资源信息的维护工作,需要平台存储、维护用户和文件的元信息。最后是多媒体资源的检索和调用功能,管理平台主要负责建立倒排索引,用户能够应用Lucene开展索引查询活动,从而检索所需要的多媒体文件。在检索完成之后就能够响应用户的播放请求,经过流媒体视频播放。
3.该平台的云数据中心的虚拟化层,主要采用虚拟化技术将各种不同的存储设备集中到资源池之中,经由部署式文件系统为操作者提供相应的资源存储服务。关于云计算和存储的管理功能主要由Pass(平台服务层)实现。在这一层中由CEPH实现数据云存储活动,将文件信息集中存储起来,由Hadoop中的Map Reduce实现云计算服务,对平台中的不同任务进行相应的计算处理工作。
4.客户机的数据服务主要由软件服务层提供,主要包括网络服务器、多媒体服文件务器、搜索引擎和转码工具构成主要的服务基础,最终由客户端进行多媒体再远管理平台的接入,提供相应的资源管理工作。
(三)平台服务构架
在应用基于云平台的资源时,客户机需要通过网页对平台的所提供的相关服务进行登录,然后由平台匹配相应的API或REST服务实现平台的基础服务的使用。基于云平台的多媒体管理平台的基础服务主要分为两项,首先是多媒体存储服务,由平台负责对不同的媒体信息进行存储,比如用户和文件的源信息以及文件的倒排索引、分布式文件系统等等。其次是多媒体计算服务,主要负责平台中的分布式计算以及视频转码处理等其他内容。
1.资源云存储服务
主要由平台对图片和视频等资源进行有效的存储,并且按存储的关键信息建立相应的索引,保存文件源信息,最为主要的是对小型文件的存储方式进行的改进:系统能够通过关键属性的方式将具有关联性的各种微型文件进行合并重组存储。
2.资源云计算服务
云计算负责对存储在资源库中的视频文件进行转码,首先进行预处理活动,将处理的结果按Hadoop集群进行分段式转码,然后将转码后的资源存储在云平台内。
四、基于云平台的多媒体管理技术应用分析
由于云管理平台的功能具有复杂性,所涉及的主要操作流程也比较多,因此本文的研究重点主要还是集中在数量较多的小文件的云存储以及分布处理功能上。
(一)多媒体图片文件上传功能
在多媒体资源应用的过程中,多媒体文件中图片是常见的文件资源形式,同时也是数量众多的小型文件的代表。对多媒体图片的上传功能分析如下:
1.计算机用户选择相应的多媒体文件进行上传,图片在服务器的缓冲区进行保存,同时图片文件的源数据保存至数据库中,平台根据图片文件的信息建立起倒排索引,为后续的文件检索功能做准备。
2.服务器对图片的信息进行识别,如果图片文件的内容过大,则将重组后的文件上传到CEPH集群指定的Bucket下存储,如果图片内容没有超过限定,就根据主要类别和合并内容将对应的映射关系写到数据库中,便于信息查找。
3.在服务器的缓冲区的图片通过服务器的定时任务或者手动操作进行合并,然后根据所有待合并的图片的关键信息进行语义聚类,将具有关联性的图片合并到一个组中。
4.在聚类的图片文件分组的基础上对图片进行合并,在不同文件合并的过程中要注意文件的大小,将尽可能多的图片合并到同一文件夹中。
(二)多媒体视频转码功能
在多媒体资源管理工作开展过程中,视频转码是核心的工作模块之一,其主要工作流程为:
1.媒体用户首先上传视频的主要信息以及内容简介,并选择视频进行上传,上传至网络服务器的缓冲区进行存储,并将视频的源数据上传到数据库中;并根据视频关键信息建立相应的索引,便于后續的视频检索。
2.根据服务器的主要工作顺序,对缓冲区中的不同视频进行模块划分,将视频文件划分为不同的等份,同时保存不同模块视频的主要信息;然后将带有不同信息的视频文件上传到CEPH集群中,然后由网络服务器向对Hadoop的集群下达数据分析指令。
3.在接受到网络服务器的指令后,Hadoop开始Map Reduce作业活动:将主要的视频片段进行下载,主要是从CEPH现在到不同的Map节点上,然后对视频片段进行转码。这一环节完成之后所有的视频片段会上传到Reduce节点,进行视频片段合并。
4.视频文件经过转码、重组完成之后,组合的文件传到CEPH集群的相就的位置,并将存储的具体位置写入数据库中。
(三)图片文件检索
1.客户机在图片搜索页面添加关键词,然后服务器依据关键词进行文件索引,在检索过程中应用Word2vec对相应的关键词进行扩充,并寻找出检索词的集合。
2.系統平台所有包含图片ID的主要信息反馈给服务器,同时服务器结合数据库对图片和合并文件夹进行定位,然后从CEPH集群的相应位置上下载好合并文件并集合到服务器本身的缓冲区中。
3.服务器从主要数据中获取不同合并文件中的图片位置信息,包括图片所在位置、大小、格式,然后将这些信息拆分为合并文件,从而形成原始图片,并将图片文件在客户端上呈现给用户。
(四)视频文件检索
关于视频检索在管理平台中的过程:
1.客户机对视频信息的关键词进行输入,服务器结合关键词进行内容索引,在检索过程中应用Word2vec对相应的关键词进行扩充,并寻找出检索词的视频集合。然后在数据库读取视频的源信息,并且将信息形成数据列表反馈给用户。
2.客户机点击相应的视频进行播放,服务器接接收到视频播放信息,然后在CEPH集群中搜索存储位置,读取相应的视频文件。
3.CEPH将对应视频文件下载到流媒体服务器上,流媒体服务器对视频文件进行处理,客户机得到播放地址,进行视频播放。
五、结语
本文先是对基于云平台的多媒体资源管理平台的整体运行进行了阐述,其次对管理平台的主要核心模块进行了相应的设计与分析,然后对多媒体资源管理平台相关使用流程进行说明。关于云平台多媒体资源库的设计主要是从两个方面进行了调整,首先是提升大量小型文件的存储效率和读写效率,其次是对多媒体资源管理平台中的资源转码工作进行了分布式的优化,从而有效提升多媒体资源管理平台的工作效率。
参考文献:
[1]徐哲.高校多媒体管理人员不足的解决策略研究——基于绩效导向与成本控制的视角[J].电脑知识与技术,2017,13(25):101-104.
[2]张继高,李献广,刘书景.信息化时代下多媒体管理发展方向和对策[J].教育教学论坛,2017(09):254-255.
[3]沈杰,张晓东.云桌面在高校多媒体教室管理中的应用与思考[J].科技展望,2016,26(35):3-4.
[4]蔡红标,付海燕,温学智.电务多媒体维修管理技术研究[J].铁道通信信号,2015,51(02):49-51.
[5]曾玲.多媒体远程交互式教学系统的研究与实现[D].湖南大学,2014.
[6]董其文.基于HDFS的小文件存储方法的研究[D].大连海事大学,2013.
[7]高泽栋.一种优化HDFS小写文件存储策略研究与实现[D].华中科技大学,2013.
[8]代万能.倒排索引技术在Hadoop平台上的研究与实现[D].电子科技大学,2013.