APP下载

智能舞台决策支撑系统MapReduce驱动模型初探

2018-07-25周其麟王诚WUHan侯春海

演艺科技 2018年4期

周其麟 王诚 WU Han 侯春海

【摘要】根据智能舞台系统的功能结构模型,探索大数据并行处理MapRcduce驱动模型,执行决策支撑系统(DSS)功能,给出一种基于计算机集群的实现方法。

【关键词】智能舞台系统;MapRcduce;决策支撑系统;并行处理;分布式存储

随着数字化、网络化和智能化的飞速发展,在剧场剧院、演播厅、秀场等演艺场所,人们一直在探索应用以并行计算为特征的快速数据分析和模式识别等新技术,实现驱动声、光、视、械等演艺装备的智能舞台决策支撑系统(DSS)的一种新方法,将美轮美奂、虚实结合的舞美效果与演出创意更加完美呈现。

MapReduce是由谷歌推出的一个编程模型,是一個能处理和生成超大数据集的算法模型,该架构能够在大量普通配置的计算机上实现并行化处理。本文目标是初步探索应用MapReduce的思想架构,设计一种实现智能舞台系统在线并行处理图像、音频等模式识别算法,以配合驱动演艺设备协调运作的决策支撑系统,实现智能舞台中演艺装备等资源围绕演出轴自动运作的方法。效融合舞台装备和创意作品,为演员提供表演的设施或平台。以数据挖掘、信息应用、知识推理和模型规则等为技术特征的人工智能技术是智能舞台系统实现的核心,其基础是数据的深入剖析和快速响应。智能舞台系统的功能结构模型如图1所示,智能演艺呈现决策支撑系统(DSS)的驱动模型和体系架构是智能舞台的重要元素,其作用是基于演艺环境信息获取,采用智能化信息

只能舞台模式识别和可并行性计算

智能舞台系统是指应用人工智能等先进技术,有处理和知识推理等先进技术,输出演艺呈现驱动信息,以控制演艺装备与创意作品融合,达到更佳的文化艺术作品体验效果。

国际上,智能舞台系统采用全新的系统设计方法和理念,通过普适计算( Pervasive Compu ting)、物联M、虚拟现实(Virtual Reality,简称VR)、增强现实(Augmented RealitV,简称AR)等技术综合应用,融入艺术创作D,拓展舞台的时空,营造出身临其境的效果。运用这些技术配合演出呈现时,需要准确、快速地识别演员的动作、表情、语言、音律和位置等触发信息。冈此,应用图像、音频和位置传感器采集数据,并进行快速数据分析和模式识别,进而驱动声、,旺、视、械等演艺装备协同运作。

MapReduce是一种面向并行计算的软件实现方法,网此图像、音频等模式识别算法的可并行性就成为能否应用MapReduce编程思想的关键。如图像模式识别算法的运算速度随着图像元素的多少而快速变化,网此,可考虑将需辨识的图像数据划分成多块,应用服务器集群,将预先设置好的模式特征存储在服务器集群中,应用数据仓库存储策略Hadoop Hive,将图像等分块数据快速分给服务器机群,并行计算特征拟合庋,应用MapReduce方法得到综合特征拟合度,从而决定是否触发演艺装备的场景(Cue)运行。因此,将多个摄像机的图像和拾音器等采集的数据可以划分成独立的多块数据,并行计算特征拟合度以提高运算速度是完全可行的。

MapReduce实现了两个主要功能:Map和Reduce。Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。RecluCe则是把从两个或者更多Map中的一些中问结果,通过多个线程、进程或独立系统并行处理的结果集进行分类和归纳。

MapReduce通过把对数据集的大规模操作分发给网络上的每个节点来实现可靠性,每个节点会周期性地把完成的工作和状态信息返回给主节点。如果一个节点保持沉默超过一个预设的时间间隔,主节点就认为该节点失效厂,并把分配给这个节点的数据发到别的节点,因此可以被其他节点所调度执行。

由于MapReduce运行系统已考虑到J,输入数据划分、节点失效处理、节点之间所需通信等各个细节,使得程序员可以不需要有什么并发处理或者分布式系统的经验,就可以处理超大规模的分布式系统资源。

MapReduce算法处理大数据问题时,主要可以分为两个阶段进行:首先,对子数据集中每个元素执行用户定义的Map函数,获得中间结果;然后,将获得的中间结果通过用户定义的reduce函数进行合并。在MapReduce模型中,用户需要定义Map和Recluce函数,输入一个键值对(kev,value)列表,键傣对就是一个由键和债组成的二元组,排序和分组都基于kev来完成。Map函数的输入是键傣对,对每个键值对进行计算,产生的结果也是中间键值对列表。在Map和Reduce中间这个键值对列表,基于键进行聚集。Reduce函数的输入是基于键的键值对分组,其中每个分组都是独立的。这样就可以使用分布式大规模并行的方式进行处理,总输入能远大于处理MapReduce的节点的内存。

MapReduce并行处理的基本过程如”FH(图2)。

(1)有一个待处理的大数据,被划分为大小相同的数据块(如64 MB),及与此相应的用户作业程序;

(2)系统中有一个负责调度的主节点(Master),以及数据Map和Reduce工作节点(Worker),用户作业程序提交给主节点。主节点为作业程序寻找和配备可用的Map节点,并将程序传送给Map节点;

(3)主节点也为作业程序寻找和配备可用的Reduce节点,并将程序传送给Reduce节点。主节点启动每个Map节点执行程序,每个Map节点尽可能读取本地或本机架的数据进行计算;

(4)每个Map节点处理读取的数据块,并做一些数据整理工作( combining、sorting等),将中间结果存放在本地;同时通知主节点计算任务完成并告知中间结果数据存储位置;

(5)主节点等所有Map节点计算完成后,开始启动Reduce节点运行,Reduce节点从主节点所掌握的中间结果数据位置信息,远程读取这些数据:

(6) Reduce节点计算结果汇总输出到一个结果文件即获得整个处理结果。

2 MapReduce DSS设计

对于舞台大数据的研究,国内外主要集中在对舞台数字化多维空间数据处理与驱动等领域,旨在增强舞台多维空间艺术表现力。Jeff Burke等人建立了普适计算的驱动模型,通过位置传感器辨识演员的行动轨迹,以触发舞台灯光等演艺装备,并将这些装备作为资源服务于演出轴。一场演出,声、光、视、械等演艺装备的触发是根据剧情的发展而变化的,这些变化的触发依据不仅限于演员的行动路线,还取决于演出的图像、演员的表情、动作、音频等。针对这些触发冈素,需要建立一套快速响应和模式识别的計算模型。基于这些数据模式识别计算的可并行性,设计了一种MapReduce驱动模型,可用于搭建决策支撑系统,智能舞台系统的功能需求。

3.1 MapReduce DSS数据任务结构

MapReduce DSS的数据任务结构,又可称为作业服务器(JobTracker)和名字服务器(NameNode)结构,如图3所示。

整个结构模型包括决策支撑系统和MapReduce数据任务处理两部分。

(1)决策支撑包括现场数据采集、数据分布式存储和MapReduce数据分析三个部分。

现场数据采集与舞台装备系统对接,按照AT采样时间问隔,轮询获取现场影像、音频和位置信息。数据分布式存储策略实现HDFS (Hadoop DistributedFile System)功能,将采集数据分布式存储于各刀片式服务器中;与演出有关的特征匹配信息,如图像、表情、形态、音频等特征,预先也存储于服务器集群中。MapRedu ce数据分析负责启动模式识别计算的MapReduce任务并根据结果进行判断,与演艺呈现控制单元一起触发并协调驱动演出现场的声、光、视、械等装备。

(2) MapReduce数据任务处理部分由刀片式服务器集群和两台管理服务器组成。

两台管理服务器分别充当HDFS中的名字服务器和MapRedu ce计算甲台中的作业服务器(JobTracker),其余刀片式服务器集群既充当HDFS中的数据节点(DataNode),又充当MapReduce计算平台中的任务执行器(TaskTracker)。这种“移动计算以靠近存储”的设计,将大规模现场数据的模式识别处理变成“本地计算(local compu ting)”,可大大提升海量数据处理的速度,达到高效率,适应演艺场所快速准确的响应要求。

HDFS是分布式计算的存储基石,它与其他分布式文件系统有很多类似的特质。

(1)对于整个集群有单一的命名空间。

(2)数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。

(3)文件被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。

Map/Reduce是一个用于进行大数据量计算的编程模型,同时也是一种高效的任务调度模型,它将一个任务分成很多更细粒度的子任务,这些子任务能够在空闲的处理节点之间调度,使处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间。

3.2 MapReduce程序逻辑实现

MapReduce方法程序逻辑实现与分布式文件系统类似,Map/Reduce的集群也由三类服务器构成。其巾的作业服务器,在Hadoop中称为JobTracker,在Google论文中称为Master。前者表明,作业服务器是负责管理运行在此框架下所有作业的,后者表明,它也是为各个作业分配任务的核心。与HDFS的主控服务器类似,它也是作为单点存在的,简化了负责的同步流程。具体负责执行用户定义操作的是任务服务器,每一个作业被拆分成很多的任务,包括Map任务和Reduce任务等。任务是具体执行的基本单元,它们都需要分配到合适任务服务器上去执行,任务服务器一边执行一边向作业服务器汇报各个任务的状态,以此来帮助作业服务器了解作业执行的整体情况,分配新的任务等。

除了作业的管理者执行者,还需要有一个任务的提交者,这就是客户端。与分布式文件系统一样,客户端也不是一个单独的进程,而是一组API (ApplicationProgram Interface,应用程序接口),用户需要自定义好需要的内容,经由客广-端相关的代码,将作业及其相关内容和配置,提交到作业服务器去,并时刻监控执行的状况。

作为Hadoop的实现,通信机制相同,也是用了协议接口来进行服务器间的交流。实现者作为RPC(RemoteProcedure Call Protocol)服务器,调用者经由RPC的代理进行调用,如此完成大部分的通信,具体服务器的架构,和其中运行的各个协议状况,参见图4。从图中可以看到,与HDFS相比,相关的协议少了几个,客户端与任务服务器,任务服务器之间,都不再有直接通信关系。

与分布式文件系统相比,Map/Reduce框架还有一个特点,就是可定制性强。文件系统中有很多固定和直观的算法,不因所存储的内容不同而有太多的变化。而作为通用的计算框架,需要面对的问题则很复杂。作为Map/Reduce框架而言,一方面要尽可能地抽取出公共需求并解决;另一方而需要提供良好的、可扩展机制,满足用户自定义各种算法的需要。Hadoop由Java实现自定义的扩展,具有很好的便捷性。在JobConf类中,定义了大量的接口,这基本上是Hadoop Map/Reduce框架所有可定制内容的集中。在JobConf中,有大量set接口接受一个Class<? extends xxx>的参数,通常它都有一个默认实现的类,用户如果不满意,则可自定义实现。

如果一切按部就班地进行,那么整个作业的计算流程应该是:作业提交→Map任务的分配和执行→Reduce任务的分配和执行→作业完成。而在每个任务的执行中,又包含:输入的准备→算法的执行→输出的生成,三个子步骤,如图4所示。

3.3集群服务器的可并行度

模式识别算法能得到多大并行加速问题,依赖于该算法实现程序可并行计算的代码比例,经典的程序并行加速评估公式Amdahl定律如下所示:

其中,S是加速比,P是程序可并行比例,Ⅳ是处理器数目。

根据Amdahl定律:一个并行程序可加速程度是有限制的,并非可无限加速,并非处理器越多越好。如预计智能舞台图像模式识别的可并行代码的比例为75%,则加速比最大可提升4倍。当服务器数量为32台时,加速比为3.66倍;当服务器数量为64台时,加速比为3.82倍。实际配置时,以32台刀片式服务器配置为宜。

实际演出环境下,要求考虑DSS的输出时间间隔Tout按照Shannon定理,Tout≥2ΔT,因此设计的刀片式服务器的总数量Nt符合如下不等式:

Nt≤[Ts/(2S≡T)+1]N

其中,TS是原模式识别算法所耗时问,[x]代表不超过x的最大整数。

如原模式识别算法所耗时间为10 s,Tout要求每隔1s輸出触发信号,ΔT为0.5 s,模式识别的可并行代码的比例为75%,则刀片式服务器数量可选96台。

4 问题与思考

MapReduce DSS驱动模型应用于智能舞台,需要注意以下几点。

(1)时延引入:并行计算的引入,必然会引入时延问题。在演出过程中,声、光、视、械等演艺装备协同触发运行要与演出轴内容同步吻合,达到天衣无缝的呈现效果,需要导演在设计触发特征时适当提前于实际触发时间点。因此,这对于导演的演艺装备信息技术的理解,提出了更高的要求和更加细腻的处理技巧。

(2)数据文件的存储和处理速度:MapReduce DSS基于分布式数据文件的快速存储和服务器集群的快速调度和计算,因此,跟随技术进步,将更加高效的技术引进现场演出信息装备是一个永恒的工作。

(3)模式识别及特征匹配算法的可靠性研究:当前的模式识别算法还处于不断优化和演进的阶段,最新的科研成果的引入是十分重要的。同时,基于演出环境的高安全性要求,必须经过可靠性测试才能使用,这为最新技术及时引入文化演艺场所提出了更高的可靠性测试的标准要求。

本文应用MapReduce的思想架构,对实现智能舞台在线并行处理图像、音频等模式识别算法,搭建一种驱动演艺设备协调运作的决策支撑系统,进行了初步探索,并分析了实际设计系统的可并行度和可能存在的应用问题,为实现智能舞台的物联网功能和大数据应用提供一条可行路径。