APP下载

未来演出场所大数据应用架构的探索

2018-02-26侯春海郭亮WUHan周其麟

演艺科技 2018年11期
关键词:大数据

侯春海 郭亮 WU Han 周其麟

【摘    要】 对未来演出场所的大数据的应用架构进行初步探索,提出一种基于MapReduce的并行大数据处理架构,可实现 演出场所数据汇聚、大数据分析、分析结果应用。

【关键词】 演出场所;大数据;应用架构;MapReduce;数据汇聚协议

文章编号: 10.3969/j.issn.1674-8239.2018.11.009

当前,大数据已发展成为科技界和企业界,乃至世界各国政府关注的热点。《Nature》和《Science》等相继出版专刊探讨大数据带来的机遇和挑战,著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来”[1]。美国政府认为,大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点,“大数据时代”已然来临。

大数据作为国家基础性战略资源,党中央、国务院高度重视大数据在经济社会发展中的作用,文化创意领域作为大数据应用的重点行业被纳入国家的大数据产业发展规划[2]。因此,建立演出场所大数据并因之建立规范化的演出安全数据管理体系,是确保演出安全、增强文化自信和践行《中华人民共和国公共文化服务保障法》 [3]的必经之路。

笔者针对中国文化行业演出场所的数据内容、汇聚、数据处理和分析应用进行初步探索,试图建立一条实现中国未来演出场所大数据应用的MapReduce并行技术处理架构,并分析未来大数据应用的环境问题。

1  大数据特征及处理方法

大数据是融合物理世界(physical world)、信息空间(cyberspace)和人类社会(human society)三元世界的纽带[4]。通过互联网、物联网等技术,信息空间感知到物理世界数据,人类社会通过各种交互界面等信息呈现工具,分析和展现信息空间大数据映像,在增强对物理世界认知深度的同时,将分析结果应用到物理世界。大数据还是新一代信息技术产业(如大数据、云计算、移动互联网等)强劲推动力,是第二经济(The second economy[5])的核心内涵和关键支撑。美国经济学家Arthur在2011年提出的第二经济是指由处理器、链接器、传感器、执行器以及运行在其上的经济活动形成的物理经济之外的第二经济,其本质是为第一经济附着一个“神经层”,使国民经济活动能够变得智能化。未来演出场所的各类数据的汇聚、处理和分析挖掘,会成为演出空间、信息空间和人类文化艺术生活新的纽带和关键支撑,是新的文化经济生活永不枯竭并不断丰富的资源。借助大数据,未来演出市场的经营和管理活动将是知识生产的竞争和发展。

大数据具有体量大(Volume)、速度快(Velocity)、模态多(Variety)、难辨识(Veracity)和价值大密度低(Value)的典型特征。为应对大数据类型多样等问题和挑战, Google、Facebook和Microsoft等互联网企业推出了一系列大数分析处理的工具和方法,涵盖大数据统计分析、可视化辅助工具、大数据处理架构、数据库、数据仓库、数据挖掘工具、人工智能、挖掘算法和编程语言等。

迅速发展的深度学习、知识计算、可视化等大数据分析技术,已逐渐被广泛应用于不同的行业和领域。未来中国文化演出场所大数据应用要充分利用这些方法和工具,解决演出场所的数据内容、汇聚、数据处理和分析目標等问题,并建立体系架构和处理流程,形成具有中国文化演出场所特色的新型智能化和网络化的管理规范,服务于中国文化行业的决策和管理。

2  演出场所的数据内容

演出场所是指具有观演功能,可完成演出活动的公共场所,包括专业艺术表演场馆;影剧院、录像厅、礼堂等演出、放映场所;舞厅、卡拉OK等歌舞娱乐场所;具有娱乐功能的夜总会、音乐茶座和餐饮场所,游乐场所,营业性健身、休闲场所等公共娱乐场所;以及临时搭建用于演出活动的空间。截至2017年末,全国共有艺术表演场馆2 455个,群众文化机构44 521个,以及娱乐场所78 616个[6]。

这些用于演出的场所数据内容。

单个演出场所的数据一般包括演出场所管理信息、演出装备操作维护数据、演出信息、建筑信息和其他相关信息。

演出场所管理信息:包括演出排期、人力资源、财务、出入闸机数据和票务管理数据等。

演出装备操作维护数据:包括机械、灯光、音响、舞美特效、威亚、幕布、视频、监督和通信等系统数据。

演出信息:包括演出内容、演艺场景、节目和剧目等信息。

建筑信息:包括建筑图、暖通空调、照明、环境质量、给排水、安防、消防和配电等基础设施和设备信息。

其他相关信息:如演出场所的地理位置、气象和气候等信息和数据。

未来这些演出场所的数据汇聚起来,将形成文化演出相关的大数据,具有大数据的典型特征。大数据实现的核心价值是通过集中拥有的数据,可为各类用户创造其自身无法得到的服务或降低服务成本。结合演出场所的典型数据,应用大数据技术可为用户提供包括但不限于如下的服务。

(1)演艺装备的操作和维护:如结合同类型设备的操作和维护综合评价,可为演出场所管理推荐设备维护和更换时间、就近可替换设备优质供应商、结合演出排期关注重点设备运行、设备预警及报警阈值自动设定或调整等。

(2)演出场所的标准化管理:结合演出场所的各类数据及信息的模型化分析,可给出相似类型的演出场所的能源消耗、观众类别及出席人数、安全评价等综合指标,并实施对标管理。

(3)演出团体的标准化管理:结合演出场所管理,可建立演出相似节目的能源消耗和安全评价的动态指标,并对演出团体实施对标管理评价。

(4)政府主管部门的决策支撑:通过综合数据分析,可为主管机构提供如新建演出场所的能耗预测、票务状况预测和效益分析等服务;对既有演出场所提供综合评价等服务。

这些大数据需建立汇聚、处理、分析和应用的架构,才能为文化行业提供更优质的公共和私有云服务。

3  演出场所大数据应用的体系架构

未来演出场所的大数据应用目标是建立文化创意行业领域更优质的数据服务,包括用于行业和政府决策的数据支撑服务、公共演出场所的管理评价服务和演出团体的管理评价服务及各类安全预警和报警等个性化服务。要实现这样的数据应用目标,就要建立相应的演出场所大数据应用服务体系,实现数据汇聚、处理、分析结果应用和业务操作流程等功能。

3.1  大数据应用服务体系架构

未来演出场所的大数据应用服务体系架构。

整个架构包括数据汇聚、大数据处理、业务流程管理系统,以及贯穿整个系统的基础安全支撑系统和管理监控系统。安全支撑系统提供各个层次、不同级别的安全处理方案,如演出装备及设施的预警及报警联动、数据纠错、病毒防范、容错处理、安全日志管理及分析、异常行为诊断等策略。管理监控系统提供各个层次的数据展示呈现和分析结果数据,提供系统配置、数据整合及融合分析、演出场所设备和设施的性能及操作维护、设备故障的定位及处理,以及演出场所及演出团体的管理评价等。

3.2  数据汇聚

演出场所的数据汇聚包括数据管理节点的数据汇聚和各个数据管理节点到整个文化行业数据处理系统的数据汇聚。

各个演出场所的演出装备操作维护数据源和演出信息,通过演出场所安全数据汇聚协议(Data Aggregation Protocol,简称DAP)汇聚到演出场所数据管理节点。数据管理节点同时通过演出场所的管理信息系统(Management Information System,简称MIS),将数据库中的演出场所建筑信息、管理信息和其他相关数据采集并统一整合而形成演出场所数据管理节点数据,并存入整合行业的数据库/数据仓库,纳入行业管理的大数据系统,并由大数据处理系统进行数据挖掘、融合、分析等并行计算处理,并纳入大数据应用业务流程系统统一维护管理。

演出场所的安全数据汇聚协议是数据汇聚的关键技术措施。DAP协议参考模型定义了三个关联单元,包括DAP服务器端、DAP客户端和演出场所专业设备安全数据接口,DAP服务器端与DAP客户端通过TCP通信连接。

DAP服务器端服务于演出场所安全数据汇聚的根节点,也是本地统一数据管理节点。DAP客户端与DAP服务器端多对一,通过TCP通信连接,实现将演出场所专业设备安全数据协议转换成标准协议,并汇聚到DAP服务器端。演出场所专业设备安全数据接口实现接收演出场所相关设备的安全数据,这些设备包括舞台专业机械与控制系统、舞台专业照明设备供电系统等。

3.3  基于MapReduce的大数据处理

演出场所大数据处理基于云计算的技术实现框架,采用MapReduce的数据任务结构,又可称为JobTracker和NameNode结构[9,10]。整个结构模型包括智能决策支撑系统和MapReduce数据处理系统两部分。

3.3.1  智能决策支撑系统

智能决策支撑包括演出场所数据汇聚处理、资源调度、数据分布式存储和MapReduce数据分析四个部分。

数据汇聚处理与各个演出场所数据管理节点实现数据汇聚、整合,与可并行算法一起作为数据处理资源为资源调度使用。可并行算法包括神经网络算法、K-means算法、Spark和聚类分析算法、量子蚁群算法、Multi-Agents遗传算法等,根据这些算法的可并行度,资源调度将决定采用多少云计算资源配合实现数据挖掘处理任务。并行加速评估公式Amdahl定律为[11]:

其中,S是加速比,P是程序可并行比例,N是处理器数目。根据Amdahl定律:一个并行程序可加速程度是有限制的,并非可无限加速,并非处理器越多越好。

数据分布式存储策略实现 HDFS (Hadoop Distributed File System)功能,将采集数据分布式存储于各云计算服务器中。

MapReduce数据分析负责启动云计算的MapReduce任务,并根据结果进行判断,支持演出场所的大数据应用业务管理流程。

3.3.2  Hadoop 数据分布式存储策略

这种大数据处理系统构建的基石是HDFS,其基本的特点包括:

(1)对于整个集群有单一的命名空间;

(2)数据一致性,适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在;

(3)文件會被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。

3.3.3  MapReduce的大数据处理系统

基于MapReduce的大数据处理系统,MapReduce是由谷歌推出的一个编程模型,是一个能处理和生成超大数据集的算法模型,该架构能够在大量普通配置的计算机上实现并行化处理[7,8]。MapReduce是一种面向并行计算的软件实现方法,应用MapReduce的思想架构,可以设计一种基于MapReduce的大数据处理系统,将可并行计算的大数据处理算法作为资源,并灵活调用,从而支撑大数据应用业务流程管理,完成演出场所规范化数据管理服务。这些服务将包括但不限于演艺装备的综合评价、演出场所管理评价及对标管理、演出团体管理评价及对标管理等。

选用MapReduce架构是出于以下3个技术原因:(1)MapReduce采用无共享大规模集群系统,具有很好的性价比和可伸缩性,每个演出场所的服务器也可成为集群系统的节点服务器,这一优势使其成为文化行业大数据平台的首选,也为后续建设文化行业区块链创造了条件;(2)MapReduce模型简单、易于理解、方便使用,能将繁琐的细节(如负载均衡、灾备管理和自动并行等)隐藏起来,极大地减少了开发工作量,便于业务流程及实验性数据分析处理;(3)在海量数据环境下,通过查询优化和索引技术,MapReduce仍能够提供很好的数据处理性能。

MapReduce数据处理系统由云计算服务器集群和2台管理服务器组成。其中,2台管理服务器分别充当HDFS文件系统中的名字服务器和MapReduce 计算平台中的作业调度器(JobTracker);云计算服务器既充当HDFS文件系统中的数据节点(DataNode),又充当MapReduce计算平台中的任务执行器(TaskTracker)。这种设计使得“移动计算以靠近存储”,将大规模现场数据的挖掘融合处理变成“本地计算(local computing)”,可大大提升大数据处理的速度,达到高效率,适应演出场所大数据快速准确的响应要求。

MapReduce是一个用于进行大数据量计算的编程模型,同时也是一种高效的任务调度模型,它将一个任务分成很多更细粒度的子任务,这些子任务能够在空闲的处理节点之间调度,使处理速度越快的节点处理越多的任务,从而避免处理速度慢的节点延长整个任务的完成时间。这些都为很好地完成演出场所的大数据应用管理目标,提供较好的资源和方案。

3.4  业务流程

未来演出场所的大数据业务流程紧紧围绕着大数据应用目标,建立挖掘大数应用服务的办公和业务工作流,不断探索和实践大数据分析结果的可应用性,进而将影响整个行业的管理决策水平,并不断创新及发展。结合演出场所的大数据处理架构,可给出大数据业务应用的具体途径和方法。

演出场所大数据应用的使用者可包括决策机构、现场管理人员、演出场所的技术维护人员、设备供应商、数据云服务客服人员、演出场所相关业务合作伙伴,以及其他业务办公流程和应用系统需要使用演出场所大数据信息分析结果的相关群体等。这些使用者通过报告、说明性分析、仪表盘展示等大数据可视化工具得到大数据的相关服务信息,包括演艺装备综合评价、演出场所管理评价、演出团体管理评价以及如其他定制的关联分析、聚类分析等得出的输出信息。这些信息分析结果可通过统计分析、数据挖据融合方法、模型评价分析等手段得到,新定制服务和实验性分析等业务可在数据沙箱演算,通过预测分析等手段得到说明性分析结果。通过业务流程、应用系统和合作伙伴办公流程系统的业务请求,可通过分析主题库(数据集市)进行语义分析和文本挖据等操作,在数据沙箱演算并结合数据仓库技术,以仪表盘展示等手段提供服务结果。

所有这些过程都要经历业务理解、数据理解、数据准备、模型化、评估和数据应用六个步骤。

4   问题与思考

大数据处理和分析的終极目标是借助对数据的理解,辅助人们在演出场所管理和维护等应用中做出合理的决策。大数据的深度学习、知识计算、社会计算和可视化将起到相辅相成的作用,未来演出场所大数据应用的问题与思考有以下几点。

(1)深度学习技术的应用

本文中提出的管理和决策评价指标体系的建立只是大数据应用的冰山一角,演出场所大数据的智能化应用还有很多有待依赖深度学习等智能技术手段深入挖掘,如现场演出的演员行为预测和预见,就需要建立在行为模型的深度学习及辨识的基础之上,并提高深度学习的精度。因此可预见,深度学习将成为演出大数据分析的核心技术。

(2)知识计算增加数据的挖掘深度

每一种演出场所数据来源都有一定的局限性和片面性,只有对各种来源的原始数据进行融合才能反映事物的全貌,事物的本质和规律往往隐藏在各种原始数据的相互关联之中,如演出能源消耗应关联设备参数、地理位置、气象条件、演出内容、观众人数等诸多因素,这些数据汇聚后可借助知识计算将碎片化的多源数据整合成反映事物全貌的完整数据,从而增加数据挖掘的深度。当前人们理解的大数据应用还仅限于对增加票房收入、观众购买群体和行为的分析,大量关于演出场所的管理和应用还远没有挖掘出来。因此,如何基于大数据实现知识的感知、增量式演化和自适应学习将是重大挑战。

(3)社会媒体数据的计算

社会媒体信息承载着对事物的客观或主观描述信息。因此,演出场所通过基于社会媒体数据的计算,可以帮助人们对文化创意的认知,如对演出剧目和节目中蕴含的文化IP与演出地理位置、演出环境、受众群体、所在地客流量、季节等数据的计算和关联分析,以及主题乐园等运营预测分析。因此,需要支持大规模网络结构的数据存储和管理结构,以及高性能的计算系统结构和算法。

(4)强可视化辅助决策

大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要。本文中仅提到了报告、说明性分析和仪表盘展示等可视化手段,也仅仅起到抛砖引玉的作用。未来演出场所大数据应用的可视化技术,不仅可以对数据分析结果进行更有效的展示,而且可以在大数据分析过程中发挥重要作用。

(5)数据的安全等级及可用性

演出场所大数据是基础性的安全级别较高的公众数据。实践证明,公众数据汇聚和安全管理措施需要各级政府部门积极推动[12]。大数据分析应用结果需要进行安全级别的评判和分类,以规范公共服务和个性化服务的落实。

5  结论

笔者针对中国文化行业演出场所的数据内容、汇聚、数据处理和分析应用进行初步探索,构建一种实现中国未来演出场所大数据应用体系架构,并应用MapReduce并行技术处理架构,设计基于存储和可并行计算资源的分布式云计算大数据处理系统,以及业务管理流程,希望摸索出一条中国未来演出场所数据规范管理的新途径,以达到建立文化创意领域优质的数据服务目标。

注:本文部分内容得到“演艺装备系统技术文化部重点实验室”资助(Supported by Key Laboratory of Performing Art Equipment & System Technology)。

参考文献:

[1] James Manyika, Michael Chui, et al. Big Data: The next frontier for innovation, competition, and productivity[M]. Mckinsey Global Institute, USA, June 2011.

[2] 工业和信息化部. 工业和信息化部关于印发大数据产业发展规划(2016-2020年)的通知(工信部规[2016]412号)[Z]. 2016.

[3] 全国人大常委会.中华人民共和国公共文化服务保障法(主席令第60号)[Z].  2016.

[4] 程学旗,靳小龙,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9): 1889-1908.

[5] W. Brian Arthur. The second economy[M]. Mckinsey Quarterly, October 2011. (https://www.mckinsey.com/business-functions/strategy-and-corporate-finance/our-insights/the-second-economy).

[6] 文化和旅游部. 中华人民共和国文化和旅游部2017年文化发展统计公报[Z]. 2018.

[7] Jimmy Lin, Chris Dyer. Data-Intensive Text Processing with MapReduce[M]. Morgan & Claypool Publisher, USA, 2010.

[8] Jeffrey Dean, Sanjay Ghemawat. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM: 50th anniversary issue: 1958-2008, 2008, 51(1): 107-113.

[9] 周其麟,王誠,等. 智能舞台决策支撑系统MapReduce驱动模型初探[J]. 演艺科技, 2018(4), 54-58.

[10] 朱湘,金松昌,贾焰. 一种基于Hadoop平台的海量Web数据挖掘系统研究与实现[C]. 第九届中国通信学会学术年会论文集, 2012.

[11] Gene M Amdahl. Validity of the single processor approach to achieving large-scale computing capabilities[C]. AFIPS Conference Proceedings (30) 1967: 483–485.

[12] José María Cavanillas, Edward Curry, et al. New Horizons for a Data-Driven Economy: A Roadmap for Usage and Exploitation of Big Data in Europe[M]. Springer International Publishing AG, Switzerland, 2016.

猜你喜欢

大数据
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究