APP下载

数据挖掘技术在影院管理信息系统中的应用研究

2018-10-21孙梦璐

现代信息科技 2018年8期
关键词:数据挖掘信息系统数据库

摘 要:电影行业蒸蒸日上,看电影成为越来越多人的日常娱乐方式,与此同时,影院间的竞争更加激烈。在充满机遇和威胁的市场中,提高自己的竞争优势成为影院必须面对的问题。随着数据挖掘技术的不断发展,引入影院管理信息系统是一个有重要意义的课题。本文从影院管理信息系统出发,首先阐述了数据挖掘的概念、算法和一般步骤,然后介绍了数据准备和数据预处理,最后重点分析了数据挖掘在影院系统中的具体应用。

关键词:影院管理;数据挖掘;信息系统;数据库

中图分类号:TP311.13 文献标识码:A 文章编号:2096-4706(2018)08-0082-03

Abstract:The movie industry is booming. Watching movies has become a daily entertainment mode for more and more people. At the same time,the competition between cinemas is fiercer. In a market full of opportunities and threats,to improve their competitive advantage becomes a problem that theaters must face. With the continuous development of data mining technology,introducing theater management information system is an important issue. This thesis starts with the theater management information system,first elaborates the concept,algorithm and general steps of data mining,then introduces data preparation and data preprocessing,and finally analyzes the specific application of data mining in the theater system.

Keywords:cinema management;data mining;information system;database

0 引 言

中國电影行业蓬勃发展。从票房规模上看,根据国家广电总局电影局发布的数据可以看到,2017年全国电影总票房为559.11亿元,同比增长13.45%(两者均包括服务费)。从银幕上看,全国新增银幕9597块,银幕总数已达到50776块,同比增长约23.3%;从观影人次上看,2017年观影人次为16.2亿人次,较2016年同比增长18.1%,放映场次为9469万场,较去年同比增长27.2%。相对应地,单场上座人数也有所下滑;从平均票价上看,2017年与2016年略有下滑。由此可见,在观影人次不断增长的同时,全国的银幕数量也在不断上升,影院市场竞争激烈,把握机遇和应对竞争成为了每个影院必须面对的挑战。

近年来,数据思维及数据分析方法逐渐渗透到各行各业中,数据挖掘技术在商业领域已经不是一个新名词,它最早成功应用于高投入、高风险、高回报的金融领域,现在正在不断地向电信、保险、零售等客户资源信息密集的行业拓展。它在电影行业的应用也越来越广、越来越深。本文将从影院管理信息系统出发,研究数据挖掘技术在其中的用武之地,探求数据挖掘在提高影院竞争力方面的具体应用。

1 数据挖掘

随着电影行业的高速发展,各影院都建立了自己的管理信息系统,拥有较为完善的数据库系统。经过多年运营,影院内部积累了大量的业务数据,如售票数据、会员信息数据、影片放映数据等,这些数据一般都是海量的,要最大限度地利用这些数据,从中分析挖掘出对影院运营有用的信息。传统以MIS为代表的查询、报表类工具已经满足不了人们对数据进行深层次分析的需求。在这种背景下,影院对数据挖掘技术在影院信息系统的深入应用有了急切的需求和更高的要求。

1.1 数据挖掘的概念

数据挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、人们事先不知道的、潜在有用的信息和知识的过程,即“从数据中挖掘知识”的过程,也是一种决策支持过程。它主要基于人工智能、机器学习、模式学习和统计学等。通过对大数据进行高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,把握行业结构的进化,跟踪正在出现的连续性和非连续性变化,以及分析现有和潜在竞争对手的能力和方向,帮助企业、商家和用户调整市场营销策略、改善企业管理、减少风险以及理性面对市场,并做出正确的决策,从而帮助企业获得竞争优势。

1.2 数据挖掘的算法

大数据挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法和Web数据挖掘等。这些方法从不同的角度对数据进行挖掘。下面主要对数据挖掘技术中的一些经典算法进行了介绍。

(1)分类技术。分类是找出数据库中一组数据对象的共同特点,并按照分类模式将其划分为不同的类,目的是通过分类模型将数据库中的数据项映射到某个给定的类别中。它是数据挖掘技术中应用最广泛的技术之一,目前在商业上应用得最多。其中分类模型也称作分类器,其构造方法主要有统计方法、机器学习方法、神经网络方法和粗糙集方法等;

(2)回归分析。回归分析通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中。在市场营销中,回归分析可以被应用到各个方面;

(3)聚类技术。聚类类似于分类,但与分类的目的不同,是把一组个体按照相似性归成若干类,即“物以类聚”。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。常见聚类算法有K-Means、K-Medoids和DBSCAN等;

(4)关联规则。关联规则的目的是挖掘出隐藏在数据间的相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。其挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组,第二阶段为从这些高频项目组产生关联规则;

(5)人工神经网络。人工神经网络是一种通过训练来学习的非线性预测模型,具有对非线性系统数据的快速拟合能力,可以完成分类、聚类和特征提取等多种数据挖掘任务。其最大的特点在于具有学习能力,可以通过学习大量样本数据来获取输入、输出之间的函数关系。

1.3 数据挖掘的步骤

数据挖掘完整的步骤为:

(1)理解数据和数据的来源;

(2)获取相关知识与技术;

(3)整合与检查数据;

(4)去除错误或不一致的数据;

(5)建立模型和假设;

(6)实际数据挖掘工作;

(7)测试和验证挖掘结果;

(8)解释和应用。

2 数据挖掘准备过程

为了更好地挖掘影院的海量数据,并从中获得有效信息,数据分析人员需要获取不同来源的数据,并对数据进行清洗、集成、变换和归约等。

2.1 数据准备

数据的来源主要分为内部数据和外部数据。影院的日常经营会产生大量的数据,这些数据会存储在影院的数据库中,由于数据挖掘对数据真实性、规范性和完整性的要求比较高,且存储粒度低的细节数据有利于取得好的数据挖掘效果,因此对影院管理信息系统的设计和架构有一定要求。此外,影院的管理信息系统还需获取和存储外部数据,主要包括美团、豆瓣、猫眼等电影票售票平台中的销售、观众评论等数据。

2.2 数据预处理

没有高质量的数据就没有高质量的挖掘结果。实际应用系统中收集的数据通常是“脏”数据,往往具有不完整、有噪声和不一致的问题,需要填充空缺的值、识别孤立点、消除噪声以及纠正数据中的不一致。数据清洗完后就开始数据集成、变换和归约。数据归约主要是降维,让数据更突出以及更有代表性。

3 数据挖掘在影院信息系统的应用

2017年11月26日,国家新闻出版广电总局电影局主办的学习座谈会上,电影局长张宏森表示:“到2020年,预计中国电影市场将成为世界第一大电影市场,银幕数量预计超过6万块,年产影片800部左右,年票房预计达到700亿元,总体实力会有一个更大的跃升。”面对越来越大的市场,影院信息化已成常态,利用好影院日常经营中产生的海量数据和市场上冗杂的相关数据来提升自身的竞争力是一大难题,值得思考。

3.1 数据挖掘在影院选择电影方面的应用

电影数量不断上升,很多情况下影院必须对放映的电影有所取舍。决策树、逻辑回归、人工神经网络都可以有效辅助影院选择放映的影片,并对排片等进行决策。影响一部电影票房的因素不但有电影本身的先导因素,比如影片预算、导演、演员、口碑以及大量的主观因素,包括影片排片、影片宣传及发行。这里的先导因素可用作决策树、逻辑回归、人工神经网络等算法对电影票房进行预测时的变量,然后用大量历史数据对电影票房预测模型进行训练,得到较为准确的模型。通过该模型预测得到的票房可作为影院对该电影是否放映及其排片的决策依据。当然,预测票房模型在接下来仍需不断加以训练来提高精度。

3.2 数据挖掘在影院选择合作售票平台方面的应用

线上购票已经成为主流观影人群的习惯动作,2015年以来,通过大规模的票补,线上售票占比逐渐提升。2017年全国线上售票比例大约在81.7%,较2016年的76.1%提高了约6个百分点。目前观众常用的购票平台有十多个,选择适量、合适的售票平台开展合作可以帮助影院实现更好的发展。

影院信息系统首先需要对一些常见售票平台的数据进行收集存储;然后统计分析观影人群主要通过哪几个平台购买电影票以及满意度如何等。其中满意度的测量评价从平台的售票数量、影院售票途径中的占比和用户评论等多个维度展开。用户评论的分析会涉及到简单自然语言的处理,部分评论需要用到TF-IDF进行进一步分析;最后管理层可通过OLAP技术来辅助决策。

3.3 数据挖掘在影院会员客户保留和拓展方面的应用

影院的长期经营发展需要客户保留和客户拓展两方面的共同提高。对现有的会员客户,影院将对其观影次数、频率、观看影片类型等利用分类、预测的数据挖掘技术进行跟踪分析,升级服务方案,提高客户满意度,从而提高其忠诚度,在其有流失预兆时能及时做出反应进行挽回。影院除收集会员的观影信息外,也需要收集非会员客户的观影行为信息,有针对性地发现客户的反应行为模式,将潜在的会员客户列表排序,努力发展这些客户成为会员。这部分主要用到数据挖掘技术中的分类、聚类和关联分析。

影院也可通过关联分析观影人群在电影类型喜好上的潜在特点,对支持度、置信度高的几部影片进行套餐化销售,例如看了《脱单告急》的观众也喜欢看《21克拉》,或者看了《后来的我们》的观众,通常还会选择观看《战神纪》,这些影片的電影票则可以开展同时购买优惠或送饮料的活动。这不仅能提高影院销售额,也便捷优惠了客户,提升他们对影院的满意度。

3.4 数据挖掘在影院宣传方面的应用

影响一部电影票房的因素除电影本身的先导因素外,还有大量的主观因素,如影片排片、影片宣传及发行。因此,影院在海报布置、等候区预告片播放、会员客户短信推送方面大有可为。分析即将上映和正在上映的影片在网上的舆论、和度等数据可辅助决策该影片的海报大小、摆放位置和等候区大屏幕上预告片的播放频率。

影院数据分析人员对会员的观影行为进行因子分析,对其进行分类,然后根据每类会员的行为特征,可有针对性地推荐影片或推荐购买套餐,套餐会有不同影片搭配售票、同时购买同部影片的多张票或购买某时间段的电影票可享优惠等多种类型。

4 结 论

电影院作为产业链的终端环节,在整个电影产业格局中扮演着至关重要的角色,影院的运营也带动与电影相关业态的发展,因而影院建设一直是电影产业发展的重点。当前全球电影银幕市场趋于饱和,院线发展逐渐由新建影院模式向合并收购模式转变。提高和保持自己的竞争优势对影院而言至关重要,将数据挖掘深入应用到影院管理信息系统中,将对影院的运营产生持续性的积极影响,并得到理想的效果。

参考文献:

[1] 闫晓妍.基于数据挖掘技术的企业智能竞争情报系统研究 [J].现代情报,2007(11):187-189.

[2] 罗芳.数据挖掘技术在移动通信决策支持系统中的应用 [J].交通与计算机,2004(4):74-76.

[3] 张蓉.数据挖掘技术在房地产客户关系管理系统中的应用 [J].现代情报,2006(6):185-187.

[4] 王玉帛.基于数据挖掘对影响电影票房因素的浅析 [J].通讯世界,2017(2):236-237.

[5] 郑建智,段占祺,应桂英.数据仓库和OLAP技术在卫生统计决策支持系统中的应用 [J].中国卫生信息管理杂志,2012,9(3):47-51.

作者简介:孙梦璐(1996.12-),女,汉族,浙江慈溪人,本科。研究方向:信息管理与信息系统。

猜你喜欢

数据挖掘信息系统数据库
基于信息系统的计量标准管理
基于项目化+翻转的物流信息系统课堂教学设计与实践
信息系统管理在社会中的应用
数据挖掘综述
数据库
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
数据库
数据库
数据库