APP下载

基于主成分分析法的电影数据统计分析

2013-04-13

科技视界 2013年36期
关键词:维空间成份分析法

张 飞

(东南大学机械工程学院 工业工程系,江苏 南京 211189)

1 数据来源

本文选取的指标共有六项,其中包括能代表电影成功的总票房,IMDB评分,获奖次数等,能代表拍摄电影时投入的制作花费和拍摄时间。

本文有的数据收集自Box Office Mojo官网上的票房排行榜(上映时间,北美总票房),有的数据收集自IMDB电影评分官网(IMDB评分),还有数据收集自维基百科(获奥斯卡奖数,制作花费,拍摄时间)进行数据统计,结果如表1所示。

2 主成份分析法

主成份分析法也称主分量分析或矩阵数据分析,通过变量变换的方法把相关的变量变为若干不相关的综合指标变量。

若某研究对象有两项指标 ζ1和 ζ2,从总体 ζ(ζ1,ζ2)中抽取了 N 个样品,它们散布在椭圆平面内(见图1),指标ζ1与ζ2有相关性。η1和η2分别是椭圆的长轴和短轴,η1⊥η2,故η1与η2互不相关。其中η1是点ζ(ζ1,ζ2)在长轴上的投影坐标,η2是该点在短轴上的投影坐标。从图1可以看出点的N个观测值的波动大部分可以归结为 η1轴上投影点的波动,而η2轴上投影点的波动较小。若η1作为一个综台指标,则η1可较好地反映出N个观测值的变化情况,η2的作用次要。综合指标η1称为主成份,找出主成份的工作称为主成份分析。

可见,主成份分析即选择恰当的投影方向,将高维空间的点投影到低维空间上,且使低维空间上的投影尽可能多地保存原空间的信息,就是要使低维空间上投影的方差尽可能地大。

图1 主成份分析法示意图

3 主成份分析法的应用

3.1 原始数据的处理和标准化

为了更直观的表示电影上映距今多长时间与票房之间的关系,将第一项指标“上映时间”改为“上映距今”,并对原始数据进行标准化处理,得到相关矩阵如表2所示。

表2 标准化处理后的矩阵

3.2 主成份分析的计算结果

运行SPSS软件,录入上述数据,进行主成份分析,输出成分矩阵,如表3所示,输出成分图,如图2所示。

表3 成份矩阵

图2

3.3 结果分析

由主成份计算结果可知,选取三个主成份来进行分析,这三个主成份的方差累计贡献率达到了99.85%,其中第一主成分占67%,第二主成份占16%,第三主成份占14%,可以认为这三个主成分极大程度上反映了原始数据。

在第一主成份中,北美总票房,获奖数,制作花费,拍摄时间这三个占有很大的权重,而且他们的变化方向一致,呈正相关关系,这说明在拍摄电影时投入越多资金,拍摄时间越长,出产的电影越能得到更高的票房,而且更有机会获奖。事实上,投入更多资金就意味着能请更好的编剧写出更好的剧本,请更好的导演和著名影星,更能使用更高级的道具设备等,优越的硬件条件是出产好电影的基础;投入更多的时间拍摄就意味着导演对于每个镜头要求都非常严格,精工细作才能出产好的电影。

另外,上映距今和总票房之间变化方向相反,呈负相关关系,这与常识是不相符,一般情况下距今时间越长,总票房越高,但是现在的金钱与过去的是不等值的,而且在过去电影还没有现在这么流行,还不是人们日常生活必不可少的一部分,不是所有人都能看得起电影的,所以一定程度上是可以解释这种现象。

在第二主成份中,只有IMDB的占有权重很大,但是可以发现所有的指标变化方向都是一致的,呈正相关关系,只是反映没有第一主成份里那么明显,但是也从一定程度上说明了第一主成分说明的问题,不同的是总票房和获奖次数并不能准确说明电影是不是受观众喜爱,而IMDB评分则弥补了这一点。总的来说就是在拍摄电影时投入资金越多,拍摄时间越长,出产的电影越能获得观众的喜爱,从而获得高票房。

在成分图中可以更直观的看出总票房,获奖数,评分等与投入的金钱,时间之间的关系。成分图表明总票房,获奖数,IMDB评分,制作花费,拍摄时间这几项是密切相关的,且呈正相关关系,很好的验证了第一主成分,第二主成分中说明的问题。

4 总结

本文利用主成分分析法就卡梅隆的电影相关数据进行统计分析,得出了成功的电影背后少不了时间和金钱的投入。当然,不排除实际上还有很多影响因素,比如获奖次数,就《泰坦尼克号》来说一下激增到11项,这在电影史上是罕有的,也间接说明了《泰坦尼克号》是一部划时代的大作;《异形2》属于恐怖类科幻片,这类影片在当时想被奥斯卡奖提名都很难,而它是首部获奥斯卡奖的恐怖类科幻片,而且还不止一项;再说票房,北美历史上是发生过通货膨胀的,这也在一定程度上影响了票房的数据……但是计算结果还是可以反映一定问题的,不影响结论,在电影投入的越多,拍摄时间越长,完成的电影就越会得到观众喜欢,票房自然就会上去。卡梅隆导演就是深谙这个道理,他从不会在电影上吝啬,不论花多大代价,花多长时间,都会完成他的大作,一部《阿凡达》他酝酿了14年,耗资5亿美元(约合人民币27.2亿元),历时四年拍制,最终震撼了全世界,十年磨一剑,必是宝剑。

[1]汪应洛.系统工程[M].北京:机械工业出版社,2009:54-60.

[2]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989.

[3]崔凝凝,唐嘉庚.基于回归分析的中国电影票房影响因素研究[J].江苏商论,2012(08).

[4]王建陵.当代西方电影票房预测研究的发展演变[J].电影艺术,2009(01).

猜你喜欢

维空间成份分析法
异步机传统分析法之困难及其克服
Update on Fengyun Meteorological Satellite Program and Development*
绩优指数成份变更与一周表现
两市主要成份指数中期成份股调整
Variational Mode Decomposition for Rotating Machinery Condition Monitoring Using Vibration Signals
基于时间重叠分析法的同车倒卡逃费探析
从零维到十维的空间之旅
层次分析法在SWOT分析法中的应用
AHP和SWOT分析法在规划编制中的应用
欧盟禁止在化妆品成份中使用3-亚苄基樟脑