基于主成分分析的电影数据研究
2019-12-16张超
张超
摘要:为了综合分析电影数据,本文通过工具SPSS19.0,运用主成分分析方法,对样本进行数据统计分析,建立了对应的数学模型,希望为电影制作方和影院提供一定的参考。
关键词:主成分分析;数学模型;SPSS
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(201 9)30-0001-02
1概述
随着涌现出很多优秀并且庞大的电影量,一部电影又包含了众多的属性,这些不同的属性引起的效应大小各异。基于庞大的电影数据,就需要我们用计算机来处理和分析,来减少人工工作量,获得我们想要的信息。本文使用主成分分析方法,对电影数据进行综合统计分析,希望可以为电影制片方合理分配资源和影院排片提供一定的参考。
3实验数据
本文实验采用了50部电影数据,其来源于豆瓣网站,包含了导演影响指数、明星指数、评分、片长、是否黄金周、影片类型、是否续集、想看人数、制作地区、票房收入共10个属性。其中影片类型和制作地区数据不能直接使用,必须先转换为数值类型,本文采用最基本的分类标记,对制作地区中国大陆标记为1,香港标记为2,美国标记为3,印度标记为4。同理对影片类型进行标记。通过这种简单的数值标记能确保这两个变量能进人数据分析。
4主成分分析过程
本文使用从豆瓣电影搜集的票房相关数据进行分析,借助数据统计分析工具SPSS19.0对样本数据进行主成分分析,分析步骤:首先加载数据:文件一打开一数据一选择本地数据。然后分析数据:分析一降维一因子分析。获得输出结果如下表1、2所示:
由表1结果可知,在本例中,成份1、2、3和4的特征值大于1,他们累计贡献率达到70.21%,还算不错,所以我们通过主成分分析,可以提取4个主要成份,转换后的这4个综合指标可以大致反映原始数据。
使用spss数据分析软件对电影票房数据进行分析,从中提取出了4个主要成份,從表2可知导演影响指数、评分、片长和想看人数在第一主成份具有较高载荷,明星指数和是否续集在第二主成份具有较高载荷,第三主成份上没有反映出较高载荷的指标,第四主成份主要反映了是否黄金周这一个指标信息。
用成份矩阵中一个主成分对应的数值,与主成分相对应特征值平方根的商,计算出的数值便是一个主成分中每个指标所对应的系数,便得到4个主成分的数学模型如下:
5结束语
本文通过主成分分析数据分析方法,使用spss软件分析数据,提取了4个主成分,他们累计贡献率达到70.21%,转换后的这4个综合指标可以大致反映原始数据,并且建立了综合数学模型,对于电影的综合评价分析具有一定的参考意义。但由于实验数据面窄,某些重要的特征属性无法获取,这些因素对综合分析电影数据都有一定的帮助,未来通过搜集更全面的实验数据进行改进。