用随机森林回归算法预测电影评分
2021-11-24王紫薇
摘要:本文从中国电影市场实际出发,选择导演、题材、主演、编剧、区域为影片评分的影响特征,对其做特征工程处理,提出了基于随机森林算法的电影评分预测模型。
关键词:随机森林;电影评分;数据挖掘;机器学习
随着数据挖掘技术的成熟,目前可以运用数据挖掘技术从大量的数据中挖掘到事物间的联系并预测其发展方向。电影评分预测模型可以在电影上映前预测其评分,观众就可以根据预测评分有选择地观影,电影院也可以选择性制定排片计划,电影周边产业也有了参考。
一、随机森林算法
随机森林回归模型就是综合几个创建好的决策树模型,其预测结果由所有决策树模型的预测结果平均得到。算法基本步骤如下:
(一)抽样:在训练数据集S中进行有放回抽样,得到K组数据集,每组数据集分为两种,抽中和未抽中的,每组数据集通过训练生成决策树。
(二)生长:利用训练数据训练每棵决策树。
(三)利用未被抽中的数据检验模型准确度。
(四)用最终模型预测新数据集,全部决策树的预测结果取平均值就是最终预测结果。
二、基于随机森林算法的电影评分预测模型
根据中国大陆电影市场现实情况,实验选导演、编剧、主演、类型、国家地区作为特征。
(一)导演水平特征
把影片评分和评价人数当作一个特征组合来表示导演水平特征,如公式(2-1)所示:
Director= ,n=min(5,n) (2-1)
n表示导演执导该部电影之前最近执导的n部电影,n≦5;Rk表示导演拍摄的第k部电影的评分;Pk表示评分人数。
(二)编剧水平特征
本实验取编剧所创作的距离这部电影最近的n部电影,n≦5,如公式(2-2)所示:
Writer= ,n=min(5,n) (2-2)
Rk表示编剧创作的第k部电影的评分;Pk表示编剧创作的第k部电影的评分人数。
(三)演员水平特征:
本实验选演员主演的距离该电影上映时间最近的n部同种题材电影,n≦5,主演水平特征如公式(2-3)所示:
Actor= ,n=min(5,n),m=主要参演人员 (2-3)
Rik表示第i位主演拍摄第k部电影的评分;Pik表示评分人数;Wi表示主演在该电影所占权重。主演为2人时,权重为:0.6,0.4;主演为3人时,权重为:0.5,0.3,0.2;主演为4人及以上时,权重为0.4,0.3,0.2,0.1。
(四)题材类型
本实验选取上一年该类型的所有电影,计算其平均得分作为此题材电影的综合评分,见公式(2-4)与(2-5):
Type= Ri*Wi,n=min(5,n) (2-4)
Ri= ,n=选取范围内类型为i的电影数量 (2-5)
Rik表示第k部i类型电影评分;Pik表示评分人数;Ri表示综合评分;Wi表示权重。
(五)区域特征
本实验参考上一年此区域电影平均得分,计算得到此电影的参考评分,见公式(2-6):
Country= ,n=选取范围内同国家地区的电影数量 (2-6)
Rk表示第k部电影的评分;Pk表示第k部电影的评分人数。
三、实验和结果分析
(一)实验过程
随机森林算法回归建模:
本实验采用spark mllib中的random forest包来实现随机森林算法。我们把处理好的特征和影片评分转换成Labeledpoint,Labeledpoint表示带标签的数据点,构造的Labeledpoint如公式(3-1)
(Rate,{Director,Wrter,Cast,Type,Country}) (3-1)
利用mllibtree.RandomForest的trainRegressor()方法构建随机森林回归模型。该方法返回一个weightedEnsembleModel对象,本实验使用它的predict()方法预测测试集。然后,把测试数据输入到建立好的随机森林模型中进行预测。
(二)实验结果
基于随机森林回归模型使用数据集中5部电影,本实验分别对这些电影的评分进行预测。将这5部电影的相关数据输入模型,计算所有的电影得分。结果如表1。
从表2可以发现,基于随机森林算法的电影预测模型的预测结果和电影的真实评分总体上区别不大。
四、总结和展望
本文从中国电影市场实际出发,选择导演、题材、主演、编剧、区域为影片评分的影响特征,对其做特征工程处理,提出了基于随机森林算法的电影评分预测模型。该模型能够为大众推荐电影提供有价值的参考,具有实际的意义。
参考文献
[1]耿娟,郭明欣.豆瓣Top250电影数据挖掘及评分预测[J].河北企业, 2021(02):11-13.
[2]陆君之.基于随机森林回归算法的电影评分预测模型[J].江苏通信, 2018,34(01):75-78.
[3]刘明昌.豆瓣网站电影在线评分的混合预测模型研究[D].河北大学, 2017.
[4]吕红燕,冯倩.随机森林算法研究综述[J].河北省科学院学报,2019,36 (03):37-41.
作者簡介
王紫薇(1997—),女,汉族,辽宁沈阳人,学生,硕士,天津工业大学经济与管理学院,研究方向:数据挖掘与建模。