选择视频网站影响因素分析
2017-11-30薛松宋向东
薛松+宋向东
[提要] 视频消费已经是用户日常生活娱乐的一种普遍方式,市场上视频网站较多,驱动用户选择视频网站的因素是什么,本文通过多元回归的特征选择方法分析驱动用户选择视频网站的因素,得到内容方面是主要因素,其次是品牌和功能体验,进而根据具体指标给出建议。
关键词:视频网站;多元回归;特征选择;罚函数
中图分类号:F713.5 文献标识码:A
收录日期:2017年9月26日
一、研究背景
目前,在线视频用户总规模超过8个亿,移动互联网用户中有80%都是视频用户,可见视频行业在网民中的渗透很高,目前视频市场格局已经形成三巨头形式(爱奇艺、腾讯、优酷),它们背靠BAT占据市场份额超过90%,但是各个视频网络之间并不是和平相处的,而是大力发展IP剧、自制内容、独播内容等,吸引更多的用户使用自己的产品。为了更加清楚地了解用户选择不同视频网站看重的因素有哪些,我们从品牌、功能体验、内容三个方面进行了研究,并通过建模得到最终结果。
二、选择视频网站影响因素分析
(一)模型说明。对于线性回归模型Yi=?茁0+?茁1x1i+…+?茁pxpi=?茁0+Xi'?茁+?着i(i=1,…,n),回归系数?茁0和?茁的估计主要使用最小二乘估计(OLS),其原理是最小化模型的残差平方和RSS=(Yi-?茁0-Xi'?茁)2。收缩罚的特征选择方法则是在OLS估计的基础上,进一步对回归系数的绝对值?茁j进行压缩,其目标函数是最小化RSS+p?姿(?茁j),这里p?姿(?茁j)是对?茁j回归系数的惩罚函数,作用就是对?茁j进行压缩。若某个回归系数?茁j被压缩为0,对应的自变量Xj就被剔除。这里?姿是控制惩罚函数强度的一个调整参数,进行特征选择时需要选择合适的?姿,实际应用中一般通过交叉验证方法来选择。
不同的惩罚函数对应不同的特征选择方法,例如单一罚函数的Ridge(即岭回归)、Lasso、MCP及复合罚函数的Elastic Net、Group Lasso、Group MCP、Composite MCP、Sparse Group Lasso等。
以Lasso为例,其目标函数是最小化:
这里?姿就是调整参数。Lasso问题等价于如下带约束的最优化问题:
也即在OLS估计的基础上,进一步对的值加以限制。这里s与?姿一一对应,当s较小时,回归系数相比于OLS估计就被压缩。
值得注意的是,通常,合适的调整参数?姿的选择是依靠交叉验证来进行的。K折交叉验证即将原始样本随机分成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个子样本作为训练集。交叉验证重复K次,每个子样本验证一次,平均K次的结果(即预测误差),选择出最小的预测误差所对应的λ的估计结果。由于交叉验证的随机性,可能会使得每次的估计结果略有差异。为减小差异,可适当增加交叉验证的折数,比如可以考慮从5折交叉验证变为10折交叉验证。该模型具有以下优势:(1)利用“收缩罚”的方法,更加科学地选择对研究指标有显著影响的变量,并对其进行排序;(2)能够较好地处理自变量之间的多重共线性;(3)可以科学处理变量之间存在分组关系的情况。
(二)数据准备。将用户对视频客户端的继续使用意愿打分定义为被解释变量即Y,将用户对各个视频客户端的在品牌、内容、功能体验三个方面各个语句的打分定义为解释变量即X。由于一个样本可能选到多个视频客户端,因此可能对多个视频客户端的推荐意愿打分和各个视频客户端在品牌、内容、功能体验上各个语句打分,为了保证数据的完整性,我们将各个视频客户端的推荐意愿打分和在品牌、内容、功能体验三方面的评价对应整理,最后将所有品牌的数据累堆起来进行分析。比如说有甲乙丙三人,分别选的客户端数是2、1、3,那么最后整理的数据有6条。
对于视频客户端具体评价语句,多条语句可能表达的是同一个意思,这时候我们一般把用户在这几条语句上的评分取均值记为一个指标,相应语句的打分就会删除,将所有语句类似处理,最后得到要分析的数据整理结果。
(三)建模结果及说明。我们将整理好的数据代入模型,得到影响用户继续使用视频客户端的最主要指标是内容指标,其次是品牌和功能体验指标。(图1)
在实际生活中,用户对某些指标可能不是很关心,如果单纯看驱动系数大小可能会误导企业的发力方向,因此我们结合用户的需求来分析,将用户对这些品牌、内容、功能体验方面的直接需求程度与驱动系数做二维图,需求高驱动系数大我们称之为核心需求,需求低驱动系数大的我们称之为增值需求,需求高驱动系数小的我们称之为基础需求,需求低驱动系数小的我们不关心,保持监控即可。
从上面结果可以看出:核心需求中主要集中在功能体验方面,具体体现在广告少、界面、导视推荐和布局上,同时还有品牌方面值得信赖的,内容方面持续有优质内容;增值需求中有品牌指标上的用户口碑、个性喜好、亲和/陪伴感,内容指标上的内容覆盖广,功能体验方面的分享。
三、结论
2016年以来,各大视频网站大力布局自制内容、独播内容等,对用户选择视频网站还有一定的驱动作用,但是在2017年结果发现并没有驱动作用,这个可能是因为各大视频网站都在此上面大肆发力,想形成自己差异化内容,结果消费者选择疲劳,所以在形成自己独特的内容差异化时,满足剧目数量的同时也要保证内容的质量,这样才能吸引更多的用户使用自己的产品。同时,视频剧目界面要做得美观,重点突出。要根据用户自己的喜好推送相关内容,实现精准的差异化战略,视频在高速消费的同时,如果可以增加一些人文情怀的附加属性,会更加受到用户的青睐。
主要参考文献:
[1]陈希孺.数理统计学教程[M].中国科学技术大学出版社,2009.
[2]王丹.我国视频网站的传播特征研究[J].中国出版,2017.1.
[3]戴礼蓉.网络自制剧的价值链研究[D].安徽大学,2017.
[4]柯邓林.Lasso及其相关分析方法在多元线性回归模型中的应用[D].北京交通大学,2011.endprint