基于R语言的赏金类软件数据分析
2021-07-19杨静何金娥贾洪杰李雪梅沈亭亭方润月
杨静 何金娥 贾洪杰 李雪梅 沈亭亭 方润月
摘 要:随着赏金类软件的不断发展,人们日常的对话从"今天你吃饭了吗"转变成"今天你领钱了吗"。2017下半年,随着支付宝扫码赚赏金和直播答题赚赏金等活动的兴起,赏金类软件一时风头无两,得到了国民的极高关注。文中利用R软件进行数据的分析处理,旨在了解影响赏金类软件推广的因素,分析用户对赏金类软件的看法,研究其发展所面临的问题。最后给出问题的解决建议。
关键词:R语言;赏金类软件;Logistic回归模型;问卷调查;数据分析
中图分类号: O212.1文献标志码:A
文章编号:1672-1098(2020)03-0074-06
收稿日期:2019-10-14
基金项目:国家自然科学基金基助项目(61672001、61702008);安徽省自然科学基金资助项目(1808085MF193);大学生创新训练项目(201810361095)
作者简介:杨静(1980-),女,安徽淮北人,教授,博士,研究方向:DNA计算、智能计算。
Data Analysis of Bounty Software Based on R Language
JING Yang,HE Jine,JIA Hongjie,LI Xuemei,SHEN Tingting,FANG Runyue
(School of Mathematics and Big Data, Anhui University of Science and Technology, Huainan Anhui 232001, China)
Abstract:With the continuous development of bounty software, people's daily conversations have changed from "Do you eat today?" to "Do you get the money today?" In the second half of 2017, with the rise ofearning bounty by scanning code with Alipay and live answering, and other activities, the bounty software was in the limelight, receiving great attention from the nationals. In this paper, R software was used for data analysis and processing, in order to understand the factors affecting the promotion of the reward software, analyze the users' opinions on it and study the problems faced in its development. Finally, some suggestions were given to solve the problem.
Key words:R language; bounty software; Logistic regression model; questionnaire survey; data analysis
近几年来,直播类软件的热度不断飙升,吸引了大量用户。2017年年底以“答题赚赏金”为首的新型直播方式的出现[1],使得直播类软件博得了广大网民的眼球,赢得了广泛的关注,更是被称为2018互联网行业的第一个“风口”。支付宝采取类似的方式,通过扫码领取奖励金的方式来刺激用户消费,并在2017年“双十一”前后推出了“扫码领红包”、“邀请好友扫码赚赏金”等活动。
除了直接发放奖金,不少软件也在用间接奖励的方式吸引用户。比如现在很火的“平安好医生”和腾讯旗下的悦动圈,就采取走路计步数的方式使用户赚取奖金。百度文库、道客阅读、掌阅、网易云音乐等软件也相继采用连续签到、记录阅读时长的方式来发放奖券、兑换金等。
上述这些赚取“赏金”的方式,既使得软件本身得到了很好的推广,同时也提高了相关赞助商的知名度,实现了企业间的互利共赢。
当下,手机软件越来越多,如何在门类繁多的软件市场中脱颖而出,吸引用户,这应该是目前许多软件运营商都在思考的问题。过去的两年,赏金类软件以黑马之姿横空出现,一跃成为最热门的软件,下載量急速增长。但当风头过去,此类软件也逐渐归于平静。以其作为切入点,了解此类软件背后的商业模式。通过调查,可以分析其成功的原因,以此来了解目前市场需求,为日后的软件研发及推广提供新思路。
1 数据分析
(1)问卷的信度和效度分析
信度是指在调查问卷过程中,对同一调查对象进行调查时,采用同一方法所得出调查结果的一致性和稳定性,通过信度分析[2]可让设计问卷具有科学性。这里使用目前社会研究中最常使用的CronbachSymbolaA@信度系数法,该方法能克服部分折半法的缺点。
利用R软件对该问卷进行信度分析,结果如表1所示。
从上表1可以看出,本研究共有2 466条数据,其中有效数据2 459条,缺失数据7条,问卷有效率为99.7%。
从上表2可看出,信度系数α为0.769,在剔除缺失数据后,经过标准化的系数α为0.812>0.8,即分析该问卷具有一定意义。
(2)问卷分布
本次问卷调查共计2 466份问卷,问卷调查对象来自全国不同省(市、区)。问卷进行了合理的调整或直接剔除[3-5],最终确定2 459份问卷作为有效样本。其中,受访者中男女比例相对均衡,问卷的分布主要集中在安徽省内。
(3)调查总体基本情况
在调查样本[6-9]中,受访者的年龄主要集中在18~30岁之间,共有1 768人,在总数中的占比达到了71.9%。对于受教育水平的分析,受访者的受教育水平主要集中在本科及以上,占总体人数的76.2%。
关于月可支配金额,可以发现月可支配金额在5 000元以下的人数最多,占比达到了89.4%,造成该现象的主要原因可能是绝大多数受访者为在校大学生。再结合每天使用手机时间在5h以上的受访者约为总数的41.8%,因此有理由认为赏金类软件面对大学生更有市场。
(4) 影响安装赏金类软件意愿的因素分析
对于受访者安装赏金类软件意愿与各个因素之间的关系,这里将选择在手机上安装赏金类软件的受访者规定为愿意,反之为不愿意,整理回收的有效數据并对其进行卡方检验。
因为受教育水平影响手机的使用情况,因此将受访者的受教育水平进行分析。由数据可知,每个阶段中愿意安装与不愿意安装此类软件的人数比例均为1∶1。
针对每个人使用手机习惯的不同,通过数据分析可知,手机上几乎没有软件的受访者愿意安装赏金类软件的人与不愿意者之间的比例大约为1∶1,而对手机上软件较多的受访者来说软件越多的人,安装赏金类软件的意愿程度越高。
通过对受访者对赏金类软件的前景预测,其中认为赏金类软件很有前景的受访者中愿意安装赏金类软件的人数所占比例较多,而对于不怎么看好的人来说,不愿意安装赏金类软件的人数较多,因此可以初步认为对赏金类软件的看法与安装赏金类软件意愿之间呈明显的负相关关系。
关于选择登录方式,绝大多数用户较为倾向于使用QQ登录赏金类软件,选择微信登录的受访者相对于选择QQ登录的人数较少。而选择愿意接受手机号及其他登录方式的用户仅占总数的16.7%,相对较少。
通过对现在市面上大多数的赏金类软件进行分析,得知大多数赏金类软件在提现时都需要提现人输入自己的身份证号、银行卡号、银行预留手机号等个人隐私信息,因此使得一部分用户选择卸载赏金类软件。
在对赏金类软件提现限制进行分析时发现,市面上几乎所有的赏金类软件在提现时都需要达到指定金额。当受访者得知需要达到一定额度才能提现时,多数人表示拒绝安装此类软件。
对安装赏金类软件因素进行卡方检验,性别x1的P值为0.03、年龄x2的P值为0.001、受教育水平x3的P值为0.739、月可支配金额x4的P值为0.119、使用手机时间x5的P值为0.000、常用软件类型x6的P值为0.000、下载途径x7的P值为0.249、得知途径x8的P值为0.227、了解程度x9的P值为0.000、看法x10的P值为0.000、喜爱类型x11的P值为0.007、登录方式x12的P值为0.000、资料要求x13的P值为0.000、额度要求x14的P值为0.000。
由此可知对安装赏金类软件影响因素较大的变量,为了更明清楚的得到影响因素较强的变量进而构建模型,这里对其进行了相关性检验。经过对所有因素的之间的相关性分析检验得到图1(颜色越深,两个影响因素之间的相关性越强[10])。
其中,x2、x3、x4等变量分别对应前面的各个分析影响因素的序号,从上图可以看出提现要求、提现额度要求及对软件类的看法等三个影响因素与赏金类软件安装意愿之间有着显著的相关关系,经过比较留下6个与下载意愿之间相关关系比较显著的影响因素,分别为年龄、使用手机时间、使用软件类型、登录方式、提现个人资料要求及提现额度。
(5)赏金类软件下载影响因素效应分析
1)logistic回归的基本理论 根据Logistic思想, 当因变量是一个二元变量时, 只取0与1两个值时, 因变量取1的概率就是要研究的对象。如果有很多因素影响y的取值, 这些因素就是自变量, 记为x1,…,xk,这些xi中既有定性变量,也有定量变量,其中最重要的一个条件是
lnp1-p=b0+b1x1+…+bkxk(1)
满足上述条件的称为Logistic线性回归。Logistic函数的形式[10-14]为
f(x)=ex1+ex=11+e-x(2)
该分析筛选出了影响用户下载意愿的主要因素,在这些因素中,用“0”表示愿意下载,“1”表示不愿意下载,这正好符合Logistic回归模型的0-1模型,故此方法适用于该分析[11-14]。与其他分析方法相比,该方法具有以下优点。
①该方法适合分类变量场景。
②计算代价较低且易理解并实现,在内存和时间需求上效率较高。它即可以应用于分布式数据,也可以通过在线算法实现用较少的资源处理大型数据。
③对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的影响。
2)影响因素效应分析 从上述分析中可知,在问卷众多的设计因素中,影响受访者下载意愿的主要因素有:年龄;使用手机时间;使用软件类型;登录方式;提现个人资料要求;提现额度。
这里采用Logistic回归模型对这些因素进行效应分析[15],以得出影响下载意愿的最主要因素。
为便于继续分析问题,这里分别将变量年龄、使用手机时间、使用软件类型、登录方式、提现个人资料要求及提现额度设为x1、x2、x3、x4、x5及x6,并将这六个因素作为自变量[16],将原始问卷中的问题13即是否会选择在手机上安装赏金类软件设为y作为因变量。另一方面,在原始数据中用“0”表示愿意,“1”表示不愿意选择在手机上安装此类软件。在该分析中选择Logistic回归作为研究问题的方法,为了便于分析,将愿意用“0”表示,不愿意用“1”表示,得出新的需要处理的数据。
通过多次拟合回归,P值在0.01的显著性水平下剔除的不显著因素有:x1、x4,即年龄和登录方式,剔除不显著因素后重新拟合,得到最终拟合回归系数表[17](见表4)。
在显著性水平为0.01的情况下,这里认为剩余变量均显著有效,由此得到Logistic回归方程为
p^=11+e-(-2.655+0.185x2-0.307x3+0.891x5+0.971x6)(3)
由以上分析知,影响受访者下载意愿的主要因素有:使用手机时间、使用软件类型、提现个人资料要求及提现额度。且模型的整体显著性水平远远小于0.05,说明该模型整体高度显著。
2 国内赏金类软件比较
对于赏金类软件最有名的莫过于支付宝。支付宝天天领红包活动从2017年9月4日一开始,短短的三个月时间,以星星之火可以燎原的速度,几乎发展到全民参与的程度。支付宝通过补贴20亿元红包,用户通过手机“扫码领红包”或“邀请好友扫码赚赏金”然后到實体店购买物品时,红包可以直接抵扣现金。 由于新的用户一般“扫码领红包”金额比较大,而对于老的用户金额一般比较小,因此有不少用户开通了支付宝。支付宝不仅邀请到不少新的用户,还拓展了线下消费场景,刺激用户消费,逐渐的改变了消费者的习惯。
提到支付宝通过扫一扫领红包,就不得不提直播答题赢奖金。2017a年底,打响了直播答题赢奖金的第一枪,从一开始一场几万元奖金到一场百万元奖金,仅仅用了半个月时间。一时间直播答题赢奖金风头一时无二,掀起了一波全民答题热潮。每场奖金在50万、100万、200万不等,由于奖金金额巨大,提现门槛低,吸引了大量的用户参与。多数情况下每场普通人能分到几元,仅有极个别人能赢得大奖。巨大的流量更是能带来巨大的商业变现,广告赞助商纷沓而至,自然而然不愁直播答题的巨额奖金从哪里来。
除了直接发放奖金,不少软件采用间接方式“发红包”比如腾讯旗下的悦动圈。悦动圈是深圳市悦动天下科技有限公司于2016年5月27日发布的一款记录运动数据的手机软件。悦动圈主要针对步行、跑步、骑行等运动基于GPS工具记步。只要用户完成步行、跑步、骑行等任意一种指标即可获得现金红包。一时间,不少人都下载软件并完成运动目标,不仅可以锻炼身体还可以获得现金。
赏金类软件既使得软件本身得到了很好的推广,同时也提高了相关赞助商的知名度,实现了企业间的互利共赢。他们最终的目的是要吸引用户和增加新的用户,还要提高用户使用该软件的频率。但是对于赏金类软件能不能持续发展,关键看用户能否一直保持热情。
3 结论和建议
结合问卷调查的有效数据以及利用R软件对其进行的分析,可以得到如下结论和建议。
(1)结论
1)赏金类软件的推广与受访者使用手机的习惯息息相关。结合生活实际,使用手机时间较长的受访者更有可能对这种赏金类软件产生兴趣。而从受访者平时使用手机软件的类型来看,更易看出受访者是否愿意下载这类软件。因此,了解消费者使用手机的习惯,是赏金类软件想要得到推广的第一步。
2)赏金类软件的推广需要满足大众的需求。由数据分析可以清楚地看到日常运动(阅读等)、答题赚赏金和支付宝推广赚赏金这三类选择的人数居多,在总体中所占的比例相差无几,平均值在28%左右。而选择视频直播类和其他的受访者平均占比在8%左右,相对较少。因此,在推广这类软件的时候需要迎合大众的需求,不能一味地发展某一类软件,而应根据人们的需求有的放矢。
3)提现要求对安装赏金类软件有一定影响。在受访者是否安装赏金类软件决策过程中,赏金提现的要求起到了显著性的影响效应。当得知需要详细的个人信息才能提现时,或提现额度要求较高时,大多数的受访者都拒绝安装赏金类软件。因此,适当优化提现要求,是留住用户量的必经途径。
4)赏金类软件的设计还需要进一步的优化。本文分析了受访者对赏金类软件前景的看法,发现大家对此类软件的评价褒贬不一,其中认为有些软件还行、有些只是跟风的受访者占了总人数的49%,由此可以看出其中大多数的受访者认为有些软件还需要进一步的优化。大多数用户认为这类软件的崛起与赏金吸引和任务设计新颖有着密不可分的关系。同时部分用户却对软件的人员安全性和任务合理性方面比较在意,但是少数用户也表示只是抱着尝试新事物的态度。
(2)建议
1)优化提现对资料的要求,让用户放心使用 根据软件用户使用的登录方式,合理地改变提现方式。例如,当用户使用QQ号或微信等快捷方式登录时,由于人们对这类软件都比较信任,或已经在QQ和微信上实名认证过了,因此通过直接绑定QQ号或微信等进行现金提现,能更好地达到推广的目的。
而现在许多赚赏金类软件平台需要用户提供身份证信息或者是银行卡号才可以提现,这可能会让大多数用户认为自己信息会被泄露,从而拒绝继续使用该软件。因此,合理优化用户提现方式显得尤为重要。
2)降低提现额度要求,建立良好口碑 很多软件为了留住用户,设定了达到一定额度才能提现的条件。不过,除了留住旧用户之外,还要对新用户产生强大的吸引力。将提现的额度要求适当降低,让用户对资金有握在手里的放心,才能对自己使用的软件更加信任,从而达到建立良好口碑的目的。
3)优化广告投放,迎合大众需求 进行软件推广时,分析赏金类软件的使用人群,实现广告的精准投放,做到使投放的广告有较大程度的响应。在软件平台上适当减少广告的投放,用户使用软件时,不少的软件会在平台中出现各种广告的弹窗,这可能会直接影响到用户使用软件的心情,从而导致软件的用户量流失。因此,优化广告投放是留住用户重要的手段和途径。
4)提高软件性能,更好服务于生活 每个软件的生存应该靠的是软件本身给用户带来的方便,不能单单靠赚赏金一种方式来吸引甚至留住用户。2018年年初打得火热的各种直播答题类软件,以西瓜视频为例,西瓜视频里不仅有答题赚赏金的栏目,软件本身也有很多搞笑、养生、新闻等视频,不少用户都将从视频中学到的东西用于生活实际中,是比较实用的一类软件。
提高软件本身性能,更好地服务于生活才是最终胜出的方式,只有当软件实用、能为人类生活带来便利或产生积极影响才是留住用户和生存到最后的法宝。
参考文献:
[1] 单鹏, 周鹏, 薛志扬,等. 直播答题商业模式分析及优化策略[J]. 时代金融, 2019(5):87-88.
[2] BUNEVICIUS A. Reliability and validity of the SF-36 Health Survey Questionnaire in patients with brain tumors: a cross-sectional study[J]. Health & Quality of Life Outcomes, 2017, 15(1):92.
[3] 金勇进. 市场调查方法与技术[M] .北京:中国人民大学出版社,2009:20-130.
[4] 黄孝俊. 市场调查分析[M].浙江:浙江大学出版社, 2002:23-98.
[5] 曾五一, 汪彩玲, 王菲. 网络调查的误差及其处理[J]. 统计与信息论坛, 2008, 23(2):5-10.
[6] DU N,GUO C L,YANG M, et al. Assessing the current status of enhanced recovery after surgery in the usage of webbased survey questionnaires by thoracic surgeons and nurses attending the meeting in Mainland China[J].Chinese Journal of Lung Cancer, 2017, 20(3):157-162.
[7] UENO F,NAKAYAMA Y,HAGIWARA E,et al.Impact of inflammatory bowel disease on Japanese patients' quality of life:results of a patient questionnaire survey[J].Journal of Gastroenterology,2017,52(5):555-567.
[8] PONIS S T, PAPANIKOLAOU P A, KATIMERTZOGLOU P, et al. Household food waste in Greece: A questionnaire survey [J]. Journal of Cleaner Production, 2017, 149(4):1 268-1 277.
[9] LAMBERT T W, SMITH F, GOLDACRE M J. Career specialty choices of UK medical graduates of 2015 compared with earlier cohorts: questionnaire surveys [J]. Postgraduate Medical Journal, 2018, 94:191-197.
[10] 张文彤.SPSS 统计分析基础教程[M]. 北京:高等教育出版社, 2004:2-200.
[11] OSMAN T,DIVIGALPITIYA P,ARIMA T.Driving factors of urban sprawl in Giza governorate of the Greater Cairo Metropolitan Region using a logistic regression model[J]. International Journal of Urban Sciences, 2017, 58(2):1-20.
[12] QIAN W, YI W, RUIQING N, et al. Integration of Information Theory, K-Means Cluster Analysis and the Logistic Regression Model for Landslide Susceptibility Mapping in the Three Gorges Area, China[J]. Remote Sensing, 2017, 9(9):938-966.
[13] SIDI P, MAMAT M, SUKONO, et al. Supply and demand analysis for flood insurance by using logistic regression model: case study at Citarum watershed in South Bandung, West Java, Indonesia[J]. IOP Conference Series: Materials Science and Engineering, 2017, 166:1-7.
[14] REANGSEPHET O, LISAWADI S, AHMED S E. A Comparison of Pretest, Stein-Type and Penalty Estimators in Logistic Regression Model[C]// International Conference on Management Science & Engineering Management.Mediacity UK,2017:19-34.
[15] 王济川.logistic 回归模型-方法与应用[M].北京:高等教育出版社, 2001: 35-110.
[16] 何晓群.多元统计分析[M] .北京:中国人民大学出版社, 2015: 15-56.
[17] 楊贵军.应用抽样技术[M] .北京:中国统计出版社,2017:23-116.
(责任编辑:李 丽,范 君)