基于Apriori算法的手机APP和广告投入分析
2021-04-08夏静文柳炳祥罗灿飞
夏静文 柳炳祥 罗灿飞
[摘 要]智能手机已经融入绝大多数人的生活中,人们的社交活动、学习教育、购买支付、休闲娱乐等活动都离不开智能手机的辅助。据艾瑞数据统计,国内互联网活跃设备已超过9亿个,面对如此巨大的消费群体,近年来各类手机APP应运而生,下载量和使用次数呈指数级增长,同时吸引了诸多广告商在APP上进行产品推广。本文基于Apriori算法对月度移动设备类型、手机同类型APP的月度使用次数在所有类别APP占比、APP月度广告投入指数3個大类29项指标展开强关联挖掘,从而得到用户对不同类型APP使用频率和商家广告投入指数的联系,并提出相关建议。
[关键词]Apriori算法;手机APP;广告投入
0 引 言
当前,国内手机用户数量已超过15亿,月度活跃设备数量超过9亿个,智能设备和移动网络的飞跃式发展,直接带动了手机APP下载量和使用率的突飞猛进,各种APP在人们的日常生活普遍应用,包括新闻资讯、便捷生活、学习教育、金融理财、网络购物、音频影视等。因此,各行各业的商家开始把APP作为推广和销售自家产品的主战场之一。在该形势下,研究不同移动设备机型、各类型APP实际使用率以及商家投放广告之间的关联度,有利于挖掘APP和广告投放之间潜在的联系,以优化配置资源,精准定位,充分挖掘潜在客户群,实现品牌效应和经济效益最大化。
1 Apriori关联规则算法
1.1 数据挖掘技术
数据挖掘是对大量的、随机的、不同种类的数据,利用相应的算法处理和智能分析方式挖掘数据之间的潜在联系,从中提取有价值的信息。该技术实现了对数据的深层次探索,打破了传统数据处理模式中的瓶颈,减少了分析结果的主观性。数据挖掘技术把海量数据传递的深层次联系以智能化、客观化的方式展现出来,提高了企业的数据利用率,在多领域加强了跨行业的交流和融合。
1.2 Apriori算法
Apriori是经典的数据挖掘方法,主要通过生成候选集挖掘关联规则的频繁项集。假设有集合I={i1,i2,…,in},I是集合,它的n个元素im的集合为项集,项集的总长度即为D,该集合的元素总个数,长度为k的项集称为k-项集。如I={饼干,啤酒,毛巾,尿布},则项集长度为4。每个事务T是项集I的子集,所有事务构成的数据库记作D,|D|表示事务的总个数。
Apriori有两个重要的概念,即支持度和置信度。假设现存在项集X,X的事务总量在D中占有的比例即为X的支持度,一般记为SUP,公式如下.
2 基于Apriori算法的手机APP和广告投入
2.1 数据预处理
在数据预处理阶段,首先从艾瑞数据网上筛选下载相关数据,删除异常数据并将原始数据转化为Python工具能够解读的表格形式。在Apriori算法中导入待处理的Excel,并把最终关联结果以表格形式输出。在艾瑞数据统计平台上选取2019年7月至2020年6月共12个月份的月度数据,分为3个大类29项指标共300余项数据进行挖掘。第一类:移动设备指数,网络当前活跃的设备机型在总移动设备数量中所占比例,IOS和安卓占比之和为1,即IOS设备、安卓设备、华为设备数量占比3项指标。第二类:同类型APP月度使用次数在所有APP中的占比;即综合资讯、电子商务、金融理财、学习教育、美食外卖、女性亲子、视频服务、健康医疗、汽车服务、音乐音频、便捷生活共11项指标。第三类:APP每月平均广告投入指数,即某类型单个广告商家投入数额/该类别全部广告商家投入指数,包括IT产品、家电、食品饮料、通信服务、化妆浴室用品、医疗服务、金融服务、个人用品、教育出国、服饰、网络服务、房地产、家居装饰、娱乐休闲、零售服务共15项指标。预处理后的数据,用数字0和5代表月度数据的减少或增加,2代表本月数据和上月相同,无变化。由于数据较多,表1仅为部分(2020年2月至2020年6月)处理后数据。
2.2 关联结果
算法主要完成的工作包括两部分:生成频繁项集和关联规则。在初始化部分先获取项集的总长度,遍历搜索并计数标准项集;在获取关联规则时,依据最小支持度先找出频繁项集,并在此基础上生成满足最小置信度的强关联规则,并不断调整最小支持度和置信度,最终筛选并输出有数据价值的APP类型以及广告投入指数类型的强关联联系。
2.2.1 指标概念阐述
实验采取指标按类别区分,范围较大,通过对关联结果中的各个类别进行解释说明,方便研究人员理解。①金融理财APP:支付宝以及工商、农业等各家银行APP;②电子商务APP:淘宝、京东、天猫、唯品会、闲鱼等;③音乐音频APP:QQ音乐、网易云音乐、全民K歌、喜马拉雅等;④女性亲子APP:亲子育儿、儿童教育等;⑤视频服务APP:爱奇艺、芒果、抖音等;⑥健康医疗APP:keep、健康运动、在线医疗等;⑦便捷生活APP:墨迹天气、小米天气、中华万年历等;⑧家电类广告:戴森、南孚电池、SKG、美的、科沃、格力、西门子等;⑨零售服务类广告:肯德基、麦当劳、必胜客、家乐福、婚礼纪、超市、银泰百货等;⑩食品饮料类广告:伊利、百事、康师傅、可乐、美汁源、蒙牛、统一等;家居装饰类广告:宜家、方太、红星家具、立邦等。
2.2.2 得到的关联规则
算法处理后提取9个有参考价值的关联结果,其中SUPmin设置为0.5,CONFmin设置为0.7,具体关联规则如表2所示。
2.3 结果分析
①电商是家电产品销售竞争的一大主场,家电产品广告投入增加同步带动电商平台发展。由关联规则1结合相关参考文献可知,家电商家跨界和专业电商战略合作、入驻电商平台、品牌整合、协同发展、建立家电产业链、充分挖掘消费者感性诉求和功能性需求具有重要参考和借鉴意义。②由关联规则2和3结合相关参考文献可知,有利于推动零售服务类行业和音乐音频软件深度合作,比如,融合了某风格音乐的肯德基等快餐类零售、银泰百货等零售和服务商品在音乐APP给用户定向推送,服务零售商家线上线下店铺向用户实施某音频APP的捆绑和优惠,双向稳固顾客市场基础、扩大市场份额、培养消费者品牌忠诚度,甚至顺应符合国内市场的理念。③便捷生活主要是天气、日历类APP,由关联规则4、5和6可得,金融理财类APP和电商APP,如支付宝、各类银行APP、天猫等可考虑把更多主打产品、广告投入市场中,利用天气、日历等手机用户必备软件增大曝光度和访问量;对于金融理财类APP,生活化、消费者基数庞大的食品饮料类商家也是很好的市场渠道。④国内知名视频服务APP,如芒果TV、爱奇艺等,比较缺乏主打亲子、儿童教育等题材的栏目,结合当代对于亲子关系、儿童教育高水准的质量要求,关联规则7和8对于拓宽视频APP发展渠道提供了新思路,也帮助APP开发者挖掘新的潜在客户群体。⑤由关联规则9可知,高水平的物质生活增加了人们对健康生活的需求,未来家居装饰行业绿色健康环保的消费观会逐渐得到消费者推崇,该行业可逐步对绿色环保家居装饰产品进行资金、技术上的倾斜,生产无污染、危害小、无醛产品,及早占据健康环保这一巨大、不可估量的家居装饰市场。
主要参考文献
[1]柳炳祥,汤可宗.数据挖掘方法及应用[M].上海:上海交通大学出版社,2016:12-30.
[2]李景丽.基于Apriori算法的国家经济数据分析[J].产业创新研究,2020(7):16-17.
[3]张鸿雁.基于Apriori算法的校园教学质量评价系统设计[J].电子技术与软件工程,2019(18):188-189.
[4]杜永兴,高迪,李宝山,秦岭.改进Apriori算法在荒漠草原的应用[J].计算机工程与设计,2019(7):2082-2086,2093.
[5]陈稼瑜,赖俊明.新零售服务供应链线下电商服务整合提升研究
[J].科技管理研究,2019(23):219-226.
[6]冯爽玲,牟宗玉.消费者偏好和零售服务下双渠道闭环供应链决策及协调研究[J].青岛大学学报:自然科学版,2020(1):103-113.