APP下载

基于在线社交数据的消费偏好识别与分析

2018-03-26李雪茹高洋

商业经济研究 2018年5期
关键词:数据挖掘

李雪茹 高洋

基金项目:2016年西安外国语大学研究生科研基金项目(syjs201656)

中图分类号:F724 文献标识码:A

内容摘要:消费偏好一直是营销管理研究与实践的热点问题。“互联网+”的实施与自媒体平台的普及,使得消费者需求与偏好在传统研究模式下变得难以预测。本文首先对现有研究进行梳理与总结,重点从顾客识别模型构建与消费偏好研究两个方面进行;其次,利用数据挖掘技术获取顾客的在线社交数据,从而构建顾客识别模型;再次,在顾客识别模型的基础上,提出运用文本特征提取方法、抗噪声聚类算法及语义分析法挖掘数据并对偏好进行识别与分析的思路;最后,对本文进行总结,并提出对未来进一步研究的展望。

关键词:在线社交数据 数据挖掘 消费偏好 顾客识别模型

引言

大数据时代的今天,通过数据挖掘技术获取线上用户的行为数据并进行分类整合,同时结合用户信息,便可得到更具体的顾客形象,这样的全样本不仅可以客观反映其消费行为特点,在一定程度上还可关联推测其消费行为倾向。

基于此,本文利用数据挖掘技术对顾客自媒体平台中的社交数据进行挖掘、整合并构建顾客識别模型,进而对消费偏好进行挖掘与识别,并提出利用文本特征提取方法、抗噪声聚类算法及语义分析法等对消费偏好进行归类总结并探究其变化规律的研究思路与建议。

顾客识别模型构建相关研究

构建顾客识别模型的关键就是数据选择,最客观的数据才能构建出识别能力最强的模型。目前构建顾客识别模型的研究中数据来源分为两类:问卷数据与数据库数据。通过问卷获取数据的研究是一种较为传统的方式且研究年限较早,在顾客价值识别研究方面较多,如:利用调查问卷和上市公司数据,构建基于BP神经网络的顾客价值识别模型,进而分析顾客价值同企业利润之间的关系(金代志、王春霞、石春生,2009)。通过问卷调查的方式对目标市场顾客需求进行识别并构建模型(刘书庆、苏秦、王志强,2011)。近年来利用数据库数据进行研究的文献逐渐增多,多是使用数据挖掘技术从以往生产、经营、销售等环节构成的数据库中挖掘顾客需求数据,并建立解决实际问题的识别模型。如:采用决策树和Logistic算法对移动飞信业务顾客数据库进行挖掘并建立客户预测模型(孔勤,2009)。通过数据挖掘技术挖掘超市顾客数据库,建立忠诚度-盈利性顾客细分模型,识别不同类型的顾客群,预测顾客价值变化规律(肖生苓、牟娌娜等,2011)。以三枪集团营销数据为对象,利用“用户画像”数据库挖掘建立精准营销细分模型,重构消费者需求、精准识别并定位消费者群体(刘海、卢慧等,2015)。

此类数据改进了问卷数据较为主观以及样本量不足的缺点,但此类数据仍有局限,顾客产生消费行为的驱动因素多样,主观因素与客观因素并存,确定顾客属性时选用由顾客主观能动因素导致的消费行为数据为最佳,从而准确分析顾客属性,因此仅通过既定的消费行为反推顾客属性是不客观的,无法全面掌握顾客真实属性。因此,本文采用数据挖掘技术,挖掘个体线上自媒体平台中的社交数据,从个体无意识的社交语言中挖掘其个人属性及偏好。

消费偏好识别与分析相关研究

随着各种信息采集终端的出现,线上和线下交易所产生的海量数据被保存在企业数据库中,作为对消费者偏好进行分析的源数据。由于数据量巨大,因此数据挖掘成为基于数据库数据提取对消费者偏好进行识别与分析的主要方法(刘军,2012)。从数据挖掘的角度,方法分为两类:有监督的数据挖掘方法和无监督的数据挖掘方法。

(一)有监督的数据挖掘方法

常见的有监督的数据挖掘方法有Logit分析方法与决策树分析方法。标准Logit模型和混合Logit模型的区别在于前者的假设前提忽略了消费者之间的差异,后者利用系数随机误差表示个体间偏好差异,利用消费者的决策行为进行建模,用系数体现消费者偏好(杨勇攀等,2009)。决策树分析法对离散型数据有更好的处理效果(Micheline,2010),吴留平(2011)基于ID3的决策树分类算法构建了服装款式偏好模型,将客户款式偏好问题转化为决策树的归纳问题。

(二)无监督的数据挖掘方法

常见的无监督的数据挖掘方法有关联规则与聚类。前者是最基本的分析方法,传统的关联规则的前提是消费者偏好固定不变,研究主体是商品,因此以消费者为主体的双向关联规则方法被提出(曾令明等,2005;Du,2010)。该方法虽然提高了准确度,但数据未考虑购买行为以外的数据,此类数据只能通过GPS、红外感应器等构成的电商物联网智能,对购前、购买、购后三个过程的所有信息进行获取(刘枚莲等,2013),因此双向关联规则更适合分析基于电商数据的消费者偏好情况。聚类分析最能体现数据挖掘中无监督方法的特点,可以从消费者数据库中区分出不同消费群体,并概括出每一类消费者的消费模式或习惯偏好(刘远超,2005),但也存在很多不足,特别是对现实数据的分析中,难以确定输入的参数值(王纵虎,2012;祁小丽,2009;刘鑫朝,2006),参数值的细微变化导致消费者偏好的聚类结果变动幅度过大,只依靠全局参数的聚类算法无法很好地刻画真实的消费者偏好结构。

综上所述,在大数据背景下利用数据挖掘技术识别和分析消费偏好已成为主流,对全样本进行研究已是现代营销研究的趋势,而数据挖掘技术正是获得全样本的方法,引入数据挖掘技术既能创新研究形式,又能优化研究结果。目前消费者偏好研究都集中在对各种偏好表现形式的描述和分类上,并以认为顾客会在一定时期内保持和带有这种偏好特征进行消费活动为前提,很少关注偏好自身的属性和变化规律。因此,本文考虑到新兴电子商务市场在线顾客偏好的多变性,选用数据挖掘技术对顾客日常无意识状态下在自媒体平台上的社交数据进行收集处理,从日常行为入手挖掘顾客属性,还原顾客形象,用数据描述顾客,并进行消费偏好的研究。这类数据是动态、全面、实时的,因此所构建的顾客识别模型是动态的,研究也更全面,避免了既定数据库所带来的局限性。同时,结合互联网特征,在对消费偏好进行研究时会重点结合网络舆情相关内容,总结影响消费行为偏好的因素,并提出依此对消费行为偏好进行研究的思路。

基于数据挖掘技术的消费偏好识别与分析

(一)构建顾客识别模型

本文所构建的顾客偏好识别模型是利用数据挖掘技术对自媒体平台上顾客基本信息以及在线行为数据进行搜集、整理和分析,从而根据消费特征等指标对顾客进行识别与锁定。

个体顾客识别数据库构建。构架顾客识别模型时,首要步骤就是对个体顾客(原始目标)行为特征数据进行挖掘,形成基础标签,即构建个体顾客识别数据库。通过对前期学者研究的学习和整理,本文参考了赵曙光(2014)在对高转化率的社交媒体进行画像时提出的五个维度与刘海等(2015)在研究精准营销时构建的“消费者图谱”,在“4C”理论的基础上,结合本文所使用的数据特征,提出个体顾客识别数据库构建的框架,主要包含顾客基本信息与线上行为数据两个方面,如图1所示。

社群研究。社群研究是在个体顾客识别数据库构建的基础上进行的,以确定的个体为基点进行横向、纵向的社群研究。该步骤使顾客识别模型更加全面,通过个体顾客辐射其朋友、家人、同事等,以每一位个体顾客作为圆心构成一个社群,多个社群相交便能够获得使个体更加全面的标签。

横向研究是对与原始目标相关联的人员(如频繁互动的个体、有明确分组的用户)进行锁定并挖掘其自媒体平台上的社交数据,丰富原始目标的基础标签,从不同纬度、粒度进行描述;随着社交软件的普及,个体对于社交软件的使用已多样化,为了区分工作與生活,会在同一个社交软件上申请多个账户,因此纵向研究就是针对原始目标不同社交账号的数据进行挖掘,包括同一平台上的不同账号和不同平台上的账号(默认个体在不同自媒体平台上最多只有两个账号),可以依据登录设备或登录IP进行综合识别。

上文中引入社会网络分析法,该方法是一种定量方法,对社会网络进行形式化描述。社会网络由多个节点和多个连线的集合构成,每一个节点表示一个个体(原始目标),连线表明关系,可以是亲戚、朋友、同事,甚至是具有相同商品喜好的陌生人,个体通过关系相连接最终形成社会网络,彼此标签共享互相参考,便形成每一个立体的用户。原始目标就居于该社会网络的核心位置,相比较其他顾客有更多联系,在线活跃度越高的用户,其所处的社会网络就越大、越复杂,从而获得的顾客信息就会越全面。社会网络结构如图2所示。

通过以上由点及面、横纵结合的研究便形成了立体全面的顾客识别模型,具体模型如图3所示。

(二)识别与分析偏好

在顾客识别模型的基础上挖掘与消费偏好相关的数据,对消费偏好进行识别与分析研究,步骤及方法如下:

第一,基于在线社交数据的顾客消费兴趣挖掘。对于顾客兴趣的发现,在网络顾客参与信息传播的过程中,在不同的时间将呈现出不同的兴趣关注内容,这种现象可称为兴趣的动态迁移。首先分析作为顾客兴趣的特征项在动态迁移过程中的特点,提出文本特征提取方法,在此基础上采用有限混合概率模型,研究顾客兴趣的识别方法以及对新出现兴趣内容的归并方法。

网络顾客是信息传播的主体,具有较大中心性的顾客在信息传播中起着至关重要的作用。前期预研发现在线社会网络中具有较大连接度的顾客节点有助于将信息传播给更多顾客,具有较大介数的顾客节点有助于扩大信息传播范围,具有较大聚集性的顾客节点有助于信息的局部传播,节点连接的正负属性可影响信息传播路径的选择。基于这些结构属性,可挑选出具有不同中心性的重要顾客节点,从而为建立特定类型顾客行为模型提供重要的顾客属性。

第二,基于在线社交数据的顾客消费行为模式挖掘。在线社会网络中,由于特定类型顾客节点的角色、关注兴趣等因素相似,使得一些顾客节点子集的行为模式具有一定趋同性。因此在大规模顾客节点行为数据的基础上,基于顾客节点行为模式的趋同性和行为特征的相似性,采用抗噪声聚类算法分析顾客节点全集,得到若干具有相似行为模式的顾客节点子集,进一步选取频繁项关联规则挖掘算法分析某顾客节点子集,可得到子集顾客的主要行为模式。

第三,基于顾客消费行为模式的顾客偏好识别与分析。通过语义分析将在线社交媒体中获得的顾客兴趣与行为数据,以及其他类型数据源中获得的顾客消费行为倾向数据,按照时间顺序将不同类型消费行为变化发展过程记录并构成一个时间序列,基于空间重构,将测量值构造成为一组多维动态向量。时间序列中差异较大的部分意味着在原始数据中所包含的消费行为倾向变化较大,因此通过此分析能够识别消费行为倾向的迁移,并且由于引入了在线社会网络等新型数据,一些基于传统问卷调查发布的消费行为数据所体现不出的变化也能够被识别,从而使得识别结果更为准确、完善。为了从各类消费行为倾向因素中筛选得到对消费行为造成最大影响的主因素,采取多元逐步回归方法进行因素选择。由于多维动态向量中差异较大的部分对应的消费行为倾向变化也较大,因此基于多维动态向量可提出消费行为倾向的迁移识别方法。

结论与展望

基于现有研究与理论,本文首先提出利用自媒体平台上顾客社交行为数据构建顾客识别模型的步骤:一是构建个体顾客识别数据库,建立个体顾客基础标签;二是以个体顾客为基点从横纵两方向构建社群,通过社群研究扩充顾客标签;三是提出基于以上的识别模型,用数据挖掘进行消费偏好识别与分析的思路,引入文本特征提取方法、抗噪声聚类算法、语义分析法等。

目前本文只是提出了基于数据挖掘对偏好识别模型进行构建的方案,以及利用该技术识别与分析消费偏好的相关建议。在后续研究中,可针对具体企业或产品,利用计算机科学领域的数据挖掘技术,获取相关在线社交数据,完成实证研究,将模型量化、验证。

参考文献:

1.金代志,王春霞,石春生.基于BP神经网络的顾客价值识别研究[J].中国软科学,2009

2.刘书庆,苏秦等.科技成果产业化目标市场顾客需求识别与评审模型研究[J].科技进步与对策,2011

3.孔勤.数据挖掘技术在移动增值业务中的应用[D].北京交通大学,2009

4.肖生苓,牟娌娜等.基于数据挖掘技术的超市顾客群研究[J].资源开发与市场,2011

5.刘军.数据挖掘在读者阅读需求偏好研究中的应用[J].图书馆论坛,2012(3)

6.杨勇攀等.基于混合Logit模型的消费者偏好测量研究[J].生产力研究,2009(2)

7.吴留平.服装款式定制辅助系统研究[D].西安工程大学,2011

8.曾令明等.双向关联规则挖掘及其相关性分析[J].计算机工程与设计,2005,26(10)

9.刘枚莲等.基于双向关联规则的网络消费者偏好挖掘研究[J].微电子学与计算机,2013(3)

10.刘远超等.基于聚类分析策略的用户偏好挖掘[J].计算机应用研究,2005(12)

11.王纵虎.聚类分析优化关键技术研究[D].西安电子科技大学,2012

12.祁小丽.一种改进的快速聚类算法及并行化研究[D].兰州大学,2009

13.刘鑫朝.聚类算法的研究及应用[D].长沙理工大学,2006

14.赵曙光.高转化率的社交媒体用户画像:基于500用户的深访研究[J].新媒体研究,2014

15.刘海,卢慧等.“用户画像”挖掘的精准营销细分模型研究[J].丝绸,2015

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议