APP下载

基于电商评价数据的农产品用户画像分析

2019-02-12李勇谭小玲陈晓婷管慧

农村经济与科技 2019年19期
关键词:文本挖掘用户画像数据分析

李勇 谭小玲 陈晓婷 管慧

[摘要]通过构建安化黑茶产品的用户画像,分析其用户群体的消费行为特征,可为商家提供多维度的产品用户信息,便于商家了解用户,进而改进产品与服务,为安化黑茶电商营销策略提供决策依据。以京东、天猫、淘宝三大电商平台为基础,使用python的scrapy第三方库采集淘宝、京东电商平台安华黑茶的评价数据,并对数据进行清洗、去空值、去停用词等预处理,运用jieba第三方库对评论数据进行分词、词频分析,完成对安化黑茶用户特征的完整刻画。结合客户评论数据分析,可知安化黑茶近3/4用户为男性;山东省为安化黑茶网购大省;网购渠道依次为淘宝、京东、天猫;关注安化黑茶的人更喜欢教育、汽车服饰、综艺等;消费者对安化黑茶诉求如“减肥”、“抗衰老”、“降血脂”等比例升高。

[关键词]用户画像;安化黑茶;电商营销;数据分析;文本挖掘

[中图分类号]F724.6;F323.7 [文献标识码]A

1 引言

近年来,电子商务发展迅速。湖南安华黑茶借助电商平台的便捷化优势,拓展了线上营销渠道,其线上电商平台的商品评论区也逐渐成为消费者发表商品诉求的交流平台。因此可以通过获取用户的评论数据,来挖掘用户的需求,以此帮助湖南安化黑茶提升品牌价值、增强市场竞争力。而大数据环境下的用户画像分析是近年来深度挖掘用户需求的重要方法。国内外学者不断关注用户画像方面的研究,其中用户画像精准营销是当前研究的热点。

用户画像这一概念最早由交互设计之父Alan Cooper提出,其认为用户画像是真实用户的虚拟代表是建立在真实数据之上的目标用户模型。Teixeira C、Pinto J S、Martins J A等国外研究者认为用户画像是一个独立的描述用户需求、偏好和兴趣的模型,是从海量数据中提炼的个人信息的数据集合。中国科学技术信息研究所信息资源中心主任曾建勋认为,用户画像是指获取用户的专业背景、文化程度、知识获取习惯、兴趣偏好、特长任务等与用户需求趋向相关的信息,以此为基础进行模型化表示,为用户制定特定标签。虽然研究者对用户画像的概念表述存在一定差异,但研究者一致认同用户画像是面向用户展开的基于真实数据进行的研究。ZorattiS等提出了如何利用数据挖掘事物间的关联性并应用到精准营销中;KennedyDS从移动互联网的角度提出精准营销的具体实施方法;ZhenY等提出了精准营销的决策框架,通过识别不同类别客户之间的潜在特征,提出适当的精准营销策略。用户画像技术还逐步涉及个性化搜索、城市计算、预测用户年龄、兴趣爱好、性别、地理位置等。用户画像有两个层次的定义。第一种是从产品设计、运营过程中从用户群体中抽象出来的典型用户,能够表达用户群体的主要需求和期望。第二种是基于特定使用情境下真实的用户行为数据所形成的描述用户属性及其行为的标签集合。第二种层次的用户画像更具有真实性以及较强的时效性。

近几年,关于用户画像精准营销的决策框架的研究越来越多,但涉及具体案例及具体应用的研究较少,因此,本文构建用户画像是针对第二层次,根据客户的评价数据,抓住其需求特征,进行用户画像分析与可视化的构建,为企业确定目标客户,制定精准的营销方式、迎合不同消费者的需求提供依据。研究内容包括两部分,第一部分是通过获取用户的评论数据来搜集用户属性信息,将属性信息标签化以便对用户进行画像。第二部分是基于用户画像挖掘消费者对于安化黑茶的需求,实现对企业精准营销方式的进一步完善。

2 客戶评价数据的采集与处理

构建用户画像,应从用户留在网络上的“数据足迹”的采集、整理与归类开始。用户发表评论的时间、内容属性、追加评论、评论图片是用户数据采集的主要来源,采集数据之后需要对用户数据进行有效过滤,去除无效、杂乱数据,过滤之后对海量的用户评论数据进行清洗、分词、词频分析等处理,发现其中隐含的有价值的信息,再通过文本处理工具与情感分析工具构建用户画像,主要从用户特征、购买渠道、地域分布、关联产品这几个方面进行可视化呈现,具体如图1所示。

2.1 客户评价数据采集

据公开资料显示,中国网民已经达6.88亿,其中90.1%的通过手机上网,手机网民达6.2亿,超过70%网购消费发生在移动端,电商网络逐渐成为主流。而在众多电商平台中,天猫、淘宝电商平台年度活跃用户达5.76亿,天猫商家店铺数量达23万,淘宝商家店铺数量达1000万;京东电商平台年度活跃用户达4.18亿,已注册京东商城的商家超过20万。

据此,本文以淘宝、京东为数据采集对象,使用python的scrapy第三方库爬取对淘宝、天猫、京东有关安化黑茶的客户评论数据。由于淘宝、京东平台上的安化黑茶商家众多且经营商品复杂,不利于后期数据分析工作。因此本文根据店铺的好评率、收藏人数、经营年数将天猫、淘宝店铺分成“金色皇冠”商家、“蓝色皇冠”商家、“蓝色钻石”商家并从这三类商家中分别选取三个最有影响力的商家,从京东旗舰店、自营店、第三方卖家三类商家中分别选取三个最有影响力的商家,选取这六个店铺的客户评价作为数据样本,具体店铺选取情况如表1所示。

将以上三家天猫、淘宝店铺的安化黑茶客户评价作为关键词,采集客户评价数据并将数据采集结果保存至Excel表格中。本文共采集了10个字段,主要涉及电商消费者发布的评价内容及时间等,共采集到13571条数据,数据采集结果如图2所示。将采集的三家京东店铺的安华黑茶客户评价数据保存至Excel表中,共采集到12037条数据,局部数据采集结果如图2所示。

2.2 客户评价数据预处理

通过本次研究的客户对于安化黑茶的评价,对应的客户对于安化黑茶的喜好程度与改善建议,从而对安化黑茶的客户做用户画像,因此只有客户评价内容不为空才对本次研究有意义,所以将数据中空字段评论过滤掉。同时,用户的评论列表里可能存在部分过短的评论信息,经过调查研究,发现8个字以上的评论信息为有效的评论信息,故以此清洗掉少于8个字的用户评论,最终得到天猫、淘宝有效评论数据12065条,京东有效评论数据10087条数据。

5 结语

本文以大数据背景下安化黑茶的用户画像为研究对象,通过python对天猫、淘宝、京东三大电商平台进行数据采集,对三大电商平台的不同等级安化黑茶店铺的客户评价进行文本挖掘与分析,再通过构建用户画像对不同的消费者进行消费行为可视化,在此基础上进行用户画像分析。从多维度对用户的潜在需求进行精确画像,不断提升营销与推广的精准性,不断为发展安化黑茶业务和改善公司形象、为大数据时代安化黑茶企业的发展降本增收。

[参考文献]

[1] 张小可,沈文明,杜翠凤.贝叶斯网络在用户画像构建中的研究[J].移动通信,2016(22):22-26.

[2] Teixeira C, Pinto J S, Martins J A. User Profiles in organizational Environment [c]. funchal, Madeira, Portugal: the Fourth International Conference on Web Information Systems and Technologis,2008:329-332.

[3] 曾建勋.精准服务需要用户画像[J].数字图书馆论坛,2017(12):1.

[4] Zoratti S, Gallagher L. Precision Marketing: Maximizing Revenue Through Relevance[M]. Kogan Page,2012.

[5] Kennedy D S. The Ultimate Marketing Plan: Target Your Audience! Get Out Your Message! Build Your Brand! [M]. Adams Media,2014.

[6] Zhen Y, Si Y, Zhang D, et al. A decision-making framework for precision marketing[J]. Expert Systems with Applications,2015(7):3357-3367.

[7] Luo F, Wang J Z, Promislow E. Exploring local community structures in large net-works[J]. Web Intelligence and Agent Systems: An International Journal,2008(4):387-400.

[8] Yuan N J, Zhang F, Lian D, et al. We know how you live: exploring the spectrum of urban lifestyles[A]. Proceedings of the first ACM conference on Online social networks[C].ACM, 2013:3-14.

[9] Rosenthal S, McKeown K. Age prediction in blogs: A study of style, content, and online behavior in pre-and post-social media generations[A]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies[C]. Association for Computational Linguistics, 2011:763-772.

[10] Chaabane A, Acs G, Kaafar M A. You are what you like! information leakage through users interests[A]. Proceedings of the 19th Annual Network & Distributed System Security Symposium (NDSS) [C].Citeseer, 2012.

[11] Liu W, Ruths D. Whats in a name? using first names as features for gender inference in twitter[A]. AAAI spring Symposium: Analyzing Microtext[C].2013.

[12] Burger J D, Henderson J, Kim G, et al. Discriminating gender on twitter[A]. Proceedings of the Conference on Empirical Methods in Natural Language Processing[C].Association for Computational Linguistics, 2011:1301-1309.

[13] Chen J, Liu Y, Zou M. Home location profiling for users in social media[J]. Information & Management,2016(1):135-143.

[14] Jurgens D. Thats what friends are for: Inferring location in online social media platforms based on social relationships[A].  Proceedings of the 7th International Conference on Weblogs and Social Media [C].JCWSM, 2013:273-282.

[15] Li R, Wang S, Deng H, et al. Towards social user profiling: Unified and discriminative influence model for inferring home locations[A]. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[C]. ACM, 2012:1023-1031.

[16] 張海涛,崔阳,王丹,等.基于概念格的在线健康社区用户画像研究[J].情报学报,2018,37(09):912-922.

猜你喜欢

文本挖掘用户画像数据分析
把声音的魅力发挥到极致
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
移动用户画像构建研究
从《远程教育》35年载文看远程教育研究趋势
基于微博的大数据用户画像与精准营销
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
慧眼识璞玉,妙手炼浑金
移动互联网下手机用户使用行为特征的研究