APP下载

基于文本挖掘的企业微博评论关注点研究

2016-01-19施国良河海大学商学院南京211100

图书馆理论与实践 2015年8期
关键词:文本挖掘微博

●许 凡,施国良(河海大学商学院,南京211100)

基于文本挖掘的企业微博评论关注点研究

●许凡,施国良(河海大学商学院,南京211100)

[关键词]文本挖掘;微博;微博评论

[摘要]以乐蜂网新浪官方微博为研究对象,利用文本挖掘技术对乐蜂网微博评论进行分析,找出用户的关注点以及对这些关注点进行影响力强弱程度分析,最终提取出29个关注点,为企业了解用户兴趣、需求、能力等提供帮助,给企业在微博营销、建立用户口碑方面提供一些建议,增进企业与用户交流与合作,促进网络资源的挖掘与利用。

目前,很多企业正在使用社会化媒体作为客户服务工具,倾听客户的问题并及时解决。企业不仅对社会化媒体上消费者的声音和市场信息越来越感兴趣,而且将社会化媒体作为有前途的市场营销策略应用工具之一。[1]据新浪微博与CIC联合发布的《2012企业微博白皮书》显示,截至2012年2月底,共有130565家企业开通新浪微博。其中,包括143家世界500强企业,207家中国500强企业,1060家外国企业等。[2]微博等社交媒体的出现和流行,使客户能更加积极主动地获取和传播有关产品和服务的评价信息,[3]也为企业提供及时获取可靠产品评论的新渠道。因此,企业将微博作为一个平台,拉近与用户的距离,进行更多的互动交流,企业利用微博评论进行分析,帮助企业更好地了解用户需求,发现自身优势劣势,更好地对抗竞争对手,赢得市场。

1 研究现状

关于微博评论,国外学者对这方面的研究较多。Sotiriadis[4]等人以Twitter为例,运用概念模型描述了旅游消费者如何利用评论进行旅游决策,并检验了其对旅游决策的影响;Mimi Zhang[5]等人研究了企业如何通过口碑交流平台(Twitter)实现企业与消费者之间的互动,得出了企业在Twitter上的参与程度会直接与消费者在线口碑交易参与相关的结果。Jansen, B[6]等人研究了在Twitter上的口碑传播,发现大约有五分之一的推文包含品牌、产品或服务,约有五分之一是表达某种情绪,积极情绪超过一半,消极情绪的推文仅占三分之一。他们认为Twitter是一个能为企业开拓其整体品牌战略的潜在平台,是能够关注经济和竞争情报来源的关键应用程序。微博作为社会化媒体的一种形式,拥有海量的数量,从中挖掘出有价值的信

息,需要信息技术和社会学方法的支撑。

2 企业微博评论的特征

微博评论是中文微博非常重要的特点之一,它与微博转发共同组成评价热点主题的两个重要指标。[7]微博评论与一般网络评论的主要区别在于,网络评论仅仅是消费者针对产品本身发表自己的观点、看法,而微博评论涉及方面更广,针对企业微博评论而言,可能会包含用户对企业活动、产品、物流、竞争对手等方面评价,但具体涉及哪些方面,需要通过后面的实验进行探究。

(1)同一评论包含多方面评价。同一条评论下会涉及与企业相关的多个方面进行评价,如:“晒单啦,甩不掉的4D面膜,最爱的保加利亚玫瑰三件套,眼毛膏用的是倩碧的,刚到货就涂上了,嘻嘻,快递很给力,很喜欢,包装也好赞。”在这条评论中,“晒单”属于企业微博活动,“4D面膜”、“保加利亚玫瑰三件套”、“倩碧”属于品牌,评论内容涉及“活动”、“品牌”、“快递”、“包装”这几个方面。因此,在对此类微博评论进行处理的时候,需要将同一评论中所涉及的特征按特征分类提取,而不是将所有特征作为一个整体进行提取。

(2)微博评论观点明确。微博评论的观点倾向很明确,一般而言,用户会通过微博评论表达自己的主观感受。因此,评论观点中涉及的评价会有明确的情绪倾向。比如,好评或者差评、积极情绪或消极情绪。如上一例子中,“甩不掉”、“最爱”、“嘻嘻”、“很给力”、“很喜欢”、“好赞”这些极性词都反映了用户的积极情绪,整体评价是好评。当然,一条评论中也会涉及多种情绪,在本文中将用户在微博评论中使用的极性词分为:好评、中评、差评。

(3)评论中隐藏特征。在微博评论中不会明确提出评价的具体特征,但是通过评论内容可以确定评价特征。如:“刚用静佳的东西没多久,但是真心觉得不错,包装漂亮而且效果也很好。”其中,“东西不错”并没有明确提到是什么特征,但通过理解可以当作是对产品“整体”评价,像这类评论往往只有观点极性词。因此,在处理这类微博评论的时候需要为评论添加默认的特征,不能忽略这样的评论。

(4)评论中咨询问题。微博评论中会出现用户向企业客服提出各种方面的疑问,这是企业与用户之间进行互动,用户将问题表达在微博评论中,等待企业客户去解答。如:“乐蜂网,想请问一下,25岁,眼周围有细纹,用什么眼霜比较好呢?谢谢”这条评论中包含用户对“美妆护肤品”的咨询。

(5)评论中有企业客服代表与用户的互动。微博评论中不仅有用户的评论,还有企业客服代表的回复,企业客服代表会根据用户提出的疑问有选择性地作回应,这就是企业与用户的互动行为,同时,也是微博评论与一般网络评论的区别之一。如:“亲爱滴蜂宝贝~实在是抱歉了,因为小蜜蜂家最近的活动太给力了,导致订单量爆增~所以在配送方面有些延迟~还请宝贝多多谅解~不过宝贝放心,小蜜蜂已经在加快速度打包发货了。”这条评论是由于用户在微博评论里反映物流太慢,企业客服作出相应的回复。

3 研究设计

3.1研究对象选择

选择乐蜂网企业官方微博评论数据为研究对象,艾瑞数据[8]显示,2011年乐蜂网的销售额为6.3亿,位居化妆品垂直B2C首位,2012年4月,乐蜂网融资4000万美元,在资本推动下其发展明显加快;乐蜂网基于明星达人和传统媒体资源优势,定位于服务化专业平台。乐蜂网除了兼有成熟品牌外,自主研发的品牌也占有很大比例。因此,以乐蜂网微博评论作为研究对象,对同行业的其他电商品牌更有指导意义。

3.2研究时间选取

利用Google Trends决定研究时间的选取。将“乐蜂网”输入到Google Trends,搜索2013年全年热度关键词随时间变化趋势,可以明显看出,3月份左右达到最高峰,可见3月份是最活跃时期,进一步推断3月份是化妆品电商行业最忙碌的月份。因此,将采集2013年3月1日至2013年3月31日期间乐蜂网新浪官方微博的微博评论作为分析数据。

3.3数据来源

实验数据来自乐蜂网新浪官方微博数据,利用火狐浏览器的两个插件metastudio和datascaper来爬取新浪微博数据,共抽取2013年3月1日至3月31日的微博评论2108条。评论采集结束后,并不能直接用于分析,还需要对采集的评论进行进一步处理,除去广告评论、重复评论和无效评论共121条,预处理后最终确定1987条微博评论用于后续分析。

3.4实验过程

(1)中文分词。中文分词的目的是为了后续更好地进行观点提取,本研究采用中科院开发的ICTCLAS系统[9]进行中文分词处理,通过ICTCLAS对评论进行分词,将分词结果保存至TXT文本。

(2)特征提取。特征提取在本文中就是指关注点的提取,由于微博评论涉及方面较广,因此,本文将采用企业网站首页的商品分类提取商品特征。同时,结合波特价值链提取企业活动特征。

表1 部分极性词

(3)极性词提取。极性词提取是指提取评论中表达用户观点的词,本文通过人工手动提取极性词,主要包括四种类型,分别是正面词、负面词、否定词和中性词,表1列举了本文提取的部分极性词。

(4)观点提取和倾向性判断。是指提取评论中评论者所表达的观点及确定评论的情感倾向性,最终提取的观点模式为〈(特征词,极性词),观点倾向〉,本文的观点倾向性分为好评、中评和差评。采用GATE软件中的GATE Developer对评论中的特征以及极性词进行标注,根据GATE软件运行结果,参照观点评论提取模式手动提取评论观点,并判断评论倾向性。

(5)统计结果。计算出各类特征的评论总数以及各自的好评数、中评数和差评数。

4 实验结果与讨论分析

4.1实验结果描述

本文最终提取的关注点共有29个,将提取的关注点进行整理后形成表2。

4.2观点强弱程度分析

对以上29个关注点进行强弱程度比较,分析出用户在哪些关注点上关注的程度较高,哪些次之,哪些关注点几乎不影响用户行为。采用观点关注度和观点一致性将关注点分为四种,分别为强关注点、亚关注点、弱关注点和非关注点。

按照实验结果,分别对本文高低关注度、高低一致性和四种关注点进行定义。

定义一:以评论比例作为判断高低关注度的指标,评论比例大于1%属于高关注度,评论比例小于1%则为低关注度。如,以“美妆工具”和“网站体验”两个指标为例,“美妆工具”的评论数量为1,评论比例为0.06%,属于低关注度;“网站体验”的评论数量为30,评论比例为1.76%,属于高关注度。

定义二:以好评、中评和差评比例作为判断高低一致性的指标,这三种比例中只要有其中一项大于80%,即为高一致性,若其中一项小于80%,则为低一致性。以“淘宝”和“效率”两个因素为例,“淘宝”的好评、中评、差评比例分别为75%、25%、0%,因此,“淘宝”为低一致性;“效率”的好评、中评、差评比例分别为86%、14%、0%,因此,效率为高一致性。

表2 关注点的观点倾向性及观点比例

定义三:强关注点是指同时具有高关注度和高一致性,即评论比例大于1%且好评、中评、差评比例只要有其中之一大于80%的关注点。

定义四:亚关注点是指同时具有高关注度和低一致性。即评论比例大于1%且好评、中评、差评比例只要有其中之一小于80%的关注点。

定义五:弱关注点是指同时具有低关注度和高一致性。即评论比例小于1%且好评、中评、差评比例只要有其中之一大于80%的关注点。

定义六:非关注点是指同时具有低关注度和低一致性。即评论比例小于1%且好评、中评、差评比例只要有其中之一小于80%的关注点。

通过对这些关注点进行分析,根据关注点给用户带来的参考意义以及对用户行为产生的影响进行分类,最终结果如表3所示。

表3 关注点分类

4.3分析与讨论

(1)强关注点会对用户行为起决定性作用。很显然,订单和送货都是和用户购买产品的产品配送有关,如果用户在决定购买产品时关注点在订单、送货上,由于差评比例较高,可能会作出放弃购买的决策;如果用户的关注点集中于产品整体、李静、工作人员、价格等,就可能作出购买产品的决定。这里要说明的是李静是乐蜂网的创始人,对于李静的评价全为好评,可见广大用户对乐蜂网的认同感。

(2)亚关注点对用户行为影响仅次于强关注点。虽然亚关注点也能对用户行为起一定的决定作用,但是与强关注点相比而言,影响程度会相对较弱,有时可能会误导用户的决策。亚关注点起决定作用是因为其高关注度,但由于其低一致性的特点使用户不能对一些信息作出明确判断,因此引发的用户行为可能会犹豫。如奖、营销活动、公关活动是趋于差评的,且这些都与企业组织的活动有关。当用户的关注点在这些时,就可能会产生放弃参加活动的决策。竞争行为趋于差评,表明用户对企业进行的竞争行为不满,可能会影响用户对企业的整体评价和看法,进而对企业发表负面评论。售后服务和购物体验趋于差评的,如果用户的关注点集中于此,就可能使用户作出放弃购买产品的决策。彩妆香水是趋于好评的,但是这种好评的倾向性没有强关注点的倾向性强烈,如果用户对此比较关注,可能会对彩妆香水之类的产品产生好感,进而可能会有购买该类产品的决策。在亚关注点中给用户带来最大困扰的是好评和差评倾向比例差不多的。比如上图中的聚美优品,该关注点的好评差评对半分,使用户很难判断该关注点的真实情况,如果用户的关注点在这类上就可能会使用户作出错误决策。

(3)弱关注点对用户行为的影响是比较低的。虽然该类关注点的一致性比例较高,观点倾向性很明显,但是关注度比较低,一般用户很少去关注,同时该类关注点的评论数量也较少。时尚女装倾向于差评,如果用户关注到此因素,可能也不会使用户放弃购买行为,因为弱关注点对用户的参考价值不大,对用户行为的参考意义也不明显。

(4)非关注点对用户行为的影响最小。非关注点的关注度不高,一致性也不高,如果用户关注点在淘宝、包装、瘦身保养上,几乎不会影响用户行为决策,对用户的参考意义也最小。

[参考文献]

[1]丁振国,等.基于序列模式挖掘的社交网络用户行为分析[J].现代情报,2013(3):56-60.

[2]新浪微博与cic联合发布.2012年企业微博白皮书[R].北京:2012.

[3]Henning-Thurau,T.The impact of new media on customer relationships[J].Journal of Service Research, 2010,3(13):311-330.

[4]Sotiriadis M D,van Zyl C.Electronic word-of-mouth and online reviews in tourism services:the use of twitter by tourists[J].Electronic Commerce Research,2013, 1 (31):103-124.

[5]Zhang M,etal.Businessengagementon Twitter:apath analysis[J].Electron Markets,2011,21:161-175.

[6]Jansen B J,et al.Twitter power:Tweets as electronic word of mouth[J].Journal of the American Society for Information Science,2009,11(60):2169-2188.

[7]唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012(24):114-119.

[8]艾瑞咨询.化妆品垂直B2C两强格局形成[EB/OL]. [2013-12-11].http://www.iresearch.com.cn.

[9]中国电子商务研究中心.2011年度中国B2C电子商务市场调查报告[R].杭州:2011.

[收稿日期]2014-10-14 [责任编辑]李金瓯

[作者简介]许凡(1989-),女,河海大学商学院硕士研究生,研究方向:企业竞争情报;施国良(1966-),男,副教授,硕士生导师,河海大学商学院管理科学与信息管理系副主任,研究方向:企业竞争情报。

[文章编号]1005-8214(2015)08-0045-04

[文献标志码]A

[中图分类号]G252.8

猜你喜欢

文本挖掘微博
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
“985工程”高校图书馆阅读推广的调查与分析
事实与流言的博弈
关于高中语文教学中微博的有效运用思考
重大突发事件中微博之力不微
慧眼识璞玉,妙手炼浑金
文本观点挖掘和情感分析的研究