产品在线评论活跃状态演变模式分析
2018-01-15施慧斌李红苗蕊姚忠
施慧斌+李红+苗蕊+姚忠
摘 要:本文建立了产品Web信息活跃状态演化模式。利用隐马尔可夫模型对产品Web信息活跃状态进行建模,分析产品Web信息随时间变化的趋势,最后采用时间序列聚类算法对不同产品对应的Web信息进行聚类,得到产品Web信息活跃状态演变的模式,为厂商和卖家做出科学的营销,提供一定的帮助。
关键词:在线评论; 活跃状态; 广义虚拟经济; 演化模式
中图分类号:F273 文献标识:A 文章编号:1674-9448 (2017) 03-0032-07
The Analysis of the Evolution Patterns of Product Online Review Activeness
SHI Hui-bin LI Hong MIAO Rui YAO Zhong
(1.School of Economics and Management, Beihang University, Beijing 100191, China; 2.School of Management, Shenyang University of Technology, Shenyang 110870, China ; 3. School of Management Science and Engineering, Dongbei University of Finance and Economics, Dalian 116025, China)
Abstract: This paper proposes the evolution patterns of product online review activeness. This paper builds the model of product online review activeness using HMM model. And then analyzes the product online review change trends over time. Finally, chooses time series clustering algorithm to cluster the online reviews of the different products, and gets the product online review activeness evolution patterns. This can help the manufacturers and sellers to make more effective decision of marketing.
Key words: online review, activeness, the generalized virtual economy, evolution pattern
一、引言
廣义虚拟经济学理论已经在多个领域得到应用[1-5]。产品在线评论在一定程度上,可以显示出消费者对该产品的消费热情,通常会随着时间的流逝而发生变化,所以产品在线评论的活跃程度正是消费者(主体)和产品(客体)、产品(物质态)和产品在线评论(信息态)之间的相互作用所产生的二元价值容介态的体现[6,7]。因此,产品在线评论的活跃度及其演化趋势,是产品竞争力和受关注程度的现在及未来状况的直接体现。
如果将一段时间内的产品在线评论在固定时间间隔内处于的活跃状态,可以发现,不同产品在线评论对应图形的形状是有区别的,但从图形的走势上看,可以归类成几种模式。对产品在线评论活跃状态演化模式的分析,可以找出产品所处的生命周期阶段,从而帮助厂商和卖家做出更为科学合理的营销决策。
本文利用隐马尔可夫模型,对产品在线评论活跃状态演变进行建模分析,发现产品在线评论的时间变化趋势,最后采用时间序列聚类算法对不同产品对应的在线评论进行聚类,得到产品在线评论活跃状态演变的模式,并进行了分析。
二、基于隐马尔可夫模型的产品在线评论活跃状态演化建模
隐马尔可夫模型(Hidden Markov Model, HMM)最初是在20世纪60年代后半期Leonard E. Baum和其他一些作者在一系列的统计学论文中提出的[8]。HMM最初的应用之一是开始于20世纪70年代中期的语音识别,随后又广泛应用于生物序列、故障诊断和信息提取等领域[9-13]。
在某一时间段内,产品在线评论数据数量对应着产品在线评论的活跃状态(activeness)。如果这段时间内,产品在线评论数据数量呈现快速增长的趋势,则产品在线评论所处活跃状态的活跃度比较高。本文采用基于隐马尔可夫模型的建模方法对产品在线评论活跃状态进行建模,产品在线评论的活跃度建模就相当于建立相应的隐马尔可夫模型并求解隐马尔可夫模型的第二类问题,即解码问题。
(一) 模型构建
本文提出的模型构建过程分如下4个步骤:
(4) 状态转移概率矩阵A和初始状态概率分布向量π是未知的,在给定观察值序列的前提下,可通过求解隐马尔可夫模型的第三类问题(即学习问题)来获得。本文采用Baum-Welch算法求出A和 π,使得p(O|A,λ)最大。
(二) 状态序列的计算
根据前文提出的方法,可以计算出参数A,B和 的值。在给定观察值序列O和模型λ=(A,B,π)的条件下,使用Viterbi算法求解状态序列q=(q1,q2,…,qr),使得该序列能够最为合理的解释观察值序列。其中qt 表示在第t周该产品对应的在线评论所处的活跃性状态。endprint
三、产品在线评论活跃状态的演化模式分析
活跃状态的演化模式并不是单一固定的,不同产品的在线评论活跃状态演化可能存在不同的模式[14],如果将一段时间内的产品在线评论在固定时间间隔内处于的活跃状态,按照时间序列顺序绘制图形,可以很直观的发现,不同产品在线评论对应图形的形状是有区别的,但从图形的走势上看,可以归类成几种模式。对产品在线评论活跃状态演化模式的分析,可以找出产品所处的生命周期阶段,从而帮助厂商和卖家做出更为科学合理的营销决策。Chen[15]和Parikh[16]都使用了隐马尔可夫模型对在线评论进行了活跃度建模,但是他们分别采用动态时间扭曲距离和小波变换两种时间序列聚类算法对在线评论活跃度的演化模式进行了研究,但是研究中,并没有利用到隐马尔可夫模型所得的结果。本文选用文献[17]中提出的基于隐马尔可夫模型的时间序列聚类算法对不同产品对应的在线评论活跃状态序列进行聚类,识别出不同的產品在线评论活跃状态演化模式。
设{O0,O1,…,OP}是需要聚类的产品在线评论活跃状态时间序列的集合,Oi 表示第i个产品对应的在线评论数量所构成的时间序列,λi 表示通过序列Oi 训练学习得到的隐马尔可夫模型。每一个序列Oi 可表示为一个P维向量D(Oi) 的形式:
其中,Ti 表示Oi 的长度,p(Oi |λp)可通过求解隐马尔可夫模型第一类问题(评估问题)来得到。
通过向量D(Oi) ,将序列Oi 映射为P维欧式空间中的一个点,然后就可以选用适用于P维欧式空间中的点的聚类算法,包括k-means聚类、层次聚类等方法。根据聚类的结果,可以得到不同产品对应的在线评论的活跃状态演化模式。
四、实验与分析
(一) 数据收集
本文从卓越亚马逊网站(http://www.amazon. cn)上收集了30个正在销售的产品的在线评论信息,这些产品包括图书、化妆品、电子产品和日常用品等类型的产品。产品开始出售的时间各不相同,评论的数量也相差很大[18]。本文首先对这30种产品的在线评论信息的活跃状态进行建模,并针对活跃状态变化情况,提出相应的营销策略,最后对这30种产品的在线评论信息的时间序列进行聚类,识别出产品在线评论活跃状态演化模式及相应的特征。
(二) 实验结果与分析
1. 活跃状态分析
依照前文节中提出的模型建立过程,为每一个产品对应的在线评论信息条数序列建立一个对应的隐马尔可夫模型。所建立的模型中,活跃状态数量N越大,则该模型的描述能力越强,但模型训练学习的时间和计算成本都会越大。本文分别取状态数量N=2,4,6,8,10。然后选用Baum-Welch算法求解模型参数 和A,最后选用Viterbi算法求解最优的可以解释观察值序列的活跃性状态序列。图1为卓越亚马逊网站上热销的一本图书《别相信任何人》的在线评论数量随着时间变化的趋势图,图2~图6分别表示N=2、4、6、8、10的时候,该图书对应的在线评论信息活跃状态的变化趋势。
从图2~图6可以看出,利用隐马尔可夫模型求解得到的活跃状态变化趋势能够准确的反映出在线评论信息数量随时间变化的趋势。在评论信息出现的前5周,由于在线评论信息数量较少,低于在线评论信息数量的平均值,所以所处的状态为不活跃状态;之后,随着在线评论信息数量的增加,活跃状态随之升高;接下来,在线评论信息数量又继续减少,活跃状态也随之降低,最后在线评论信息数量又显著上升,活跃状态也随之上升。当N=2的时候,只有1和2两种状态,无法细致的区分在线评论活跃状态的高低,信息量就比较单一。
2.活跃状态的演化模式分析
采用前文中的聚类算法对30种产品在线评论信息量的时间序列进行聚类。将训练得到的隐马尔可夫模型结合公式(2)将每一个产品在线评论信息数量的时间序列均映射为一个32的向量,然后选用K-means算法进行聚类。在实验中,K可以通过轮廓系数(silhouette coefficient)的大小来确定,其值域为[-1, 1],其计算方法由式(3)给出。
其中,ai表示聚类对象i到其所属类中所有其他聚类对象的平均距离,bi表示对象i到任意其他类中所有对象的平均距离的最小值。
在计算出所有聚类对象轮廓系数的平均值,选择平均值最大对应的K值作为最终的聚类类别数。
本文在上一节中,分别取N=2, 4, 6, 8, 10,根据产品在线评论信息数量,训练得到隐马尔可夫模型,然后利用K-means聚类方法对产品在线评论信息数量的时间序列进行了聚类,得到了基本一致的聚类结果。因此,本文仅对N=8时所得到的聚类结果进行分析。K=3, 4, 5, 6时,轮廓系数的平均值如图7所示。由图7可以看出:K=5时,轮廓系数的平均值为最大,等于0.8424,故取K=5。
比较这30个产品在线评论信息的活跃状态序列,可以很容易的发现聚类所得的5类演化模式的特征。本文将这四类变化模式分别命名为单峰型、宽峰型、多峰型、稳定型和波动型,其特征如表1所示。endprint
五种产品在线评论信息活跃状态演化模式如图8~图12所示。
五、结 论
在实际的营销决策制定过程中,产品Web信息活跃状态的演化模式可以与产品生命周期理论相结合。产品生命周期描述了产品从进入市场开始,直到最终退出市场为止所经历的市场生命循环过程,企业可以通过对处于不同生命周期的产品使用不同的营销策略来形成营销优势。了解产品Web信息活跃状态可以辅助判断产品所处的产品生命周期。
当新产品开始投入市场进入介绍期,消费者对产品还不了解,只有少数追求新奇的顾客可能会购买,与之对应的产品Web信息也就很少。此阶段的营销目标是要创造产品的知名度,促进试用。在产品生命周期中的成长期,消费者对产品逐渐了解,大量的新顾客开始购买,市场逐步扩大,顾客对产品的反馈和评论也会相应的增加,产品Web信息会迅速增长。随着产品进入成熟期,市场需求趋向饱和,潜在的顾客已经很少,产品Web信息的活跃状态会逐渐稳定直至产品开始衰退期,随着产品用户数量在衰退期的大量减少,产品Web信息的活跃状态也会迅速降低。
结合产品所属的Web信息活跃状态的演化模式推断产品所在的产品生命周期阶段然后采取不同的市场营销策略,这可以使企业的市场营销策略达到最佳组合。对于产品Web信息还没有出现快速增长的商品可以将价格高低与促销费用高低结合起来,形成能有效创造产品知名度的营销策略(如:快速撇脂策略,快速渗透策略等)。当产品Web信息已经处于快速增长阶段时,尤其对Web信息活跃状态的演化模式是单峰型的产品,企业根据原有的策略和市场地位选择定价策略以维持其市场的增长率,延长获取最大利润的时间(如:改变广告宣传的重心,适时调整价格等)。产品Web信息活跃状态稳定处于高位时,特别是针对Web信息活跃状态的演化模式是宽峰型的产品,企业宜采取主动出击策略(如,竞争价格策略),使产品得到更长时间的高度关注。一旦产品Web信息活跃度快速下降,对于演化模式为单峰型的产品就要认真的研究分析采取何种策略,在何时退出市场(如,集中策略,收缩策略等)。对于演化模式是宽峰型或者是多峰的产品则要采取市场调整策略(如,发现产品新用途,适当降价等)使得产品生命周期出现再循环。
参考文献:
[1]朱沁夫. 海南产业结构选择与演变——基于广义虚拟经济思路的研究[J]. 广义虚拟经济研究, 2010, 1(2): 42-47.
[2]亓元, 单德朋. 中国港口城市邮轮产业竞争力测度——兼论三亚邮轮产业发展[J]. 广义虚拟经济研究, 2010, 1(2): 35-41.
[3]胡延杰, 杨东方. 微观企业层面人力资本研究评析[J]. 广义虚拟经济研究,2011, 2(1): 58-64.
[4]田東文, 姚微. 虚拟价值链下促进服务外包发展的策略选择[J]. 广义虚拟经济研究,2011, 2(1): 86-94.
[5]苏州, 胡荣. 广义虚拟经济视角下的民用机场非航空性资源价值[J]. 广义虚拟经济研究,2012, 3(1): 29-35.
[6]林左鸣, 尹国平. 价值理论的困境、出路及创新研究——广义虚拟经济理论关于价值的主要观点[J]. 广义虚拟经济研究, 2011, 2(1): 5-14.
[7]张明立, 任淑霞, 许月恒. 广义虚拟经济视角下的顾客感知价值及其对满意、忠诚的影响研究[J]. 广义虚拟经济研究, 2011, 2(1): 36-46.
[8]Rabiner L R. A tutorial on hidden markov models and selected applications in speech recognition [C]. Proceedings of the IEEE, 1989, 77 (2): 257–286.
[9]Durbin R, Eddy S R, Krogh A, et al. Biological sequence analysis: probabilistic models of proteins and nucleic acids. Cambridge University Press, 1999.
[10]Krogh A, Brown M, Mian I S, et al. Hidden markov models in computational biology: applications to protein modeling [J]. Journal of Molecular Biology, 1994, 235(5): 1501-1531.
[11]Baldi P, Chauvin Y, Hunkapiller T, et al. Hidden markov models of biological primary sequence information [R]. Proceedings of the natioanl academy of sciences of the united states of America, 1994, 91(3): 1059-1063.
[12]Eddy S R, Mitchison G, Durbin R. Maximum discrimination hidden markov models of sequence consensus [J]. Journal of computational biology, 1995, 2(1): 9-23.endprint
[13]Churchill G A. Stochastic models for heterogeneous DNA sequences[J]. Bulletin of mathematical biology, 1989, 51(1): 79-94.
[14]Barlas Y, Kanar K. A dynamic pattern-oriented test for model validation [A]. Proceedings of 4th systems science European congress [C]. Emerald Group Pubilishing Limited, 1999: 269-286.
[15]Chen C C, Chen M C, Chen M S. An adaptive threshold framework for event detection using HMM-based life profiles [J]. ACM Transactions on Information Systems, 2009, 27(2): 1-35.
[16]Parikh N, Sundaresan N. Scalable and near real-time burst detection from e-commerce queries [A]. Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining [C]. New York, USA, ACM Press, 2008: 972-980.
[17]Bicego M, Murino V, Figueiredo M A T. Similarity-based clustering of sequences using hidden markov models[A]. Lecture notes in computer science [C], 2003, 2734/2003: 95-104.
[18]Chen Y, Xie J-H. Third-Party Product Review and Firm Marketing Strategy[J]. Marketing Science, 2005, 24(2):218-240.endprint