APP下载

基于观点动力学的在线评分人数预测

2014-06-07苏炯铭刘宝宏马宏绪

计算机工程 2014年10期
关键词:观点准确率动力学

苏炯铭,刘宝宏,李 琦,马宏绪

(国防科学技术大学a.机电工程与自动化学院;b.信息系统与管理学院,长沙410073)

基于观点动力学的在线评分人数预测

苏炯铭a,刘宝宏b,李 琦b,马宏绪a

(国防科学技术大学a.机电工程与自动化学院;b.信息系统与管理学院,长沙410073)

多数观点动力学研究采用基于Agent的建模和仿真方法,与现实社会现象严重脱节。针对该问题,利用现实社会在线评分的统计数据验证和改进观点动力学模型的解释和预测能力。在评分过程中,个体的观点受到自身初始观点和群体观点的共同影响,产生的最终观点将决定个体是否加入评分群体,如果加入将产生评分行为,进而影响后续个体的观点及行为。据此过程建立一个连续观点动力学模型,对在线评分的人员数量进行预测。使用豆瓣网站的影片在线评分数据进行实验,分析各评分观点变化对在线评分数量的影响,结果表明,该模型能够有效预测在线评分人数;个体的最终观点主要受群体差-中-好评分观点的影响,而与自身初始观点基本无关;泊松参数值偏离最优值越远,预测准确率越低。

在线评分;观点动力学;模型预测;连续观点;泊松分布;实验验证

1 概述

在线评分包含了一个社会群体对某个事物的评价和看法,被广泛应用于各个购物、消费以及点评网站,如国外的 Amazon,CellarTracker,RateBeer, BeerAdvocate,国内的淘宝、当当、卓越、京东、豆瓣、大众点评网等网站。这些网站通过用户对商品、服务、影片等进行在线打分与评论的回馈信息,来影响潜在的消费者的观点倾向,辅助进行决策,从而使更多反馈信息加入,构成一个相互促进的良性循环。

观点动力学,又称为舆论动力学,是运用数学、物理以及计算机,特别是基于Agent的建模和仿真方法,研究群体观点趋于一致或者产生聚类分离现象的演化过程和规则[1]。观点动力学的研究对象非常广泛,包括个体观点演化、群体决策、一致性达成、少数观点的幸存、极端主义、谣言的扩散与传播、市场渗透等各种社会现象[2-3]。观点是个体对待事物或议题的看法、选择或者倾向。根据观点的描述方式,可以将观点动力学模型分为离散模型和连续模型。离散模型采用二元值或其他离散的整数值对观点进行建模,如0和1,-1和+1,0和±1,就像现实世界中表示的买和卖、左和右、中立、支持和反对等一样,包括 Ising模型[4]、Sznajd模型[5]、投票者模型(Voter Model)[6]和多数决定模型(Majority Rule Model)[7]及其扩展模型。连续模型采用介于一段区间的连续实数值来描述个体的观点,主要包括基于有界信任假设的 Deffuant-Weisbuch(DW)模型[8]和Hegselmann-Krause(HK)模型[9]及其扩展模型。在早期研究中,个体社会结构主要集中在一维(环)链、网格、规则网络或者全连通网络上。随后研究者发现现实世界以及互联网社区中的个体交互结构满足复杂网络的特征。因此,复杂网络上,如小世界(有向)网络[10-11]、无标度网络[12-13]和包含社团的网络[14]等,以及自适应复杂网络[15]上的观点动力学逐渐成为研究的热点。

目前大部分观点动力学研究采用基于Agent的建模和仿真方法,关注的是模型的理论性质,存在仿真模型与现实社会现象严重脱节的问题;模型的应用研究又普遍存在参数和规则设置的依据不足以及缺乏验证的问题[16]。基于互联网的虚拟社区上的观点动力学成为其理论和仿真研究与实际应用的桥梁和纽带。应用现实社会系统的统计数据可以验证和改进观点动力学模型的解释和预测能力,而这方面的工作还不充分。Sznajd模型较好地模拟了政治竞选过程,发现所有被选举者的支持者满足幂率关系,但模拟只是一个统计平均过程,并不能提前预测某次真实的政治竞选的获胜者[17]。文献[18]根据在线点评模式的观点传播过程,基于DW和HK模型构建了在线点评模式下的观点动力学模型,对淘宝评论中实际观点演化过程进行了仿真实验。

本文通过建立在线评分中个体观点的影响模型,预测个体的观点和行为,从而判断其是否将加入评分群体,并采用互联网豆瓣网站上的影片在线评分数据进行实验验证。

2 在线评分的观点动力学模型

在线评分的观点动力学模型与一般观点动力学模型有所不同:一般观点动力学模型研究的是一个固定数量的个体之间观点相互影响而不断演化,产生一致性或者聚类分离的现象。在线评分的观点动力学模型中个体的数量不是固定的,而是随着时间的推进不断的增加,直到个体数量达到最大值,并且群体内同一个体的观点发表以后也不会变化。而两者的相同点在于,个体观点都是受自身初始观点和群体观点的综合影响。

在在线评分过程中,正在浏览评分信息、尚未加入评分群体的个体称为浏览个体。浏览个体的观点受到自身初始观点和评分群体观点偏好的共同影响,生成的最终观点决定是否加入评分群体,如果加入将产生评分行为,进而影响后续浏览个体的观点和行为。

浏览个体按照一定的时序关系阅读在线评分信息,形成自己的观点倾向来决定是否加入该群体。以影片的在线评分为例,浏览用户通过观察原有观众群对某部影片的在线评分,决定自己是否观看,如果选择观看将进而对其进行在线评分。在线评分的观点动力学模型将估计浏览个体的到达模式并计算他们的最终观点,确定个体是否加入评分群体,实现对评分群体中个体数量的预测。

2.1 到达模式

假设浏览个体阅读在线评分的时间间隔概率满足泊松分布。这是一种常用的分布,很多系统的人员到达模式都满足泊松分布。

在区间[a,a+m]内有l个个体到来的概率与a无关,而只与m和l有关,此概率记为Pl(m):

其中,λ称为泊松常数。在泊松分布中,个体到达的时间是完全随机的,仅受到给定的平均到达率λ的限制,λ=n/m表示在单位时间m内平均将有n名浏览个体阅读在线评分。

在第i个产生m个在线评分的时间内,共有n名浏览个体依次阅读在线评分,他们阅读的评分数间隔满足泊松分布。这n名浏览个体的初始观点p0为连续观点,在区间[0,1]内随机分布。每个浏览个体的最终观点p根据观点更新模型进行计算,并确定是否加入评分群体。最终有n′i(n′i≤n)名个体加入评论人群,产生评分行为。所以,在k个评分时间后,预测得到的评分数量N′k=∑kn′k,真实的评分数量为Nk=mk。整个预测过程如图1所示。

图1 观点动力学模型对在线评分人数的预测过程

2.2 观点更新模型

在产生第t(t>0)个评分时,某个浏览个体阅读了所有的在线评分。此时,基于连续观点动力学中的观点更新理论,他的最终观点p是所有他浏览的观点(包括自身的观点)的加权求和值,得到:

或者:

式(3)或式(4)是相互等价的,式(3)从群体平均观点的角度考虑对观点p0的影响,而式(4)为单个观点对观点p0的影响之和取平均值。式(3)和式(4)均可写成式(1)的形式:

浏览个体的最终观点p表达了其加入评分群体、进行在线评分的偏好。p∈[0,1],其值越大,表示浏览个体加入评分群体的意愿越强烈,加入的概率越大。p=0表示个体绝对不会加入,p=1表示其肯定加入。因此,假定浏览个体将以概率p加入评分人群。第k批次的n名浏览个体根据此模型判断是否加入评分群体,初始时加入的人数n′k=0,随着浏览个体加入评分,n′k不断增加。t评分时刻浏览个体观点的处理流程如图2所示。其中,Rd为区间(0,1)上的随机数。

图2 t评分时刻浏览个体观点的处理流程

在第k批次加入后的预测准确率rk为:

其中,kmax表示最大批次值。

3 实验与结果分析

观点动力学预测模型采用Matlab 2012a实现,泊松分布数由Matlab内的泊松分布函数产生。实验数据来源于互联网上豆瓣网站影片评分的在线数据。该网站上用户对影片的评分分为1星~5星,映射至区间[0,1]后的观点值分别为0.2,0.4,0.6,0.8和1.0。为便于模型分析,可以将1星~5星映射为差-中-好评:1星和2星为差评,3星为中评,4星和5星为好评。在差-中-好评分方法中,差评、中评和好评映射的观点值分别为0,0.5和1。分别采用式(2)和式(5)对评分人数进行预测,通过对预测结果的比较分析,验证和选择评分方法和预测模型公式及其参数。

3.1 在线评分的观点变化

在豆瓣网站影片评分数据库中随机选择3组评分数较多的影片数据,设定泊松分布参数m=400,最终时刻各组评分数如表1所示。

表1 典型数据

各组数据的观点比例变化如图3和图4所示。

图3 3组数据各观点比例变化(1星~5星评分方法)

图4 3组数据各观点比例变化(差-中-好评分方法)

统计点分别为:m,2m,…,kmaxm。可以看出,这3组数据的评分都比较好,好评率比较高,能够吸引大量的观众观看影片,进而进行评分。影片的评分数越多,一般说明观看该影片的观众越多。最大的评分数为16 400,最少的评分数为10 000,评分数的多寡受到影片的评分影响。因为人们一般倾向于观看评分高的影片,观看过后对影片进行评分,进而影响后续对此影片感兴趣的浏览用户的观点和行为。

从1星~5星的评分方法来看,各个评分的比例随着评分数的增加都在不断变化,但变化幅度不断减小,如图3所示。从差-中-好评分方法来看,随着N的增加,各评分比例变化的幅度更小,有趋于稳定的趋势,能更清楚地反映对评分数量的影响。因此,以下从差-中-好评分方法来进行解释和说明:随着评分人数增加,好评率缓慢增加,促进了更多的人观看影片,进而评分。影片的好评率和观看人数将相互促进。如果好评率都一直增加,则好评率高的观影人数会更多,如第1组和第2组的比较结果所示;随着评分人数增加,初始时好评率下降,中、差评率之和增加,这使得观看人数增加后劲不足,虽然初始好评率较大。此时观影人数反而不如初始好评率低于它的影片,如第2组和第3组的比较结果所示。这是因为初始出现的好评率较高,可能来自于商业宣传和炒作,大批观众观看后,影片真正的评分值逐渐出现,进而影响后续的拟观看人群的观点。如果首批观众对影片反映良好,将吸引更多的观众关注,反之,则使得影片逐渐冷淡,人们对其逐渐失去观看和评论的兴趣。

3.2 模型预测

基于观点动力学模型在评分数量点m,2m,…,kmaxm处对评分人数进行统计,将预测值与实际值进行比较得到预测的准确率rk。预测系统与真实系统同步运行,模型中个体进行观点更新时所用的其他个体的观点数据总是使用当前时刻的真实评分数据,以提高预测的准确率。

在模型中,设平均每400次评分,随机加入500个浏览个体,加入的时间间隔满足泊松分布λ=1.25,初始观点服从区间[0,1]上的随机分布,即m=400,n= 500。个体的最终观点选择式(2)和式(5)分别进行计算。统计结果为100次实验的平均值。图5和图6所示的是采用式(2)、式(5)的计算方法以及2种不同的评分统计方法的评分数量预测准确率。可以看出,采用相同的式(2)或式(5)进行计算,1星~5星评分方法的平均准确率的增长速度普遍来说都要略低于差-中-好评分方法。不同的是,采用式(2)平均准确率随着N的增加达到峰值后趋于缓慢下降,而式(5)则是初始时迅速上升而后缓慢增加。在相同的评分方法下,式(2)的预测准确率大大优于式(5),由此可见如果加大对个体初始观点的权重将不利于观点的预测,使得与实际情况不符。

图5 采用式(2)时平均预测准确率随N的变化

图6 采用式(5)时平均预测准确率随N的变化

由式(2)和式(5)的观点计算方法所得到的结果进行比较,个体的初始观点对其观点的形成影响应该较小,主要是受到群体的平均观点的影响。这也是符合实际的情况,因为一般来说,个体初始时对影片的认识比较模糊,不能确定其是否真正值得一看,所以主要通过阅读其他已观看该影片的人员的评分来辅助自己做出观看与否的决定。在相同的观点计算公式下,采用差-中-好评分方法计算得到的预测准确率普遍较1星~5星评分方法的高,可以更准确地预测实际个体的观点和行为,这说明虽然1星~5星评分方法所包含的信息更多、更加详细,但是在实际的决策过程中,人们对评分的粒度并不要求如此细致,只需了解差-中-好评分的数量,就可做出较为符合实际情况的决策。

综合比较,式(2)的计算方法和差-中-好评分方法所对应的预测准确率较好,在较大范围内保持了较高的准确率,如图5(b)所示。虽然本文只有选择3组数据进行研究,但是经过检验对其他的豆瓣影片在线评分数据都有相似的结果,采用式(2)和差-中-好评分方法,评分数的最终平均预测准确率均能达到0.9左右或以上。

3组数据最终的预测平均准确率及其总的均值随泊松常数λ的变化规律如图7所示,其中,取m= 400,n=350,400,450,500,550,600,650,即λ= 0.875,1.0,1.125,1.25,1.375,1.5,1.625。可以看出,平均准确率随参数λ呈分段线性关系,每组数据都有一个最优的λ值,在此最优值前,准确率呈线性增长,此后呈线性下降,上升与下降的速率相当。这说明单位时间内,过多或者过少的浏览个体数量都不利于在线评分人员数量的预测,与最优λ值相距越远,预测准确率将越低。综合3组数据,对其准确率求平均值,可以得出最优λ值为1.25左右,这也是在前面实验中选择λ=1.25的原因。

图7 采用式(2)和差-中-好评分方法的最终平均预测准确率

各组评分比例的变化趋势表明:影片的好评率和观评分人数将相互促进,好评率缓慢增加,促进了更多的人观看影片,进而评分。在同种变化趋势下,好评率更高的影片的观影人数会更多。但是如果初始时好评率下降,中评率和差评率之和增加,使得评分人数增加后劲不足,最终评分人数反而不如初始时好评率低于它而好评率一直上升的影片。

模型的实验结果较为准确地预测了在线评分的人数,说明个体的观影以及在线评分行为倾向符合观点动力学模型的假设。从预测的效果来看,采用式(2)即个体的观点取所有群体观点(包括自身观点)的平均值以及差-中-好评分方法较好。这说明个体的观点以及行为倾向受其初始观点的影响很小,受群体平均观点的影响较大。并且其关注的评分等级也只需3级,过于细致的评分反而不利于个体观点和行为的预测,这也是许多评分网站将评价等级只需定为3级的原因。预测准确率受泊松常数λ的影响,存在最优的参数值(1.25),偏离该值越远预测准确率将越低。

4 结束语

本文通过建立在线评分观点影响的动力学模型,同时考虑个体的初始观点的重要性和评分的粒度影响,提出采用2种不同的观点更新方式和评分方法对豆瓣网站的影片在线评分人数进行分析和预测。实验结果表明,本文所提出的观点动力学模型能够对个体观点进行准确预测,同时揭示了评分比例变化对在线评分人员数量影响的若干现象和规律,结论有利于加深对浏览个体在阅读在线评分后的观点和行为的理解。后续工作将考虑评分发布的具体时间序列因素以及个体对其他个体评分的评价信息,进一步对在线评分的观点动力学进行研究。

[1] Xia Haoxiang,Wang Huili,Xuan Zhaoguo.Opinion Dynamics:A Multidisciplinary Review and Perspective on Future Research[J].InternationalJournalof Knowledge and Systems Science,2011,2(4):72-91.

[2] Castellano C,Fortunato S,Loreto V.Statistical Physics of Social Dynamics[J].Reviews of Modern Physics, 2009,81(2):591-646.

[3] 王 龙,伏 锋,陈小杰,等.复杂网络上的群体决策[J].智能系统学报,2008,3(2):95-108.

[4] Galam S,Gefen Y,Shapir Y.Sociophysics:A New Approach of Sociological Collective Behavior[J].The Journal of Mathematical Sociology,1982,9(1):1-13.

[5] Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].InternationalJournalofModern Physics C,2000,11(6):1157-1165.

[6] Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J]. Annals of Probability,1975,3(4):643-663.

[7] Galam S.Minority Opinion Spreading in Random Geometry[J].European Physical Journal B,2002, 25(4):403-406.

[8] Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2000,3(1-4):87-98.

[9] Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysis,and Simulation [J].Journal of Artificial Societies and Social Simulation, 2002,5(3):1-8.

[10] Gandica Y,del Castillo-Mussot M,Vázquez G J,et al. Continuous Opinion Model in Small-world Directed Networks[J].Physica A,2010,389:5864-5870.

[11] Li Pingping,Zheng Dafang,Hui P M.Dynamics of Opinion Formation in a Small-world Network[J]. Physical Review E,2006,73.

[12] 罗 植,杨冠琼,狄增如.具有空间因素的社会网络上的舆论形成[J].物理学报,2012,61(19).

[13] 何敏华,张端明,王海艳,等.基于无标度网络拓扑结构变化的舆论演化模型[J].物理学报,2010,59(8): 5175-5181.

[14] Wang Ru,Chi Liping,Cai Xu.Opinion Dynamics on Complex Networks with Communities[J].Chinese Physics Letters,2008,25(4):1502-1505.

[15] Fu Feng,Wang Long.CoevolutionaryDynamicsof Opinions and Networks:From Diversity to Uniformity [J].Physical Review E,2008,78.

[16] Sobkowicz P.Modelling Opinion Formation with Physics Tools:Call for Closer Link with Reality[J].Journal of Artificial Societies and Social Simulation,2009,12 (1):11.

[17] Bernardes A T,Stauffer D,Kertesz J.Election Results and the Sznajd Model on Barabasi Network[J]. European Physical Journal B,2002,25:123-127.

[18] 万 岩,张 涵.在线点评模式下的舆论动力学模型研究[J].北京邮电大学学报:社会科学版,2012, 14(4):9-14.

编辑 金胡考

Number Prediction for Online Rating Based on Opinion Dynamics

SU Jiong-minga,LIU Bao-hongb,LI Qib,MA Hong-xua
(a.College of Mechatronics Engineering and Automation;b.College of Information System and Management, National University of Defense Technology,Changsha 410073,China)

Most studies of opinion dynamics adopt Agent-based modeling and simulation for theoretical research and have serious gap with the real social problems.Aiming at this problem,this paper verifies and improves the interpretation and forecasting capabilities of the model with social statistical data of online rating.On the process of online rating,the individual opinion is influenced by its initial opinion and the group’s opinions.The final opinion determines whether the individual to join the group and makes a rate or not.The rating of the individual affects the opinions and the behaviors of subsequent individuals.A simple dynamic model with continuous opinion based on this process is introduced to predict the number of personnel in online rating.It carries out experiments with the online rating data of film on the Internet website of Douban and analyses the effects of change of score proportion.Experimental results show that the model can effectively predict the number of online rating;Individual final opinion is mainly affected by the opinions of bad-normalgood in the group and almost has nothing to do with its initial opinion;The larger deviation of the Poisson parameter to optimum value leads to the lower accuracy of prediction.

online rating;opinion dynamics;model prediction;continuous opinion;Poisson distribution;experimental verification

1000-3428(2014)10-0155-06

A

TP18

10.3969/j.issn.1000-3428.2014.10.030

国家自然科学基金资助项目(61374185)。

苏炯铭(1984-),男,博士,主研方向:人工智能,群决策支持系统,观点动力学;刘宝宏、李 琦,副教授、博士;马宏绪,教授、博士、博士生导师。

2013-10-24

2013-12-16E-mail:sjm.nudt@gmail.com

中文引用格式:苏炯铭,刘宝宏,李 琦,等.基于观点动力学的在线评分人数预测[J].计算机工程,2014,40(10): 155-160,167.

英文引用格式:Su Jiongming,Liu Baohong,Li Qi,et al.Number Prediction for Online Rating Based on Opinion Dynamics[J].Computer Engineering,2014,40(10):155-160,167.

猜你喜欢

观点准确率动力学
具有Markov切换的非线性随机SIQS传染病模型的动力学行为
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
观点
基于随机-动力学模型的非均匀推移质扩散
业内观点
新锐观点
TNAE的合成和热分解动力学