网络话题传播规律建模与预测问题研究
2019-04-20夏一雪
摘要:[目的/意义]构建数学模型研究网络话题传播规律建模和预测问题,为深入研究网络话题传播规律提供理论参考。[方法/过程]定性分析网络话题传播的大数据特征、可量化性、可度量周期性、可预测性等特征,通过分析网络话题传播机理,构建网络话题传播规律的常态模型和衍生模型,提出划分网络话题传播阶段的一般方法,并据此研究网络话题传播趋势预测方法。[结论/结果]通过“雾霾”微博话题数据开展实证分析,能够较好地划分传播阶段并预测传播趋势,由此,根据本文构建的数学模型研究网络话题传播规律是可行的。
关键词:网络话题;网络舆情;传播规律;趋势预测
DOI:10.3969/j.issn.1008-0821.2019.04.001
〔中图分类号〕G206〔文献标识码〕A〔文章编号〕1008-0821(2019)04-0003-10
Research on Modeling and Prediction of Network Topic Dissemination Law
Xia Yixue
(China Peoples Police University,Langfang 065000,China)
Abstract:[Purpose/Significance]The mathematical model was constructed to study the modeling and prediction of network topic dissemination law,in order to provide theoretical references for further research on the dissemination law of network topic.[Method/Process]This paper qualitatively analyzed the characteristics of big data,quantifiability,measurable periodicity,predictability and other characteristics of network topic dissemination.Through the analysis of network topic dissemination mechanism,the normal model and derivative model of network topic dissemination law were constructed.The general method of dividing the stages of network topic dissemination was put forward and the trend prediction of network topic dissemination was studied.[Result/Conclusion]Through empirical analysis of microblog topic data of“haze”,the dissemination stages could be well divided and the dissemination trend could be predicted.Therefore,it was feasible to study the network topic dissemination law based on the mathematical model established in this paper.
Key words:network topic;network public opinion;dissemination law;trend prediction
自互联网逐渐普及以来,网络传播成为与网下传播相并行的信息传播形式,并且随着移动社交网络的发展,部分网下传播迁移网上,网络传播正成为最主要的信息传播形式。网络话题作为网络传播的重要内容,是网民针对某一事件通过微博、微信、网络新闻、网络论坛等网络传播平台进行讨论的主题、内容以及网民的观点、态度等信息的集合。网络话题的内容涉及国内外政治、军事、文化、经济、外交等众多领域,是网络传播时代网民社会参与的重要方式,映现着社会观点的形成和变迁。当前,网络话题形成、传播的速度、爆发性、蔓延趋势,正与日俱增,面对层出不穷的热门话题以及背后的话题营销,提出了剖析网络话题的传播规律,预测传播趋势和影响,及时准确把握传播态势的研究问题。特别是大数据技术的发展,为我们提供了大量网络话题傳播的数据,如何分析数据中蕴含的网络话题传播规律,是一个在理论和实践层面都值得关注的重要问题。
1研究现状
我国学术界针对网络话题的研究,主要分为两个研究方向:一是传播学视域下网络话题理论研究,针对网络话题的形成机制、传播特征、传播模式、传播规律、热度效应等进行传播学解读,以定性研究为主[1-2];二是网络话题量化分析,包括1)话题内容分析:如话题摘要、内容搜索等;2)话题检测和发现:主要采用K-Means等聚类算法、循环神经网络、主题模型、共词网络等多种方法;3)话题演化:如演化时空规律、竞争传播、传播结构可视化等,主要采用空间自相关[3]、共词网络[4]以及各类主题模型[5]等方法,在话题传播模型方面,主要基于演化博弈[6]、脉冲时序行为动力模型[7]、自激点过程[8]、传染病模型[9]等;4)话题趋势预测:主要采用BP神经网络[10]、小波神经网络[11]、支持向量机[12]、回声状态网络[13]、复杂网络[14]、Hurst指数[15]等多种方法,进行话题热度、流行度预测等。通过Citespace对中国知网的网络话题研究文献进行可视化分析,得到网络话题研究关键词的聚类结果,以及每类主题的关键词迁移,可见在研究方法上深度学习、神经网络等是近年来的研究热点,而在研究内容上新媒体环境、突发事件情景等是近年来的研究热点(见图1)。
图1网络话题研究关键词聚类时间线图
整体而言,我国学术界对网络话题的研究集中在传播学、信息科学、计算机科学等领域,分为定性分析和定量描述两个研究方向。两个方向的研究各有特长,但是定性研究仍需加强网络话题传播规律分析的精确性,定量研究仍需更紧密结合网络话题传播现象和场景,加强量化描述的适用性和针对性。其中在网络话题传播规律和预测研究领域,已有诸多研究成果,但是仍然存在将传播规律分析和传播趋势预测相割裂的问题,分别针对演化规律或者趋势预测进行研究,在理论应用中将会存在分析、预测之间的衔接误差。由此,定性定量相融合、“分析——预测”一体化等将是未来网络话题领域的研究目标。
2网络话题传播特征
随着信息、网络技术的进步,网络话题传播相对于传统的线下话题传播,呈现出大数据特征、可量化性、可度量周期性、可预测性等诸多特征。
21网络话题传播的大数据特征
互联网高普及率背景下的网络话题传播已经具备明显的大数据特征:1)多量性(Volume):主要体现在网络话题传播信息量巨大、传播源头数量多、传播平台数量多、传播主体数量多等方面;2)多样性(Variety):主要体现在网络话题信息结构多样、网络话题反映的网民情感种类多、网络话题传播主体类型多等方面;3)高速性(Velocity):主要体现在网络话题产生速度快、传播速度快、情感极化速度快等方面;4)价值性(Value):网络话题价值密度小但其中蕴含意义重大,网络话题是网络社会背景下感知民情民意、把握社会心态的重要路径;5)在线性(Online):网络话题数据永远在线,能够随时调用和计算,这是区别线下话题的重要方面。
22网络话题传播的可量化性
网络话题传播是抽象的、虚拟的,其传播过程是传播主体生产、传递信息的过程,这些信息具有明显的数据在线特征,所以,通过网络爬虫等信息技术可以比较便捷、完整地获取网络话题传播的数据。通过对这些网络话题传播数据进行建模分析,可以推断和感知网络话题传播程度、传播主体数量变化程度和情感演化程度等,更进一步,通过量化建模,还可以实现网络话题传播可视化,进而量化整个网络话题传播过程,这些量化研究是深层次探索网络话题传播机理、定量描述网络话题传播规律的基础。
23网络话题传播的可度量周期性
网络话题信息作为网络信息的一种,满足网络信息生命周期理论,因此网络话题传播具有周期性。按照信息生命周期理论,网络信息生命周期可以定性分为多个阶段,例如可划分为产生、采集、组织、开发、利用、处置等6个阶段[16]或者引入期、发展期、稳定期、衰退期、失效期等5个阶段[17]等,但如何定量划分信息生命周期,仍少见创新性研究[18]。由于网络话题传播具有周期性,以及网络话题传播的可量化性、数据在线性等特征,使得通过数据建模,可以构建网络话题传播规律模型,进而定量地划分网络话题传播阶段。网络话题传播的可度量周期性是网络话题传播机理的核心问题,可为信息生命周期理论中划分阶段研究提供新的视角和方法。
24网络话题传播的可预测性
大数据的核心是预测,实现网络话题传播趋势预测是大数据应用的必然趋势。通过信息技术获取网络话题数据后,可以发现网络话题数据实质是多维度、复杂的时间序列,所有网络话题中的变量都会根据时间的变化而变化。基于此,可以选择时间序列预测方法进行多维度的数据预测,进而预测网络话题传播程度,也可以先根据网络话题数据,构建网络话题传播模型,然后根据数理模型开展预测,亦或综合以上多种方法开展组合预测。通过预测网络话题传播过程,可以推断网民参与程度、情感演化趋势等,为政府感知网络民意提供技术路径,同时可以敏锐感知由网络谣言、虚假信息、网络水军等引发的网络话题传播的异常现象,为网络社会治理提供参考依据。
3网络话题传播规律模型研究
31建模核心变量选择问题
根据网络话题传播的大数据特征和可量化性,在网络话题传播过程中,传播主体生产、传递信息的形式多样,包括原创、转发、评论、点赞、收藏等,这些生产和传递形式均对网络话题传播产生影响。所以,如何全面考虑网络话题传播影响要素、选择核心变量,是网络话题传播规律建模的关键问题。首先,原创、转发等信息直接影响网络话题传播程度,是确定网络话题传播核心变量的主要数据;其次,评论、点赞、收藏等信息不能脱离原创或转发而存在,但却影响网络话题传播,是确定网络话题传播核心变量的次要数据。基于此,综合考虑主要数据和次要数据,定义网络话题传播量为:
F=∑Mi(ai,bi,ci)Xi+∑Ni(ai,bi,ci)Yi(1)
其中Xi和Yi分别代表原创和转发信息,Mi(ai,bi,ci)和Ni(ai,bi,ci)分别代表原创和转发信息权重,其数值由该条原创或转发信息中评论、点赞、收藏数量确定。
32网络话题传播规律建模
321网络话题传播常态模型
根据前文对网络话题传播量的定义,假设网络话题传播量是关于时间的连续可微函数,即F=F(t),网络话题传播量初值(t=0时)为F0,则F(t)是单调递增函数。由于网络话题传播的周期性,所以网络话题传播量存在上限,假设上限为K。
在某个时间段Δt内,传播量增长量为ΔF,所以网络话题传播量增长率为ΔFFΔt,但由于受网络话题传播量上限的影响,网络话题增长率与网络话题信息饱和率FK有关,即饱和率大小影响增长率的变化程度。当时间段Δt→0时,网络话题增长率与饱和率之间存在函数关系f,进而得到网络话题传播的常态模型dFFdt=fFK或dFdt=FfFK。更进一步,饱和率越小,网络话题增长空间越大,故增长率越大;反之,饱和率越大,網络话题增长空间越小,故增长率越小,所以,一般情况下,函数f为减函数结构。为得出模型具体表达式,可以构造减函数f,例如r1-FK,-rlnFK,r1-FKθ,re1-F/K,r1-FK1+aFK等,其中参数r代表传播量固有增长率,θ、d、a等皆为不同类型的传播参数,据此便得到若干个描述网络话题传播规律的常态模型。
322常态模型对应的衍生模型
实际研究过程中,根据不同的研究角度、深度以及应用场景,需要对基本模型进行改进,进而得出常态模型对应的衍生模型。
1)当研究数据拟合确定模型具体参数时,需要考虑离散结构模型;
2)当研究网络话题增长率的变化情况时,需要考虑变增长率模型;
3)当网络话题出现衍生时,需要考虑变上限模型;
4)当考虑网络话题的时空影响时,需要考虑偏微分方程模型;
5)当考虑网络话题传播量饱和率的延迟影响时,需要考虑时滞结构模型;
6)当考虑网络推手或者网络水军对话题的影响时,需要考虑加入控制项的情况;
7)当考虑多个网络话题相互影响时,需要考虑方程组结构模型。
以dFdt=-rFlnFK模型为常态模型构造对应衍生模型(见图2)。
实际研究过程中,需要根据具体的网络话题数据确定传播量,然后根据数据形态和变化程度确定常态模型,然后通过数据验证推断外部影响的程度,进而判断是否应用衍生模型,最后,在此基础上研究网络话题传播阶段以及传播趋势预测等机理问题(见图3)。
33模型分析
在确定网络话题传播规律模型后,可以通过模型分析划分传播阶段,为深入研究网络话题传播机理提供参考依据。由于网络话题传播规律模型dFdt=FfFK是连续性模型,网络话题传播阶段划分问题转化为网络话题传播规律模型曲线的分区问题,即通过微积分计算,确定曲线的若干个关键节点,然后据此划分传播阶段(见图4)。
以dFdt=-rFlnFK模型为例确定网络话题传播阶段,分别令:
F″(t)=0,F(t)=0,F(4)(t)=0,F(5)(t)=0
计算各方程对应的根,得到划分阶段关键时间节点(见表1)。
在深入研究网络话题传播阶段以及不同传播阶段网络话题传播机理等问题时,可以根据研究需要选择划分阶段的数量。以划分3个阶段为例,通过微积分确定曲线的两个关键点P1、P2,其对应两个关键时间节点t1、t2,进而整个网络传播过程分为3个阶段:[0,t1]、[t1,t2]和[t2,+∞],据此可以定义网络话题传播的3个阶段为潜伏期、扩散期和消退期(见图5)。
播案例的统计数据往往呈现单调递减或者短时间增长后再递减的形态。
2)网络话题传播扩散期。计算扩散期持续时长,得:
t2-t1=1rln3+53-5(3)
扩散期持续时长仅与增长率r呈反比,而与信息量上限K和初值F0无关。当增长率r大于192时,扩散期时长小于1天,而扩散期网络话题信息量增量占总量的609%,所以就会出现在1天之内网络话题统计数据急剧增加的现象。
3)网络话题传播消退期。自t2开始,网络话题热度逐渐减低,传播趋势趋于消退,但由于消退期持续时间较长,也为这个阶段增加了更多不确定性。首先,由于网民关注话题的长期性和延迟性,导致消退期仍会有网民持续关注并发表自身观点,导致网络话题统计数据会出现长尾效应;其次,由于话题反转或者话题关联等因素,促使话题热度回升,导致网络话题统计数据出现波动现象。
4网络话题传播趋势预测研究
41预测思路和方法
网络话题传播趋势预测是感知网络话题未来状态、解读各种网络话题传播现象的重要内容,也是准确识别话题传播高潮或者传播衍生现象的关键。预测是一项复杂、系统的工作,包括预测类型、预测效果、预测方法等,而对网络话题传播趋势预测来说,还需注重以下几个问题。
1)动态预测问题。考虑到大数据环境下网络话题数据产生快、传播周期较短等情况,所以在网络话题传播过程中,需要及时预知网络话题未来趋势。基于此,在动态抓取网络话题数据后,需要动态进行数据建模并开展预测,进而实现网络话题动态预测。
2)“分析——预测”一体化问题。分析和预测是研究网络话题传播规律的两个重要环节,分析模型和预测模型的衔接误差直接影响网络话题传播趋势预测精度。基于此,以网络话题传播规律模型为基础模型开展分析和预测,在预测网络话题传播趋势的同时开展划分传播阶段等机理分析,可以解决“分析——预测”一体化问题。更进一步,为提升预测精度,可以考虑以传播规律模型为主模型,以灰色预测方法,以及移动平均、指数平滑、自回归滑动平均等时间序列分析方法为辅模型开展组合预测。
3)预测起点问题。网络话题类型众多,在开展趋势预测时需要严格选择预测起点,降低初值选择对预测精度的影响。基于此,对于突发事件等突发性网络话题,预测起点选在事件产生的时间点;而对于网民经常性、持续性讨论的非突发性网络话题,则遵循数据由少至多的原则,选择数值较低的时间点作为预测起点。
综合以上几点,构建网络话题传播趋势预测基本思路和方法如图6。
首先,针对历史网络话题,获取其传播周期内的数据,然后应用最小二乘法、三段和值法、上限估值法等确定模型参数,然后按照话题属性将历史网络话题进行聚类,得出每类的核心属性和传播规律模型参数。
其次,针对正在发生的某个网络话题,在话题
发生时,通过归类分析开展经验预测,定性预测该话题的未来趋势;随着话题数据的增多,需要根据数据确定预测模型,然后根据模型开展趋势预测,进而划分话题传播阶段,并且随着新数据的融入开展动态预测。具体方法是:将微分形式的模型dFdt=FfFK变为差分形式的方程:
ΔFk=Fk+1-Fk=FkfFkK(4)
其中k=0,1,2,…。差分形式中,ΔFk代表網络话题统计数据,Fk则代表网络话题传播量,通过多元回归分析便可以确定模型中的待定参数,具体预测思路见图6。以网络话题传播规律模型dFdt=-rFlnFK为例,其对应的差分方程为:
ΔFk=Fk+1-Fk=-rFklnFkK=rFklnK-rFklnFk(5)
其中k=0,1,2,…,n-1。通过差分形式能够得出,ΔFk与Fk、FklnFk呈现二元线性结构,应用EXCEL或者MATLAB软件进行二元线性回归分析,即可得出回归方程的系数r和rlnK,从而求解方程得到模型的参数K和r。
42网络话题传播趋势预测的应用
根据网络话题可预测性特征,在确定网络话题传播规律模型之后,综合运用预测方法进行网络话题传播趋势预测。首先,在确定预测方法后,通过部分数据可以预测网络话题传播的未来趋势,进而提前确定传播阶段,并且随着新数据的加入,通过动态预测可以动态修正预测结果和划分阶段的结果。其次,对于突发事件等突发性网络话题,通过动态预测网络话题未来趋势,可以提前感知反转、衍生等现象;对于网民经常性、持续性讨论的话题等非突发性网络话题,通过动态预测网络话题传播趋势可以识别多个话题周期。网络话题传播趋势预测应用的具体思路(图7)如下:
1)常态模型预测:随着话题数据增多至Pk点,通过动态预测可以得出话题未来趋势(图中虚线),并可据此划分网络话题传播阶段。
2)异常数据感知:如果网络话题出现衍生、反转或者产生新的传播周期等,则网络话题数据会呈现图中实线趋势,当进行数据预测时,随着Pk点之后Pa、Pb、Pc、Pd等数据的加入,预测数据和真实数据差距不断扩大,会导致增长率和上限发生明显波动,据此可以感知网络话题传播趋势异常,为进一步判断话题衍生、反转或新周期等现象提供依据[19]。
5实证研究
51案例来源
“雾霾”网络话题属于非突发性网络话题,自2013年开始成为网民持续讨论的热门话题,通过百度指数数据发现(图8),“雾霾”网络话题呈现一定周期性。为验证模型合理性和可行性,本文选择“雾霾”话题的最新微博数据进行实证研究,数据选择时间为:2018年11月9日至12月9日,网络话题传播量暂不考虑评论、点赞、收藏等信息,仅考虑原创和转发微博数量,实证数据取为原创微博和转发微博数量之和,共5 631 750条微博数据。
52数据建模
首先,选择3类模型作为备选的常态模型;其次,选取2018年11月9日至11月18日数据作为建模数据。通过计算数据差分并应用回归分析得到模型参数(见表2),模型I数据拟合效果较好,所以采用模型Ⅰ划分网络话题传播阶段并开展数据预测。
521划分网络话题传播阶段
根据模型Ⅰ的解和参数,计算划分网络话题传播阶段的关键时间节点(表3),分别得出划分两阶段、三阶段、四阶段、五阶段的数值标准。以划分三阶段为例:潜伏期为[0,39006],扩散期为[39006,58944],消退期为[58944,+∞],其中网络话题传播最快的扩散期时长为19938天,期间新增微博量约1 211 421条,平均每天607 594条,而潜伏期(39006天)仅约443 361条,平均每天113 665条,说明在扩散期网络话题迅速传播。在深入解读网络话题传播机理时,可以根据需要选择划分阶段的方法,也可以选择多个方法并进行比较研究。
522网络话题传播趋势预测以及异常识别
根据模型Ⅰ的参数,应用2018年11月19日之后的数据开展动态预测,确定模型增长率和對应的可决系数,并且随着新数据的加入,动态修正模型参数(表4),与此同时,绘制增长率变化趋势图(图9)。
线拟合效果较好。但加入第15个数据以后,可决系数持续降低,尤其是加入第18个数据之后,可决系数降至03519,拟合效果极不理想,这说明真实数据已经偏离理论模型,由此可以推断话题传播出现数据波动现象,这一点可以通过原始数据(图8中11月26日数据)获得验证;更进一步发现:这一数据波动异常现象并非瞬间产生,在可决系数持续降低时已有先兆。所以在网络话题传播趋势动态预测过程中,当可决系数持续降低时,可以推断数据波动将要来临,进而及时感知数据异常,而导致数据异常的原因则需要深入解读网络话题信息而得出。
6总结与展望
本文基于微分方程构建了网络话题传播规律模型,提出划分网络话题传播阶段的一般方法,并据此研究网络话题传播趋势预测问题,在以下4个方面具有一定创新性:1)在提出常态模型的基础上,针对不同的应用场景提出了相应的衍生模型,提升了网络话题传播规律模型的系统性、适用性;2)提出了不同传播阶段的预测方法,特别是大数据环境下,提出应用差分回归法进行及时快速的动态预测并动态调整预测结果,为提前感知传播趋势以及衍生、反转、新周期等传播现象提供新方法;3)基于网络话题传播规律模型进行分析和预测,解决了网络话题传播“分析——预测”一体化的问题;4)网络话题传播的实质是信息的传播,本文通过定量建模的方式进行网络话题传播阶段的划分和测度,为解决信息生命周期理论中周期内阶段如何划分、怎样测度以及如何预知新周期等问题,提供了新视角和可行路径。此外,本文仅仅研究了网络话题传播规律的常态模型,针对文中与之对应的衍生模型需要进一步研究,例如不同场景下网络话题传播规律建模、如何加入控制项描述网络推手或者网络水军对网络话题的影响、如何构建方程组描述多个网络话题相互影响等问题。
参考文献
[1]王晰巍,赵丹,魏骏巍,等.移动环境下网络舆情信息传播模式及实证研究——以埃博拉话题为例[J].情报学报,2015,34(7):683-692.
[2]金兼斌,陈安繁.网络事件和话题的热度:基于传播效果的操作化测量设计[J].中国传媒大学学报,2017,39(5):71-75.
[3]王璟琦,李锐,吴华意.基于空间自相关的网络舆情话题演化时空规律分析[J].数据分析与知识发现,2018,2(2):64-73.
[4]陈卓群.基于共词网络的社交媒体话题演化分析[J].情报科学,2015,33(1):120-125.
[5]廖君华,孙克迎,钟丽霞.一种基于时序主题模型的网络热点话题演化分析系统[J].图书情报工作,2013,57(9):96-102.
[6]陈福集,黄江玲.基于演化博弈的网络舆情热点话题传播模型研究[J].情报科学,2015,33(11):74-78.
[7]郭瑞强,郭阿为,韩忠明,等.网络热点话题传播的脉冲时序行为动力模型[J].计算机工程与应用,2015,51(16):121-129.
[8]韩忠明,张梦,谭旭升,等.基于自激点过程的网络热点话题传播模型[J].计算机学报,2016,39(4):704-716.
[9]谭娟.基于传染病模型的社交网络舆情话题传播[J].计算机工程与应用,2015,51(12):118-122.
[10]马晓宁,王惠.基于PSO优化BP神经网络的话题趋势预测[J].计算机工程与设计,2018,39(9):2907-2911.
[11]谭鹏,罗顺莲,孙小淞,等.基于小波神经网络的话题热度预测模型研究[J].现代信息科技,2018,2(5):74-78.
[12]剧雷鸣,杨俊成.基于支持向量机的网络热点话题预测[J].微型电脑应用,2017,33(7):30-32,36.
[13]劉英华.基于鲁棒回声状态网络的网络微博热门话题建模与预测[J].计算机应用与软件,2016,33(1):295-299.
[14]张睿,李树刚.基于复杂网络的微吧话题流行度预测研究[J].科学技术与工程,2015,15(17):72-78.
[15]程葳.利用Hurst指数预测网络话题热度[J].现代计算机:专业版,2012,(23):3-7.
[16]罗贤春.网络信息生命周期[J].图书馆学研究,2004,(2):51-53.
[17]马费成,苏小敏.网络信息生命阶段的模糊识别研究[J].情报科学,2012,30(9):1277-1283.
[18]索传军.试论信息生命周期的概念及研究内容[J].图书情报工作,2010,54(13):5-9.
[19]夏一雪,袁野,张文才,等.面向大数据的网络舆情异常数据监测与应用研究[J].现代情报,2018,38(6):80-85.
(责任编辑:孙国雷)