APP下载

基于群体智慧理论的协同标注信息行为机理研究
——以豆瓣电影标签数据为例

2021-02-25冯翠翠莫富传邓卫华

情报学报 2021年1期
关键词:标签协同群体

易 明,冯翠翠,莫富传,邓卫华

(1.华中师范大学信息管理学院,武汉430079;2.华中农业大学公共管理学院,武汉430070)

1 引言

作为一种典型的协同信息组织行为,协同标注信息行为是群体用户根据各自的需要和理解自由选择词汇作为标签对资源进行标注的信息行为。虽然每个用户标注资源的信息动机不同,但是其标注行为通过协同标注系统的集成便能产生整体效应,即“涌现”出对应某个资源的、被大多数群体用户所认同的分类标准。因此,协同标注信息行为本质上是一种基于群体智慧的协同信息组织行为。

从目前的研究现状来看,国内外学者围绕协同标注信息行为的研究主要涉及内涵、影响因素、过程机理等方面。其中,大部分学者从行为学的角度出发,认为协同标注是指众多用户参与的、反映心理认知的过程,提出协同标注信息行为作为一种用户自发的群体性行为,是根据用户的主观认知实现标签与资源的匹配[1-4]。在影响因素方面,相关研究成果集中在资源、用户、标签和系统等四个维度。目标资源维度主要关注资源的内容主题[5]、资源形态[6],以及资源本身及其相互之间的连接、用户和资源的结合[7];用户维度关注用户偏好[8]、用户认知[9]、标注动机[10]、标注能力[11]等;标签维度被认为是标签的主题与质量对于用户的标签使用行为具有显著影响,系统维度则主要从ATM理论出发提出标注系统感知有用性和感知易用性对协同标注信息行为产生影响[12]。此外,极少数学者从群体层面对协同标注信息行为的过程机理展开了探索,认为协同标注信息行为是让每个用户都能贡献其对信息编码分类的知识,然后系统用统计汇总的方式把最能被众人接受的分类法凸显出来[13],最终生成的代表着用户集中化、大众化的标注词集在一定程度上客观地反映了标签变化过程的协同过滤结果[14-15],其本质是以标签为媒介将用户隐性知识显性化[16],通过标签的积累使得群体知识得以涌现[17]。

通过梳理文献发现,目前,学者们主要聚焦于对协同标注信息行为影响因素的研究,而且更多的是从个体层面展开,忽视了作为群体层面的协同标注信息行为的协同性和过程性。所谓协同性,强调的是协同标注信息行为是一种典型的协同信息行为,需要群体用户之间的协作才能完成协同标注信息行为的最终目标——大众分类;所谓过程性,强调的是协同标注信息行为的阶段性特征,即大众分类的形成需要经历群体用户的协同过程才能完成。虽然极少数学者从群体层面探索了协同标注信息行为的过程机理,但是相关研究侧重于理论层面的阐述,尚未构建相应的理论模型,也缺少对协同性、过程性等特征的定量探索。因此,本文借鉴群体智慧理论解析协同标注信息行为模型,并以豆瓣电影标签数据为例开展实证分析,以期丰富协同标注信息行为的相关研究。

2 群体智慧理论

2004年,Surowiecki出版了The Wisdom of Crowds一书,第一次使群体智慧这个概念成为大众关注的焦点[18]。目前,群体智慧已经成为Web 2.0的核心要素,在产业界得到了广泛应用。所谓群体智慧,是指由组成群体的个人贡献出自己的知识、技能和经验,通过个体间的协作、灵感互动、相互启迪等共享机制,产生的优于任何个人的智慧[19]。

虽然群体智慧的重要性与普遍性已经得到了广泛认同,但是关于群体智慧涌现的机理,不同的学者有着不同的观点。Nishimoto等[20]将个人思考模式、合作思考模式、协作思考模式等有机融合,提出了群思考模型;在此基础上,Nunaneker等[21]将个体之间的协作划分为聚集、协调和协作三个层次,由此构建了群体智慧涌现的协作过程模型;甘永成等[22]从虚拟学习社区知识建构的视角,将集体智慧的螺旋上升周期分为发散、收敛、凝聚和创新四个阶段,并据此构建了集体智慧涌现的四阶段模型;Lykourentzou等[23]认为协作内容的质量和数量是吸引用户进行群体协作的原因,同时,用户量的增长对于内容质量和数量又有促进作用,由此构建了互联网用户协作创作模型;赵芳等[24]针对滇池可持续发展问题呈现在万维网上的庞杂信息,利用链接结构分析方法从中挖掘出主题层次,从定量的角度揭示了由庞大观点构成的复杂体系中提炼出深层次群体智慧的动态过程;Hong等[25]研究表明,经验分散化、参与者独立性和网络分散化对群体智慧的涌现有积极的影响,开发基于人群的、通过考虑人群的多样性、独立性、分散性和人群规模来有效地汇聚人群意见的决策工具对于提升群体行为绩效具有重要意义;吴增源等[26]运用Lotka-Volterra模型揭示了开放式创新社区集体智慧涌现的内在机理,认为企业知识开放是集体智慧涌现的“加速器”,而在不同的生态关系中,集体智慧涌现的水平会有所差异。

协同标注信息行为是一个基于群体智慧涌现的分类知识产生过程,这种群体智慧的涌现是一个量变到质变的过程。甘永成等提出的四阶段模型,对于协同标注信息行为机理分析有着重要的指导意义。然而,四阶段模型中的创新状态是指个体乃至群体思维能力的提升,适用情景在于提出和探讨新问题,其关注点在于个体思维能力的升华,与发散、收敛、凝聚状态关注群体认知变化趋势存在一定差异。因此,发散、收敛和凝聚三个环节才是群体智慧涌现的核心,从而也成为本文构建协同标注信息行为模型的关键要素。

3 基于群体智慧理论的协同标注信息行为模型

基于上述分析,本文认为需要将甘永成等提出的四阶段模型作适当调整,仅将群体智慧的发散、收敛、凝聚状态纳入协同标注信息行为模型中,最终形成了如图1所示的模型。其中,宏观层面包含了初始阶段、中级阶段和终极阶段三个子过程,其描述了协同标注信息行为由量变到质变的过程,从而凸显了协同标注信息行为的过程性;微观层面包含了发散、收敛和凝聚三个子环节,其描述了协同标注信息行为中群体智慧涌现的基本过程,从而凸显了协同标注信息行为的协同性。由于微观层面发散、收敛和凝聚等子环节的相互作用,使得协同标注信息行为在宏观层面会经历从初始阶段到中级阶段并最终进入终极阶段的循序渐进过程。

3.1 宏观解析

3.1.1 初始阶段——杂乱无章

图1 基于群体智慧理论的协同标注信息行为模型

目标资源在协同标注系统中的出现便意味着初始阶段的开启。此时,特定用户可以基于不同的信息动机和认知对目标资源进行标注,从而推动协同标注信息行为进入发散环节。随着其他用户的参与,目标资源相关的标签种类、数量会逐渐增加,少数标签数量可能会相对占优,但总体上规模相对较少。例如,在某部电影正式上映之前,豆瓣网就会将该电影信息展示在即将上映页面中,但此时豆瓣网用户对其关注度相对较低,与该电影相关的标签数据也相对较少。由于协同标注系统协同功能的发挥需要建立在一定数据规模的基础上,所以初始阶段收敛环节的作用有限,凝聚效果不明显,使得初始阶段群体用户的标注策略以自建标签为主,导致目标资源的分类体系是杂乱无章的。

3.1.2 中级阶段——局部共识

随着标注用户的不断增加,协同标注信息行为将由初始阶段进入中级阶段,其标志是群体用户针对目标资源的分类标准达成局部共识。协同标注信息行为能否由初始阶段进入中级阶段,关键在于收敛环节是否有效,也就是引用其他用户使用的标签或者接受协同标注系统推荐的标签的标注策略是否会不断增加。随着目标资源的标注用户迅速增加,标签的种类、数量也在激增,从而形成了较好的基础数据集,为协同标注系统协同功能的发挥提供了重要支持。一旦协同功能发挥效用,引用标签的概率就会上升,从而推动收敛环节的正常运行。例如,在某部电影上映后,豆瓣网用户的关注度迅速上升,参与标注的用户持续增加,该电影资源获得的标注数据也越来越多,在协同功能的支撑下,收敛环节将不断产生重复标签。随着时间的推移,可能会出现高频标签,但由于标注用户还在持续增加,所以此时的高频标签只能代表一种阶段性的局部共识,而协同标注信息行为也由此进入中级阶段。

3.1.3 终极阶段——全局共识

在后续标注用户的推动下,协同标注信息行为最终会由中级阶段进入终极阶段,其标志是针对目标资源的分类标准形成全局共识,即大众分类的涌现。从实践角度看,当电影网络资源开放后,会吸引大量先前想观看该电影但尚未去影院观看的用户在网上观看电影,这时会导致新一轮用户数量的增长,最后会进入漫长的缓慢增加阶段。虽然此时发散环节也会出现,但是能够产生其他新的高频标签的可能性已经很小,收敛环节将成为主流,使得原有的部分局部共识会得到更多用户的认同,从而推动局部共识向全局共识的转化。

3.2 微观解析

3.2.1 发散——自建标签

在协同标注信息行为中,发散是指用户通过自建标签的方式对目标资源进行标注,从而产生不同种类标签。作为Web 2.0的典型应用之一,协同标注系统本身就是建立在“无知观”的假设基础上,即任何用户都不可能对日渐复杂的对象系统及问题全域有一个全面的把握,其只能按照自己的知识背景对某一领域的某一问题有着一定了解[20]。协同标注系统的参与门槛较低,用户只需要根据自己的主观认知使用自然语言来对目标资源进行标注,从而贡献了其对目标资源分类的微知识。由于用户对目标资源认知的差异性,无论用户处在哪个阶段,不同用户针对同一目标资源的标注结果也会不尽相同,自建标签会成为用户的标注策略之一,进而实现了发散。

3.2.2 收敛——引用标签

在协同标注信息行为中,收敛是指用户采取引用他人标签或接受系统推荐标签的方式对目标资源进行标注,从而产生重复标签。一方面,收敛是由于用户对相同目标资源的认知与其他用户不可避免地呈现相似甚至一致;另一方面,是因为协同标注系统为了促进群体智慧的涌现,提供了强大的协同功能予以支持。具体有两种实现方式:一是协同标注系统利用独特的方法把目标资源的已有标签展示出来,以供其他用户学习、借鉴;二是协同标注系统利用精准的推荐算法向用户推荐标签,类似于传统分类中专家的角色。从而用户可看到目标资源的已有标签以及系统推荐标签,而这些标签本质上是群体用户和协同标注系统贡献的微知识。一旦用户在主观上认同了这些微知识,那么就会采取引用标签(包括引用其他用户使用的标签以及协同标注系统推荐的标签)的标注策略,推动收敛的出现。由于协同标注系统协同功能的存在,使得收敛环节在整个协同标注信息行为过程中一直发挥作用。

3.2.3 凝聚——汇聚共识

在协同标注信息行为中,凝聚是指群体用户针对目标资源的分类标准出现了共识,从而产生高频标签。换而言之,经过发散和收敛等环节,群体用户针对目标资源的分类标准出现重叠的情形越来越多,逐步形成了不同程度的共识。如果在局部群体中出现了高频标签,或者是在目标资源的特定维度出现了高频标签,那么此时产生的就是局部共识;反之,则是全局共识,同时也意味着大众分类的涌现。事实上,由于收敛的作用,凝聚环节贯穿整个协同标注信息行为过程,只是不同阶段的体现有所差异。

4 实证研究

4.1 实证研究设计

本文构建的基于群体智慧理论的三阶段-三环节模型,在实证研究中,首先需要验证三阶段、三环节是否存在,进而探索相关的变化规律,具体的目标与思路如图2所示。

4.1.1 引入偏度系数和Chow检验的宏观解析

偏度是指对一组数据的分布偏斜方向和程度的测度。Li等[27]认为偏度可以作为决策中表达投资者偏好的变量;Lee等[28]的研究从偏度角度展示了评论数量和评论喜欢数量之间的关系,其认为偏度统计可以被视为一种意见偏度的指标。这些研究表明,偏度可以被视为一种反映群体意见趋势的指标,可将其借鉴运用到本研究中,即:将偏度视为一种反映协同标注信息行为过程中群体智慧水平变化趋势的指标,按时间依次计算标签标注次数的偏度系数,得到偏度系数时间序列数据,最终利用Chow检验来探测宏观层面协同标注信息行为的结构性变化,即阶段性特征。

1)偏度系数

数据分布偏度的测量值被称为偏度系数,是描述分布偏离对称性程度的一个特征数,通常记为Sk。偏度系数的计算方法有很多,常用的计算公式[29]为

其中,n为样本数量;xi为第i个样本的数值;xˉ为全体样本数值的均值。偏度表明分布偏差的程度,当分布左右对称时,偏度系数为0;当偏度系数大于0时,重尾在右侧,该分布为右偏;当偏度系数小于0时,重尾在左侧,该分布为左偏。此外,Sk的绝对值越接近于0,偏斜程度越低;Sk的绝对值越大,偏斜程度就越高。若Sk的绝对值小于0.5,数据分布为低度偏度分布;若Sk的绝对值在区间[0.5,1],数据分布为中度偏度分布;若Sk的绝对值大于1,数据分布为高度偏度分布。

由于本文需要以天为单位来计算电影标签标注次数的偏度系数,前期标签的数量很少,而偏度系数的结果会受到样本量大小的影响,故本文采用了Lee等[28]的 修 正 公 式:

其中,n为标签种类;xi为第i个标签的标注数;xˉ为全部标签标注数的均值,即全部标签的标注数之和与标签种类数的商。

2)Chow检验

图2 实证研究的目标与思路

Chow检验是用于判断结构在预先给定的时点是否发生了变化的一种方法[30]。Chow检验的特点在于把时间序列数据分成两部分,其分界点就是检验是否已发生结构变化的检验时点。Chow统计量遵循k和N1+N2-2k自由度下的F分布,可以根据累积F分布计算单侧p值。在此基础上,利用F检验来检验由前一部分n个数据求得的参数与由后一部分m个数据求得的参数是否相等,据此判断结构是否发生了变化。式(3)是计算Chow统计量的方法之一:

其中,SSRC为组合数据的残差平方和(给定时点前数据+给定时点后数据);SSR1为给定时点前数据中的残差平方和;SSR2为给定时点后数据中的残差平方和;k为参数个数;N1为给定时点前数据中的观测数;N2为给定时点后数据中的观测数。

4.1.2 引入协同标注信息行为模式的微观解析

在基于群体智慧理论的三阶段-三环节模型中,微观层面包含了发散、收敛和凝聚等三个子环节。其中,凝聚意味着共识的产生,与群体智慧水平是同义语,其变化规律已在宏观解析中进行了阐述。故微观解析重在揭示发散、收敛子环节在三阶段的变化规律。为了表征发散、收敛子环节,本文借鉴了Langley等[31]提出的描述羊群效应模式的三个指标:个体数量、蔓延速度、一致程度,提出描述协同标注信息行为的三个指标:标注用户规模、标注扩散速度、标注方向一致性。

(1)标注用户规模,是指截至某天的协同标注信息行为用户累计数量。该指标按日期依次统计截至当天的时间段内所有参与协同标注信息行为的用户的数量,并以整个协同标注信息行为过程中的用户累计数量的平均值作为标注扩散速度的基准值。

(2)标注扩散速度,是指每天的新增标注数量。该指标按日期依次统计每天协同标注信息行为中所发生的标注次数,并以整个协同标注信息行为过程中新增标注数量的平均值作为标注扩散速度的基准值。

(3)标注方向一致性,是指由占据标注总数80%的标签构成的高频标签群的稳定性。该指标按日期依次获取当天和当天之前的占据标注总数80%的高频标签群信息(包括标签个数和具体的标签构成),然后,取同时出现在当天高频标签群与当天之前高频标签群的标签的个数除以当天之前高频标签群个数之商,作为标注方向一致性的度量值。同样地,将整个协同标注信息行为过程中同时出现在当天高频标签群与当天之前高频标签群的标签个数除以当天之前高频标签群个数之商的平均值作为标注方向一致性的基准值。

将三个指标与各自基准值进行比较,若某一指标大于其基准值,则将该指标标记为“+”;若该指标小于其基准值则标记为“-”。根据各指标的标记结果对指标进行组合,可以得到八种协同标注信息行为模式,如表1所示。需要指出的是,标注方向一致性高时,相对应的行为模式处于收敛环节;标注方向一致性低时,其所对应的行为模式则处于发散环节。

4.2 数据采集与筛选

豆瓣电影是中国最大的电影分享与评论社区,其中产生了大量动态的电影标签数据。由于电影宣传期、影院热映期和电影网络资源开放期的出现,使得电影标签数据具有独特的社会性和动态性,更能满足本研究的需要。由于豆瓣电影标签数据会实时更新,且最多显示10个页面的数据,超出10个页面的标签数据会被系统删除,因此本文使用R语言自编程序,采取24小时不间断实时爬取豆瓣电影即将上映板块中的电影标签数据,具体采集内容包括电影名称、用户名称、用户ID、标注标签、标注时间等。采集时间为2018年11月1日—2019年9月30日。通过网络检索获取电影的影院上映日期和网络资源开放日期,发现上映于2018年12月—2019年6月且网络资源于2019年8月31日前开放的电影有158部。对于单部电影而言,在网络资源开放之后,当标注数量连续一周为个位数或零时,认为其生命周期结束[32],即电影的时间长度从有标注标签首次产生的那天开始直至生命周期结束的那天为止。通过对豆瓣电影标签数据进行分析,发现有78部电影标签数据不完整,舍去后得到80部电影标签数据。同时,由于偏度统计量的计算对数据量有要求,故删去了标签量低于500的22部电影,最终选取了58部电影数据。对58部电影数据进行初步统计发现,参与标注的用户有294946人,共标注975579次。

表1 协同标注信息行为模式及其描述

4.3 宏观层面的实证分析结果

4.3.1 偏度系数分析结果

分别计算58部电影的标签标注次数的偏度系数,并绘制偏度系数散点图,如图3所示。由图3可知,每部电影的偏度系数均大于1(最小值为1.60),且平均值为5.34,说明每部电影在最终状态时都处于高度正偏状态,协同标注信息行为中的群体智慧达到了较高水平。

以天为单位,分别计算标签标注次数的偏度系数,并为每一部电影绘制偏度系数随时间变化的曲线图,部分电影的偏度系数随时间变化的曲线如图4所示。其中,横坐标表示电影的日期序号,纵坐标表示电影的偏度系数值。

由图4可知,标签标注次数的偏度系数总体呈增长趋势,且仅在初始阶段出现了几个负值。由于当偏度系数大于0时,重尾在右侧,数据分布为右偏,这与标签标注次数的正态分布曲线长尾在右侧的分布一致。同时,绝大多数的偏度系数大于1,说明数据分布长期处于高度偏度分布,即引用标签行为是整个协同标注信息行为过程中的常态。电影的偏度系数时间分布图显示,随着时间的推移,参与标注的用户开始较为集中地引用一些高频标签,最终导致有少量标签的引用程度很高,其余大多数标签的引用程度较低。也就是说,协同标注信息行为最终形成了全局共识。

图3 58部电影的偏度系数

4.3.2 Chow检验分析结果

由偏度系数随时间变化的曲线图可知,曲线具有明显的阶段性,且阶段的划分时点为电影的影院上映日期和网络资源开放日期。使用Chow检验对这两个时点进行验证,结果如图5所示(横纵坐标含义与图4一致)。其中,图中的第一条竖线为电影在国内影院的上映日期,第二条竖线为电影网络资源的开放日期。Chow检验结果显示,有46部电影两个断点在0.05水平上显著,其中43部电影两个断点均在0.001水平上显著。有6部电影第一个断点不显著(第二个断点在0.001水平上显著),6部电影第二个断点不显著(第一个断点在0.001水平上显著),不存在两个断点均不显著的电影。

根据Chow检验结果,可以认为协同标注信息行为具有明显的阶段性特征,电影前期宣传、影院热映和电影网络资源开放不同阶段内,用户标注信息行为导致了协同标注信息行为中群体智慧的结构性变化,电影上映日期与电影网络资源开放日期将用户标注行为过程划分为三个阶段:初始阶段、中级阶段和终极阶段。以电影《白蛇:缘起》为例,对协同标注信息行为初始阶段、中级阶段和终极阶段的特征进行分析,相关数据如表2所示。

图4 部分电影的偏度系数随时间变化的曲线图

在第一个阶段,即初始阶段,曲线起伏波动较大。初始阶段仅有404位用户参与标注,仅占整个协同标注信息行为过程中用户数量的2.72%,共标注了62个标签。由于自建标签仅考虑标签在某阶段内是否为首次被标注,不考虑后续是否被继续标注,即自建标签有可能演化为引用标签。因此,此阶段的62个标签应全部视为自建标签,但仍有30个标签在首次被标注后继续被引用了1228次,平均标签引用次数为40.93。虽然此时出现了不少的引用标签和较高频次标签,但标注次数达到整个截至当前阶段标注总次数的80%,标签数量占据了累计标签数的16.13%,与其他阶段相比相对较高,这表明大多数标签被引用次数较少,高频标签数量较少。结合图4可知,此时偏度系数曲线总体呈上升趋势,但偏度系数曲线的波动较大,偏度系数时间序列数据的离散系数达到0.26,是三个阶段中的最高值。

在第二个阶段,即中级阶段,曲线快速上升,到达一定峰值后趋于平缓,并略有下降。如表2所示,在电影上映后的一段时间内,涌入大量用户对该电影进行标注,此时用户数量达10206人,占整个协同标注信息行为过程中用户数量的68.8%。此阶段共有350个标签被标注,自建标签仅24个,但有339个标签累计被引用39759次,引用标签概率高达96.86%,平均标签引用次数为117.28,高频标签比例快速下降到2.57%。这表明在中级阶段的标注过程中,用户倾向于引用已有的标签,已经初步形成高频标签群。此阶段偏度系数曲线总上升趋势加快,偏度系数时间序列数据离散系数下降到0.16,说明群体意见收敛效果明显。但需要指出的是,电影资源在热映期是受用户关注度最高的时期,当进入上映后期,用户关注度下降,用户数、标签数增速变缓,偏度系数趋于稳定。

图5 部分电影的Chow检验结果

表2 电影《白蛇:缘起》不同阶段的用户与标签特征

在第三个阶段,即终极阶段,曲线重复中级阶段的上升模式,但增长幅度略有降低。如表2所示,此阶段用户占比例28.48%,远远高于初始阶段的用户数量,说明在电影网络资源开放初期,吸引了大量先前想观看该电影但尚未去影院观看的用户,导致新一轮的用户数量猛增。然而,在标注中新增的标签往往很少,引用标签是主流趋势,概率达到100%。虽然此阶段只有213个标签被引用,但已累计被引用54952次,平均标签引用次数高达257.99。这表明中级阶段形成的大部分高频标签在此阶段继续获得很高的引用次数,群体用户意见收敛效果更加显著,偏度系数继续呈现增长的趋势。电影网络资源开放一段时间之后,用户关注度将逐步下降,偏度系数时间序列数据的离散系数降为0.15,偏度系数增长幅度也相应变平缓。从整个协同标注信息行为的周期来看,此时的高频标签数为9,仅占累计标签数的1.83%,表明已经形成了稳定的代表群体用户意见的高频标签群。

4.4 微观层面的实证分析结果

4.4.1 八种模式的统计分析

八种模式分别表征了发散、收敛子环节,本文计算了每种模式在标注行为过程中的占比,以及发散和收敛的比例关系,如表3所示。

表3 八种协同标注信息行为模式的出现数量及占比

同时,进一步绘制了发散和收敛比例的堆积柱形图,如图6所示。

图6 发散与收敛比例的堆积柱形图

总体来看,在协同标注信息行为的整个过程中,八种模式均有发生。从发散与收敛的角度来看,其最终的比例接近3∶7,这说明在整个协同标注信息行为过程中,是以收敛为主的。具体而言,八种模式的出现比例可大致分为三个等级,缓慢聚合和游行模式的出现比例最高,在20%以上;缓慢蔓延、迅速聚合、冷布朗和急行军模式的出现比例中等,在10%左右;而迅速蔓延和热布朗模式的出现比例较低,尤其是热布朗,其在总体占比中不足2%。

分阶段来看,八种模式的出现比例差异很大。

在初始阶段中,只出现了前四种模式,且以缓慢聚合、缓慢蔓延模式为主,两者的占比达到了92.16%,发散和收敛的比例接近4∶6。这是因为初始阶段参与标注的用户相对来说较少,且用户在标注时会倾向于自建标签,群体用户观点发散显著。但由于用户可了解到的只是电影的外部特征信息,信息量有限,用户在标注过程中在以自建标签为主的基础上,辅之以引用标签,使得从整个初始阶段周期来看,蔓延模式将向聚合模式过渡,群体用户观点收敛环节占优。

在中级阶段中,虽然八种模式都有出现,但出现比例较高的缓慢聚合、迅速聚合和游行这三种模式均属于收敛环节,且发散和收敛的比例接近2∶8。在中级阶段中,电影资源的影院热映会集中涌入大量的用户对电影进行标注。虽然仍然会出现一系列的自建标签,但由于标注的集中性凸显,高频标签已经逐步形成,多数用户还是会倾向于引用标签,这就导致收敛环节优势更加明显。

在终极阶段中,虽然出现了六种模式,但主要以游行、急行军、冷布朗三种模式为主,其他模式的出现比例不足4%。同时,游行和急行军模式都是收敛环节的,其出现比例超过80%。从发散与收敛的角度来看,其最终的比例超过2∶8,相对于上一阶段而言,发散与收敛的比例略有上升。随着电影网络资源的开放,会吸引许多前期不愿意去电影院消费的潜在用户进入豆瓣的标注系统对该电影进行标签标注,表达自我观点。但因为经过了前面的两个阶段,协同标注系统中已经形成了局部共识,后续进入的用户在标注时会更加倾向于引用标签,使得群体用户的观点收敛作用强势,将进一步凝聚共识、达成全局共识。

4.4.2 收敛-发散环节的转移分析

本文根据时间顺序统计了八种模式的发生次序,并计算了这八种模式之间的总体经验转移概率以及分阶段的经验转移概率,具体结果如表4~表7所示。

1)协同标注信息行为中收敛-发散环节的总体转移态势分析

由总体转移概率可知,对于缓慢聚合、迅速聚合、游行和急行军四种反映收敛环节的模式,转移概率表明最有可能在下一时期出现相同的模式,即这些模式随着时间的推移是稳定的,表明群体用户意见随着时间的推移继续保持收敛趋势。其中,迅速聚合模式随时间变化最稳定(其自身转移概率为75.33%)。相反地,四种反映发散环节的缓慢蔓延、迅速蔓延、冷布朗和热布朗模式本质上是不稳定的,其在下一时期既有可能转为自身模式,又有很大的概率转为反映收敛环节的其他模式。例如,迅速蔓延模式在下一时期进入迅速蔓延模式的概率为33.13%,而进入迅速聚合模式的概率却达到了43.56%;冷布朗模式在下一时期向自身转移的概率也较高,但更有可能进入游行模式;热布朗模式倾向于在下一时期进入急行军或游行模式。缓慢蔓延、迅速蔓延、冷布朗和热布朗这四种模式的转移趋势表明协同标注信息行为所反映的群体意见处于过渡状态,在群体用户的认知因获得目标资源更多信息而趋于客观,以及协同标注系统协同功能的共同作用下,部分用户意见随着时间的推移将得到更多的认同,使得群体用户意见将由发散环节向收敛环节转移,并最终凝聚共识、实现全局共识。

表4 协同标注信息行为中收敛-发散环节的总体转移概率

表5 初始阶段收敛-发散环节的转移概率

表6 中级阶段收敛-发散环节的转移概率

表7 终极阶段收敛-发散环节的转移概率

2)初始阶段收敛-发散环节的转移分析

由初始阶段的转移概率可知,在电影上映前的这段时间内,参与标注的用户比较少,只出现了个体规模较小的四种模式。但迅速蔓延和迅速聚合模式的出现,说明在某些日期,参与标注的用户是比较集中的,这有可能是因为处于电影的宣传期。就模式之间的转换而言,由于此阶段标注行为以自建标签为主,缓慢蔓延、缓慢聚合、迅速蔓延以及迅速聚合四种模式都是不稳定的,说明此阶段发散环节作用显著。然而,缓慢聚合和迅速聚合模式的出现,以及蔓延模式向聚合模式转移的概率较高,说明此阶段用户在自建标签的同时,也会引用标签,收敛环节逐渐发挥作用。

3)中级阶段收敛-发散环节的转移分析

中级阶段的转移概率情况与总体转移概率情况类似,反映收敛环节的缓慢聚合、迅速聚合、游行和急行军四种模式将继续保持自身状态,而反映发散环节的缓慢蔓延、迅速蔓延、冷布朗以及热布朗模式则倾向于向自身或另一种反映收敛环节的模式转移。对于反映收敛环节的缓慢聚合、迅速聚合和游行三种模式而言,其向各自转移的概率比总体转移概率和初始阶段转移概率均有提高,急行军向自身转移的概率也与总体转移概率一样保持很高的水平;对于反映发散环节的缓慢蔓延、迅速蔓延、冷布朗及热布朗模式而言,相对于向自身转移,进入另外反映收敛环节的模式的概率也有所提高。上述分析表明,收敛环节在中极阶段得到增强,群体用户观点进一步收敛、凝聚。

4)终极阶段收敛-发散环节的转移分析

终极阶段的协同标注信息行为主要以个体规模大的四种模式为主,这说明在电影网络资源开放后,参与标注的用户已经具备了一定的规模。就模式之间的转移而言,反映收敛环节的游行和急行军模式最为稳定,在下一时期将出现相同的模式;反映发散环节的冷布朗和热布朗模式则更有可能向反映收敛环节的游行和急行军模式转移,冷布朗模式将更有可能进入游行模式,热布朗模式向游行和急行军模式转移的概率大体相同。上述模式的转移情况与总体转移概率一致,但冷布朗、游行和急行军三种模式的转移概率值进一步提高,热布朗模式差异不大。另外,此阶段也存在迅速蔓延和迅速聚合,但仅向反映收敛环节的迅速聚合和急行军模式转移。终极阶段的模式构成及其转移概率表明,群体用户在此阶段更加愿意引用高频标签,凝聚环节代替收敛环节,群体用户对目标资源的分类标准达成了全局共识。

从表7可以看出,左下方都是没有数据的,这是由于标注用户规模这一变量只会增加,不能减少,即不能从群体模式(冷布朗、热布朗、游行和急行军)转向个体模式(缓慢蔓延、缓慢聚合、迅速蔓延和迅速聚合)。除此之外,可发生其他任何形式的转移,甚至可以直接从个体规模小的模式进入急行军,例如,迅速蔓延和迅速聚合模式在下一时期进入急行军的概率远远高于向其他三种模式转移的概率。但是如果处于缓慢聚合模式,则倾向于先转移为游行模式,然后由游行模式进入急行军模式(如图7所示)。这表明在协同标注信息行为过程中,进入急行军模式的标准动态为:首先在方向一致性方面增加,然后增加参与标注的用户数量,提升扩散速度。

图7 总体上个体模式与群体模式间的转移

4.5 相关结论

(1)Chow检验结果显示,绝大部分电影的两个断点在0.001水平上显著,表明在电影前期宣传、影院热映和资源开放三个不同阶段内,协同标注信息行为群体智慧存在结构性变化。协同标注信息行为包含了杂乱无章的初始阶段、局部共识的中级阶段和全局共识的终极阶段。引入标注用户规模、标注扩散速度和标注方向一致性三个指标,所构建的协同标注信息行为模式在不同阶段的结构及其转移情况很好地表征了发散、收敛和凝聚等子环节。基于群体智慧理论的“三阶段-三环节”模型,凸显了协同标注信息行为群体智慧涌现的过程性和协同性,合理地解释了协同标注信息行为的机理特征。

(2)偏度系数可以作为反映协同标注信息行为过程中群体智慧水平变化趋势的指标,标签标注次数的偏度系数总体呈增长趋势,并长期处于高度偏度分布状态。这表明引用标签是整个协同标注信息行为过程的常态,最终导致少量反映群体用户意见的标签被持续引用标注,其余大多数标签的引用程度较低,群体智慧在协同标注信息行为过程中不断涌现。

(3)在初始阶段的标注过程中,参与标注的用户数量较少,标注策略以自建标签为主,尚未形成明显的高频标签,群体意见分散,目标资源分类体系杂乱无章;在中级阶段的标注过程中,数量急速增加的用户倾向于引用标签,初步形成了高频标签群,群体用户意见收敛效果明显,对目标资源分类体系达成了局部共识;在终极阶段的标注过程中,出现了新一轮用户数量的增长,中级阶段形成的大部分高频标签在此阶段继续获得较高的引用次数,群体用户意见收敛效果更加显著,形成了稳定的代表群体用户意见的高频标签群,群体用户对大众分类标准形成了全局共识。

(4)八种协同标注信息行为模式在整个协同标注信息行为过程中均有发生,但缓慢聚合、迅速聚合、游行和急行军属于收敛环节的模式较为稳定,而属于发散环节的缓慢蔓延、迅速蔓延、冷布朗和热布朗模式有较大的概率转为属于收敛环节的其他模式。同时,协同标注信息行为模式也不能从群体模式转向个体模式,反映了发散、收敛和凝聚环节的不可逆性,大众分类体系一经形成将进入稳定状态。

(5)发散与收敛的比例从初始阶段的4∶6提高到终极阶段2∶8,这说明协同标注信息行为过程以收敛环节为主,且收敛程度逐步提高,群体用户意见经历了由发散向收敛转移,并最终凝聚共识、涌现大众分类的过程。

5 结语

本文构建了基于群体智慧理论的协同标注信息行为模型,采用豆瓣电影标签数据对模型进行实证研究,从宏观和微观两个角度,证实了协同标注信息行为的过程性和协同性,验证了本研究方法的科学性,丰富了协同信息行为的理论与方法体系。同时,本文所揭示的发散、收敛和凝聚子过程的变化规律,对于协同标注系统的深度开发具有一定的指导意义,例如,可以引入偏度分析功能监测群体智慧水平,进而通过优化协同标注系统协同功能进行动态干预。

此外,本研究的方法对于“数据-信息-知识-智慧”这一价值链的定量探索具有一定参考价值,有利于下一代情报学体系中智慧情报学的纵深发展[33]。然而,本文的理论模型虽然得到了实证研究的进一步印证,但所采集的数据局限于国内单一平台、单一目标资源类型,具有一定的局限性。后续研究可采集更多实验数据,进行跨平台、多类型数据的交叉验证。此外,从标注用户、目标资源和标注系统等视角探讨协同标注信息行为中群体智慧涌现的影响因素和影响机制,也是值得深入研究的一个难点。

猜你喜欢

标签协同群体
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
“群体失语”需要警惕——“为官不言”也是腐败
“四化”协同才有出路
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
京津冀协同发展
让衣柜摆脱“杂乱无章”的标签
科学家的标签
关爱特殊群体不畏难