基于文本分析的微博博文影响力实证研究
2015-09-08张亚莉鲁梦华徐祎飞
张亚莉 鲁梦华 徐祎飞
[摘要]微博改变了当前中国社会的话语形态和舆论格局,本文运用文本分析、相关分析和层次回归分析等方法对随机选取的80个新浪实名认证的博主的1600条微博博文进行了实证研究,验证了博主特性、博文内容是左右博文影响力的主要因素,而博主身份在这个影响过程中也起到了一定的调节作用。根据研究结论,本文还对微博使用者和运营商提出了提高微博影响力的相关建议。
[关键词]微博;博文;博主身份;文本分析
[中图分类号]G203
[文献标识码]A
[文章编号]1008-0821(2015)02-0023-05
2010年,以新浪为首的国内四大门户网站相继开设微博后,中国已进入到了互联网发展的微博时代。截至2013年12月,我国的微博用户规模约为2.81亿,微博使用率为45.5%。据统计,新浪微博的用户总数占所有微博用户数的一半以上。可以说,微博的产生和发展改变了当前中国社会的话语形态和舆论格局,微博影响力的研究在当前互联网环境下具有十分重要的现实意义和理论价值。微博更具草根性,在操作上也更加简单方便,而且可以在浏览器、移动终端等多个平台上运用。微博兴起的主要原因有三方面,即门槛低、发布快、扩散广。
近几年,随着微博的爆发式发展,各类相关研究也不少见。然而,这些对微博的现有研究多数关注微博与其他变量的关系,而没有关注微博本身的特性,例如通过微博影响力来分析微博的营销模式,以用户活跃度与用户影响力两个维度建立了微博意见领袖的指标体系等等。而本研究则选择从微博的博文本身出发,探讨博文自身的特性与内容对其影响力的作用,并分析在这个影响过程中博主身份可能存在的调节作用。通过采用传播学中的文本分析技术与量化的实证研究相结合的方法,收集大量一手数据建立数据库,并综合运用文献分析、描述性分析、相关性分析和层次回归分析等方法,对提出的研究假设进行验证。
1 研究模型与理论假设
由于博主既是使用微博的主体,又是微博发展的关键,研究其在微博影响力中的重要作用,可以对微博使用者及微博运营商提供科学有效的意见和建议。Song和Agarwal曾对博客社区中的意见领袖及其影响力进行了研究。Rhee分析了意见领袖及所具有的特征以及意见领袖发表的帖子与其他用户的帖子所存在的差异。Kwak和Meeyong用粉丝数量和微博转发数量对用户影响力进行了衡量,结果表明微博用户粉丝数量的多少和微博的转发或评论数没有必然联系。
诸如上述对微博影响力的相关研究中,研究的主体也大都选择微博这一整体,而鲜有选取微博的构成成分进行研究,考察微博影响的前因变量。本研究聚焦微博博文本身,旨在探明微博博主特性及博文内容两者是如何分别或共同作用博文影响力的。考虑到不同身份背景的博主在使用微博过程中会产生不同的行为,进而使得创作出来的博文对其他用户产生不同的影响,可以推断博主身份在博主特性、博文内容和博文影响力之间起调节的作用。故本文的理论模型如图1所示。
1.1博主特性与博文影响力
微博博主是微博博文的创造者,博文如果受到较大关注或产生巨大的影响力,必定受益于博主的某些特性。在新浪微博中,关于博主的内容有粉丝数量、发表博文数量、博主等级、博主关注的用户数量等等。博主等级这个指标是用注册时长和发表微博数量等计算出来的,不属于一级特性指标,故本文暂不研究。博主关注的用户数量属于他人对博主的影响,也不属于本文研究的范围,所以博主特性在本研究中取粉丝数量与博文数量两个指标进行研究。同时,博文影响力用博文转发数、博文评论数、博文总体评论质量、评论者身份这些量化的指标来测量。据此,提出了第一组假设:
H1:博主特性对博文影响力具有影响;
H1-1:博主粉丝数越大,博文影响力越大;
H1-2:已发表博文数越大,博文影响力越大。
1.2博文内容与博文影响力
一篇微博博文往往除了基本的文字、图片还有其他诸多基本的属性,比如微博的话题、博文的深度、博文的互动性等等。这些属性一同构成了博文内容,并进一步对博文影响力产生作用。博文如有话题,那么“粉丝”们就会很容易明白博主想要表达的意思,并就这个话题展开评论或转发。其他不是其“粉丝”的微博用户也能以这个话题为关键词搜索到该篇微博,并很有可能因为赞同博主的博文观点对博主进行关注,成为一名新的“粉丝”。同样,博文内容这一特性包含的其他方面也会对博文影响力产生相似作用。本研究根据这一原理,分别从博文话题性、博文深度、博文互动性3个维度来探讨博文内容对博文影响力的作用。因此,便得出了博文内容对博文影响力的第二组假设:
H2:博文内容本身与博文影响力有高相关性;
H2-1:博文话题性对博文影响力具有正向影响;
H2-2:博文深度对博文影响力具有正向影响;
H2-3:博文互动性对博文影响力具有正向影响。
1.3博主身份的调节效应
在微博中,每一个网民只要注册成为微博用户都能拥有发布信息的权限,即成为信息的传播者。创作微博门槛低的特性,使得在传播者之中并不区分他们的角色和属性。在微博发展的初期,将具有权威传播者身份的用户与一般身份的传播者进行区分并加以标示,以确保受众在接受传播者的信息时可以辨别信息来源的真伪。通常在经过验证的组织、机构的微博名称后添加蓝色“V”字,在通过认证的名人、权威人士或普通用户的微博名称后添加黄色的“V”字,作为与一般传播者区别的标记。而这些形形色色的博主,会因为自己所处的角色不同,而对同一话题或现象产生不同的反应,写出不同的博文,其对博文影响力也会不同。因此在本研究中,将博主身份作为一个调节变量,来分别考察博主特性、博文内容对博文影响力的调节效应。据此,本文提出以下假设:
H3:博主身份对博主特性和博文影响力的关系有显著的调节效应;endprint
H3-1:粉丝数对博文影响力的作用受到博主身份的调节,对于组织官方及名人的微博博文,调节作用显著;
H3-2:博文数对博文影响力的作用受到博主身份的调节,对于组织官方及名人的微博博文,调节作用显著;
H4:博主身份对博文内容和博文影响力的关系有显著的调节效应;
H4-1:博文话题性对博文影响力受博主身份的调节,对于组织官方及名人的微博,调节作用显著;
H4-2:博文深度对博文影响力受博主身份的调节,对于组织官方及名人的微博,调节作用显著;
H4-3:博文互动性对博文影响力受博主身份的调节,对于组织官方及名人的微博,调节作用显著。
2 研究方法
2.1研究样本
本研究的样本来自80个新浪微博实名认证的博主,在2012年10月至2013年4月间随机选取每个博主发表的20条博文,共采集到博文1600条。根据博主的身份和所处行业等信息,将博文数据分为4组,每组20个博主,分别命名为名人组、媒体组、政府网站学校组、中国500强组。博主特性中有博主名称、博主身份、粉丝数量、博文数量等;博文内容有博文具体内容、微博长度、是否带有图片或视频、是否转发、是否有话题、是否@其他用户、发表时间、最后评论时间等;博文影响力采集了博文的赞数、转发数、收藏数、评论数、高质量评论百分比、评论者中认证或达人百分比等。
2.2变量测量
2.2.1博主特性的测量
在博主特性这一变量中,本研究选取了博主名称、博主身份、微博等级/首篇微博发表时间、活跃天数/升级还需时间、粉丝数量、博文数量等测量值,在政府网站学校组和中国500强企业组中,由于新浪微博没有对博主进行等级排名,所以选择了博主所处的行业进行特征值采集。通过对所有样本数据进行横向比较后,选取粉丝数量和博文数量两个指标作为博主特性的测量值。
2.2.2博文内容的测量
在博文内容这个变量中,4个分组均采集了博文文本内容、微博长度、是否带图片或视频、是否转发他人、是否有#话题#、是否@其他用户、发表时间、最后评论时间这8个测量的数据。
2.2.3博文影响力的测量
对于博文影响力这一变量,本研究从赞数、转发数、收藏数、评论数、字数超过14个字的评论数、评论者中认证或达人的百分比这6个测量值进行数据的采集。其中赞数、转发数、收藏数、评论数这4组数据新浪微博都向公众进行了明文公开统计。由于赞数和收藏数多出现于名人组中,于是只对转发数与评论数两个数据进行测量。
3 数据分析和结果
本研究使用了SPSS18.0和MS-Excel对搜集到的样本数据进行了描述性统计分析。选取的60个博主,其粉丝数的平均值为867.45万,方差为1.50701E+14;同样,博文数均值为144 10.45,方差为3.07E+08。由此可见,直接对采集到的数据进行分析,将很难得到我们所想要的结果。故而,我们将这些数据进行标准化,并将诸如粉丝数、博文数、博文长度、发表时段等连续类的测量值进行检验,保证连续型数值服从正态分布,以确保后续检验的可靠性。将粉丝数、博文数这些数值差距较大的测量值进行变换,以10取对数,得到其对数值,利用SPSS18.0软件中的单样本K-S(柯尔莫戈洛夫)检验法进行正态分布的一致性检验。粉丝数检验结果如表1所示。
同样对博文影响力的4个指标维度也进行取对数的变换,以保证数据基于正态分布的可靠性。接下来,对博文内容中所采集的数据进行描述性统计。对0/1变量的测量值,不需要进行是否服从正态分布的检验,而每一个维度也只取单一的测量值作为计算值。结果如表2所示。
从表2中可以看出,大约有25%的样本博文都带有话题,再对每个微博博主的20条微博博文进行分析,发现每个博主的博文中,都会有话题的出现。说明各类博主已经对在发表博文过程中添加话题这一行为有了相对普遍的认识,并且已经习惯在发表博文时运用这一技巧;样本中博文的深度平均值较高(0.8531),说明人们在写博文时经常在文本中插入图片、视频和链接;博文互动性的平均值是0.36,表明博主在发表微博时会在一定程度上存在转发他人微博、带有话题性和@其他用户的情况。
3.1各变量之间的相关关系
对所采集到的数据进行上述必要的处理后,对各变量间的相关关系进行了研究。发现博主特性中粉丝数量与博文转发数(r=0.64,p<0.01)、博文评论数(r=0.66,p<0.01)均呈现出了中度正相关关系;而其与评论质量(r=0.13,p<0.05)、评论者身份(r=0.30,p<0.01)则呈现出了较低的正相关关系。由此支持了前文中的假设H1-1,说明微博博主粉丝数越大,博主发表的博文影响力就越大。而博文数量对上述变量均没有呈现出显著的相关关系,未能对假设H1-2进行有效支持。
博文内容中博文话题性与博文转发数(r=0.24,p<0.01)、博文评论数(r=0.25,p<0.01)均呈现出低度正相关关系。对假设H2-1的结论提供了部分支持,说明博文话题性对博文影响力有一定作用。博文深度与博文转发数(r=0.16,p<0.05)、博文评论数(r=0.17,p<0.05)、评论质量(r=0.17,p<0.05)和评论者身份(r=0.14,p<0.05)均呈现出显著的较低正相关关系,说明博文深度对博文影响力有着正向作用,但并不是主要作用因素。由此对假设H2-2提供了力度较弱的支持。博文互动性与博文转发数(r=0.17,p<0.05)呈现出了显著的极低正相关关系,而与博文评论数、评论质量以及评论者身份均未产生显著相关性。因此对假设H2-3不能提供充分的支持。表3总结了各个变量的平均值、标准差和相关系数。
3.2博主身份的调节作用分析endprint
3.2.1博主身份在粉丝数量与博文影响力之间的调节作用
首先将发表时段变量作为第一层变量引入方程,然后将粉丝数量作为第二层变量引入回归方程,结果显示,粉丝数量的主效应显著(模型2,β=0.21;模型6,β=0.16;模型10,β=0.25;模型14,β=0.18,p<0.01),即粉丝数量在很大程度上直接影响博文影响力。再将调解变量博主身份(组织、个人)作为第三层变量引入回归方程,结果显示,对博文影响力做出了新的贡献,解释的变异量分别增加了7%、15%、16%和3%。最后一步,将粉丝数量与博主身份的两个维度的交互作用作为第四层变量引入回归方程,结果显示粉丝数量对博文影响力的作用受到博主身份的调节作用显著。为了消除共线性,在构造自变量和调节变量的乘积项时,又将自变量和调节变量分别进行了标准化。最后的结果让我们看到,博主身份不论是作为名人的个人博主,还是作为企业、政府、网站等的组织博主,其博文的影响力均会因为粉丝数量的增加而大大提高。所以假设H3-1没有得到支持,即博主特性中的粉丝数对博文影响力的作用受到博主身份的调节作用不显著。表4列出了整个层次回归的结果。
3.2.2博主身份在博文话题性与博文影响力之间的调节作用
由于前文已经分析到博文话题性仅对博文转发数、博文评论数有相关关系,故在这里讨论博主身份的调节作用时,也仅针对博文影响力的这两个维度进行。博主身份如果是组织时,博文的话题性对博文的转发数有显著的提高,而当博主是个人时,这种影响不是很明显。而在对博文的评论数这一维度进行分析时发现,博文话题性对博文影响力的作用不随博主身份的区别而有明显改变,故调节作用基本显著。即博主身份在博文话题性对博文影响力的博文转发数这一维度调节作用显著,博主身份在博文话题性对博文影响力的博文评论数这一维度调节作用显著。故假设H4-1得到了部分的支持。
3.2.3博主身份在博文深度与博文影响力之间的调节作用
当博主身份为个人时,博文深度对博文转发数和评论质量有显著作用,对评论者身份有着较为明显的作用,而对博文评论数的作用不明显;博主身份为组织时,博文深度只对评论质量有着显著的作用,对其他3个维度均不明显。因此博主身份在博文深度对博文影响力的作用过程中,只起到了部分的调节作用。于是,这一结论就为假设H4-2博文内容中的博文深度对博文影响力的作用受到博主身份的调节,对于组织官方及名人的微博,调节作用显著,提供了部分的支持。
4 讨论
本研究以80个新浪微博博主的1600条博文为研究对象,对微博博文影响力进行了研究,同时对博主身份在影响力作用过程中起到的调节作用进行了分析,根据表5所示的假设验证情况,得出了一些研究结论,具体如下:
(1)博主特性对博主发表的博文影响力具有影响。博主粉丝数越大,博主发表的博文影响力越大。而该博主已发表博文数越大,博主发表的博文影响力并未有显著提高。
(2)博文内容本身与博文影响力有较高相关性。其中,博文话题性对博文影响力具有正向影响,博文深度对博文影响力也具有正向影响,但博文互动性对博文影响力的正向影响不显著。
(3)博主身份对博主特性和博文影响力的关系有部分的显著调节效应。其中,博主特性中的粉丝数对博文影响力的作用受到博主身份为个人或组织的调节作用显著;而博主特性中的博文数对博文影响力的作用,博主身份的调节作用不显著。
(4)博主身份对博文内容和博文影响力的关系有部分的显著调节效应。其中,博文内容中的博文话题性、博文深度对博文影响力的作用受到博主身份为个人或组织的调节作用部分显著;而博文内容中的博文互动性对博文影响力的作用未能受到博主身份的调节作用。
(5)对于微博博主来讲,组织的微博相比个人的更具有发表博文的一贯性。例如某组织博主绝大多数的博文都会加入话题、图片和链接,有些组织博主则很少转发其他微博博主的博文。对于个人博主而言,随意性就相对大些,转发、加入话题、图片或链接的特殊的手段运用得也缺乏规律性。他们更多的是以其博文内容的精彩度或吸引度来提高自己的博文影响力。
5 建议
根据以上研究结果,本研究对广大微博使用者和微博运营商提出了以下建议:
针对广大的微博博主,如果是以个人身份建立的微博,如若想要提高博文影响力,则在博文中最好加入话题,并用两个“#”加以标注。这样可以提高其他微博博主对该博文的浏览量,进而提高原微博博主的粉丝量,以增加博主博文的影响力。同样,在博文中加入图片、视频等多媒体,丰富博文的内容,提高博文的深度,也可以进一步增强博文的影响力。对于以组织身份建立的微博,往往是该组织用于向外发布信息的重要渠道,对于不同的组织微博来讲,形成自己的博文撰写风格至关重要。
对于还未开通微博的个人或组织来讲,应该意识到微博已经成为现代社会中沟通的一个重要手段和渠道。作为一个组织,可以通过微博向外界发布各类信息,或者与其利益相关者进行良性互动;而个人,尤其是组织中的管理者、意见领袖,更应该接收新鲜事物,利用微博这一新媒体与组织内外成员进行交流,为组织沟通做出有利的贡献。
6 贡献及不足
与前人更多地研究微博对人与人之间的沟通、新闻事件的传播、社会的发展等“宏观”影响不同,本文将着眼点聚焦于博文自身的不同情况对博文影响力的作用机理,选取微博的原本属性进行研究,不仅考虑微博影响的后果变量,而且考量微博影响的前因变量。在对大量原始数据采集和分析的基础上,对博主身份、博主特性、博文内容、博文影响力之间的关系进行了定量的风险和探讨。虽然本研究所使用的样本数量达到了统计分析的要求,但由于时间所限,本文仅以新浪微博博文作为研究对象在一定程度上降低了研究结论的适用性。此外,本研究仅验证了博主身份的部分调节作用,在自变量和因变量之间还可能存在其他的中介变量或调节变量,找出这些可能存在的变量,有助于进一步探讨博文影响力的研究。
(本文责任编辑:孙国雷)endprint