APP下载

微博群体用户画像模型及其信息耦合传播机理研究

2018-09-10刘海鸥张静李源康鹏松

电子商务 2018年11期
关键词:用户画像

刘海鸥 张静 李源 康鹏松

摘要:构建微博群体用户的画像模型并对其信息行为进行分析,是认识大数据环境下微博群体用户复杂行为的前提和基础,有助于微博平台精准营销的实施。以微博群体用户为例,基于微博数据构建了微博群体用户画像的概念模型,由此对其信息耦合传播机理进行实证分析。

关键词:微博群体用户;用户画像;信息发布行为;交互行为

作为异军突起的新兴社交网络媒体,微博每天都能产生大量的数据,这些海量的用户行为数据、博文数据,可以全方位、立体性的刻画用户需求,形成微博用户画像。构建微博群体用户的画像并对其信息行为进行分析,是认识网络环境下微博群体用户复杂行为的前提和基础,有助于微博平台根据用户特征及其偏好提供更精准的个性化服务。因此,如何深刻认识微博群体用户画像模型并揭示其信息耦合传播行为,具有重大理论意义和实际应用价值。

1、数据来源

构建微博群体用户画像所需要的数据主要来源于两类:一是体现用户年龄、性别、学历、住所的自然数据;二是来自于用户行为操作、能够反映用户具体行为的数据,例如用户的访问次数、页面停留时间、点击频率、转发点赞、屏蔽行为等。本文实证数据来自我国最为知名的新浪微博。用户数据涉及如下元素:用户编号、用户昵称、性别、年龄、职业、地域、使用设备等,信息数据包括:信息编号、信息内容、信息发布时间、信息的评论数量等。其中,自然数据主要通过微博用户的个人档案页面(profile pages)获取,此类数据是用户在新浪微博注册时需要输入的信息,如个人信息简介页面包含的用户年龄、性别、学历、住所、工作情况、兴趣标签、注册时间等,因此可以获得社交用户较为精确和细粒度的个人信息特征。本文对研究获得的个人基本特征数据进行了显著性检验,由此得出用户个人基本特征的皮尔逊相关系数PCC以及X2统计量。根据X2统计量计算结果,大多数微博用户个人基本特征通过了置信水平为9570时的显著性检验。其中,PCC的高低体现了微博用户个人基本特征与用户信息行为之间存在较强的线性相关关系还是较弱的线性相关关系。如微博用户个人基本特征中“地域”的X2统计值最高,由此体现了微博平台活跃用户主要聚集于部分一线城市与沿海发达省份,这些地区的用户数量及其信息行为要明显强于其它地區。究其原因,主要是这一现象与经济与社会发展水平有关,由于地理以及历史原因,内陆和西部地区无论在经济上还是社会发展上都存在较大差距,从而导致这些地区的活跃用户数量及关系强度小于一线城市与沿海发达省份,从而在一定程度上体现了不同地理区间经济发展的不平衡性。

2、微博群体用户画像概念模型

在构建微博群体用户画像模型的过程中,通常会使用较为通俗且贴近现实生活的语义去描述微博群体用户的属性特征、行为特征与偏好特征,由此来形成用户画像的概念模型,并将其作为实际用户的虚拟代表。对微博群体用户来讲,可从多个维度对其进行刻画,即可从多个方面去构建用户画像模型。搜集到的用户社交活动“痕迹”越多,构建的用户画像模型越能准确反映现实社会中该用户的具体特征。但鉴于信息搜集成本以及隐私保护方面的限制,构建完全匹配的“精准”用户画像几乎是不可能的。因此,在信息搜集过程中需要充分考虑实际的应用场景,构建满足条件的微博群体用户画像模型即可。

鉴于上述考虑,本文在收集新浪微博用户信息时,主要从以下两个方面考虑:微博群体用户通过哪些行为(如回答问题、点击图片、浏览信息、关注等)产生或获取信息,或通过哪些行为(如转发、点赞、评论等)将该信息传播出去。由此,本文将重点研究在线社交活动中用户的以下两种信息行为:(1)同一个人发布不同信息的行为,称为发布行为;(2)不同个体同时评论某一条信息,其中包含信息发布者对评论者的回复信息,称为交互行为。依据微博特性以及用户的自身特点,本文从三个维度对微博用户画像模型进行划分,即用户的基本特征(人口统计学属性)、用户的信息发布行为特征以及用户交互行为特征。微博群体用户画像概念模型如图1所示。

3、信息耦合传播行为分析

本文在分析微博群体用户信息发布行为与交互行为的过程中,主要采用了发布行为时间间隔分布、交互行为时间间隔分布、交互周期分布、交互热度分布等。

3.1信息发布时间间隔分布

用户在日常生活中会从事各种重复性活动,包括呈现规律性的吃饭、睡觉和无规律性的购物、出游、上网等,对于这些无规律的活动,研究用户相同活动相继发生的时间间隔,可发现其从事某活动的规律,对研究社交用户的信息行为有重要意义。图2表示数据集的时间间隔分布,在双对数坐标下呈现明显的胖尾特征,表明在线社交活动中,少数人处于活跃状态,积极频繁地发布消息,而大部分成员活跃程度低,一般处于静默状态,频繁发出消息的是固定的几个“话唠”,大部分成员都处于“潜水”或“冒泡”的状态。去掉下垂的头部和松散的尾部,数据集的时间间隔部分服从幂律分布,通过最大似然估计方法计算幂指数,幂指数集中在1 .69-2.38的范围内。

3.2交互时间间隔分布

图3显示数据集交互行为的时间间隔分布,本文数据集的时间间隔为以某条信息为主题,所讨论的相邻内容的时间差。每个数据集的时间间隔均服从幂律分布,幂指数集中在1.57-1.99的范围内,一条信息发出后,有相同或相似经历的用户会产生共鸣,进而展开讨论,好友或关注关系可能会有一定的影响,但不会因为这种关系形成爆发性评论。交互行为与发布行为一样,都表现出重尾分布特征,在线网络中信息爆炸,大多数的信息都被淹没,无人问津,只有极少数信息在短时间内收到爆发性评论,例如鹿晗获得千万评论的微博“十年相依,终身红魔!”在发出的第一天就收到了将近9千条评论。

3.3 交互周期分布

人类对信息的兴趣都呈逐渐衰减的趋势,开始时对其兴趣极浓,时间长了兴趣消失,很少人会对其进行评论。人们对信息或话题的讨论存在一个交互周期。本文将发布信息与最后一条评论的时间差作为交互周期。信息发布的三个月之后,评论数量非常少,因此,剔除距离采集时间三个月之内的信息,计算每个信息的交互周期及其互补累积分布,如图4所示,热门话题与冷淡话题之间的交互周期相差4-6个数量级,微博的最大与最小的交互周期相差较少,为4个数量级。从形态上看,其交互周期分布较窄,具有长周期的信息所占的概率较大,这是由于部分话题的“直播”引起,信息内容不是一次性发出,而是利用碎片时间经过几天到十几天不等的时间陆续发布,不断吸引人跟帖并讨论,形成较长的交互周期。

3.4 交互热度分布

人们对某个话题感兴趣时,在生活、娱乐和其他空闲时间都会有所提及和讨论,这方面的话题信息也得到传播,进而引起更大强度的讨论和交流,形成病毒式传播。因此,人类行为与其在社交活动中的交互是密不可分的,交互热度对人类行为有重要影响。交互热度的计算如公式为Pi=Ni/Ti。其中,Pi表示交互热度,Ni表示对一个信息人们讨论的总数量,Ti表示话题的交互周期。图5显示交互热度的互补累积分布,不同交互热度的话题相差好几个数量级,交互热度强的话题所占的概率非常高,说明微博是引起爆发性评论的主要聚集地之一。

4、结语

微博在人们的生活中起到至关重要的作用,微博信息发布行为与交互行为已经成为人们生活的常态,研究微博群体用户信息传播行为的统计特征并刻画其用户畫像,不仅有助于发挥微博用户线上交流的积极性和信息传播的主动性,充分认识人们的社交活动,同时对强化精准服务、投放广告、企业宣传具有重要的应用价值。需要指出的是,本研究对微博群体用户画像的描述性属性方面考虑不够全面,拟在今后的研究中全面考虑与用户需求趋向相关的信息,以此为基础进行模型化表示,多维度制定微博用户的描述性标签属性,全面刻画微博用户画像模型。

参考文献

[l]林燕霞,谢湘生.基于社会认同理论的微博群体用户画像[J].情报理论与实践,2017(11)

[2]黄文彬,徐山川,吴家辉,王军.移动用户画像构建研究[J].现代情报,2016,(IO)

[3]孙晶晶.移动数字图书馆用户画像模型及情境化推荐方法[J].图书馆,2018,(6)

[4]陈晶.网红经济下青少年卷入行为及其归因实证研究[J].情报杂志,2018,(3)

[5]刘海鸥.云环境用户情境感知的移动服务QoS混合推荐[J].情报杂志,2016,35(4)

[6]苏妍嫄.面向图书馆大数据知识服务的多情境兴趣推荐方法[J].现代情报杂志,2018,(6)

[7]张亚明.国内外用户画像研究综述[J].情报理论与实践,2018,(7)

[8]赵攀.在线社交活动中的用户画像及其信息传播行为分析[J].情报科学,2018 (6)

[9]孙晶晶.基于用户画像的旅游情境化推荐服务研究[J].情报理论与实践,2018.(5)

猜你喜欢

用户画像
基于数据分析高校学生自画像的初探
分析用户画像在企业精准营销中的应用方式
基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析
基于大数据技术的广电用户收视行为建模
基于大数据的电商活动页面设计策略研究
用户画像在内容推送中的研究与应用
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销