基于社交网络数据的用户群体画像构建方法研究
2019-03-17索晓阳王伟
索晓阳 王伟
摘 要:随着网络技术的发展,社交网络成为人们信息获取、观点分享的主要平台,在人们日常生活中占据重要地位。对社交网络信息进行挖掘,构建社交网络用户群体画像,对用户个性化服务、商业精准营销、网络舆情监控的引导有重要意义。当前,社交网络用户群体画像全面性、精准性有所欠缺,对此文章提出了一种基于社交网络数据的用户群体画像构建方法,对社交网络用户信息进行挖掘,从基本特征、内容特征、统计特征、行为特征等方面对用户群体进行全面精准刻画,充分了解用户群体兴趣偏好、行为倾向、价值訴求。使用机器学习、BP神经网络、LDA、特征融合等方法提取用户主题、表情符、发文习惯、位置等20类特征,构建社交网络用户个人画像,聚类分析得到用户群体,构建社交网络用户群体画像,为智能精准营销、平台个性化服务、舆情监控提供支撑。
关键词:社交网络;用户群体画像;数据挖掘
中图分类号:391.1 文献标识码:A
Abstract: With the development of network technology, social networks have become a major platform for people to obtain information and share opinions, which plays an important role in people's daily life. Mining social networks information and constructing social networks user group portraits is of great significance to user personalized services, commercial precision marketing, and online public opinion monitoring. Due to the lack of comprehensiveness and accuracy of current social network user group portrait, this paper proposes a social networks user group portrait method to mine the privacy information of social networks users, comprehensively and accurately depict user groups from basic features, content features, statistical features and behavior features to fully understand interest preferences, behavior tendencies and value demands of the user group. Using machine learning, BP neural network, LDA and feature fusion to extract 20 kinds of features such as user topics, emoticons, posting habits, and locations, to comprehensively characterize social networks users. Then use cluster analysis to obtain the user groups, and construct a complete social networks user group portrait to provide support for intelligent precision marketing, platform personalized service, public opinion monitoring.
Key words: social network; user group portrait; data mining
1 引言
随着互联网的发展,社交网络成为人们信息获取、观点分享、互动交友的主要平台,成为网络舆情监控引导的主要阵地。社交网络蕴含了丰富的用户个人信息,对用户信息进行挖掘,分析用户偏好,有助于充分了解用户群体,为社交平台用户个性化服务提供思路[1,2],为商业智能精准营销搜索目标受众[3],对敏感人群进行监控预警及疏导,为舆情监控引导提供决策支持。目前,在用户群体画像构建方面已有不少研究成果,但是还存在一定的局限性,社交网络用户群体画像全面性精准性有所欠缺,一方面当前社交网络用户数据挖掘分析多集中在某类用户,选取部分用户作为研究对象,没有对社交网络用户整体进行群体画像研究。如魏明珠等人[4]对社交媒体中的高影响力人物进行画像研究;欧阳秀平等人[5]对游戏用户构建游戏兴趣偏好画像;唐嘉泉[6]构建旅游用户画像并进行游客身份分类。另一方面,用户群体画像越全面,对用户群体了解越深刻。然而,现有研究多在某类特征[7,8]或某几个特征维度构建用户群体画像,如兴趣偏好等。涉及特征种类较少,没有在多类特征维度对社交网络用户进行全面刻画。如任金玥[9]提取用户主题特征构建用户分类画像;郭光明[10]构建社交网络用户信用画像;刘禹辰等人[11]构建社交网络用户情绪智力画像。为充分了解社交网络用户,对社交网络用户群体进行全面刻画,本文提出了一种基于社交网络数据的用户群体画像构建方法,在用户主题、位置、软件使用、发文习惯、表情符使用偏好等方面对用户群体进行分析,对社交网络用户进行多维度全面刻画,构建比较全面、完善的社交网络用户群体画像,为商业精准营销、平台个性化服务、舆情监控提供参考依据。
本文的主要贡献为:
(1)本文在基本特征、内容特征、统计特征、行为特征四大类20小类特征维度对用户进行刻画,构建更加全面精准的用户群体画像,充分了解了用户群体兴趣偏好、行为倾向及价值诉求。
(2)本文对社交网络用户整体进行群体画像研究,用户群体覆盖面广,更加完整地揭示社交网络中用户群体的构成及特点,充分全面地了解社交网络用户。
2 社交网络用户群体画像构建模型
2.1 构建流程
社交网络用户群体画像构建模型如图1所示,包括数据收集及预处理、特征提取、特征融合、用户画像构建、聚类分析群体画像构建五个阶段。
在数据收集及预处理阶段,采集用户基本信息、博文内容、用户间关注关系、用户互动信息数据。筛选用户,去除冗余数据,使用Jieba对博文内容数据进行分词处理,使用Word2vec训练博文词向量(300维)。得到分词后的微博内容、用户基本信息、用户间的关注关系、用户互动信息、单个词汇的Word2vec向量表示。
在特征提取阶段,对用户基本信息、分词后的博文内容、用户间关注关系、用户互动信息数据进行处理,提取用户基本特征、内容特征、统计特征、行为特征四大类21小类特征。从基本信息中提取用户基本特征。从博文内容中提取用户13小类内容特征,使用LDA提取用户博文主题特征,使用正则表达式提取用户博文内容数据中的话题、位置、表情符、标点符号、电影、音乐、旅游、食物、语气词、出行方式、发文设备、第三方软件等特征。对用户数据统计分析得到用户统计特征,包括用户发文习惯、博文统计特征、关注的人统计特征、粉丝统计特征、好友统计特征。从用户互动信息数据中得到用户行为特征。使用博文中词汇的Word2vec[12]向量累加求平均值得到单条博文的向量表示,将表情符“太开心”“怒”作为正负情感标签,使用BP神经网络训练单条微博情感模型,模型准确率为89.17%。各类特征及其提取方法将在2.2节中详细进行介绍。
特征提取阶段得到的用户特征粒度太细、维度过高、可解释性不强,如1481维的情感符特征维度过高,不能对用户进行直观刻画。使用特征融合技术可以将高维度特征聚合为较为抽象的高层次用户特征。在特征融合阶段,对特征提取阶段得到的特征进行聚类分析结合人工标注,进行特征融合得到高层次用户特征。如将出行工具融合为18维出行方式特征,从第三方软件中得到第三方软件类别特征,将表情符号进行分类得到表情符类别特征,从发文设备型号中得到设备系统及品牌。将市、县级位置融合省级位置,将话题特征融合为话题主题。
在用户画像构建阶段,在特征融合阶段得到的基本特征、内容特征、统计特征、行为特征四大类20小类用户特征基础上构建用户画像。
在聚类分析群体画像阶段,使用SVD對用户特征数据降维,使用Kmeans对社交网络用户进行聚类分析,得到用户群体,提取用户群体特征,使用用户群体特征均值表示用户群体的基本、内容、统计、行为特征,构建社交网络用户群体画像。全面的用户群体画像有助于充分了解用户群体,为用户群体个性化服务提供决策支持。
2.2 社交网络用户群体画像模型
本文使用用户群体中用户画像得分的平均值表征用户群体画像,用户群体画像还包括用户群体级特征:用户群体规模。用户画像包括基本特征、内容特征、统计特征、行为特征四大类特征。
基本特征:利用基本特征刻画用户基本属性,用户在社交平台用户主页展示用户基本信息,这些信息较长时间内不会改变,相对稳定。用户基本特征包括:用户性别、是否认证、所在地、关注数、粉丝数、发文数。用户性别是用户思维方式、行为习惯、兴趣爱好的主要影响因素。是否认证刻画用户的平台、专业、兴趣影响力,认证用户的平台影响力大,在本专业领域更加权威,对某一兴趣投入相对较多,传递的消息覆盖范围广、覆盖面大。用户所在地揭示了用户的地域特征,不同地域的用户风俗习惯不同,保留省级用户所在地位置。关注数刻画用户对平台及其他用户的感兴趣程度。粉丝数刻画用户的平台影响力。发文数刻画用户的平台活跃度。
内容特征:使用内容特征刻画用户偏好。内容特征包括:主题、话题、位置、表情符、发文设备、第三方软件、出行方式、语气词、标点符号、食物、电影、音乐、旅游13小类特征。主题特征:主题特征刻画用户的兴趣偏好,使用LDA提取用户主题特征,将单个用户所有博文看作一个文档,使用困惑度确定用户主题数,得到180维用户主题,根据主题关键词人工筛选117维有意义的主题,如金融理财、历史、政治等,部分主题关键字如表1所示。话题特征:用户在某热点事件下发文时,需标注话题标签,如“#中国”,话题刻画用户对热门事件的关注情况,本文提取提及次数大于50次的微博话题50504个,使用LDA主题模型对话题特征进行融合,最终得到200维用户话题特征,包括购物、汽车、创意家居等。
位置特征:位置特征刻画用户的地理位置偏好,提取用户打卡位置特征,保留省级以上打卡位置,得到134维位置特征。表情符特征:表情符特征刻画用户发文时的心情,本文提取使用次数大于1000的表情符1481个,融合表情符特征,最终得到9类表情符类别特征,包括:喜、怒、哀、惊、鼓励、尴尬、调侃、中性、节日。发文设备特征:用户在发文来源中展示用户发文设备,用户发文设备特征刻画用户的发文设备使用偏好,手机品牌使用偏好,人工标注发文来源信息,得到3维设备种类特征,包括手机、电脑、平板,36维手机品牌特征,如苹果、华为、三星、小米等。
第三方软件特征:用户在发文来源中展示第三方软件特征,第三方软件特征刻画用户软件使用习惯,人工标注发文来源信息,得到20维第三方软件大类特征,如新闻资讯、娱乐、财经等。94维第三方软件小类特征,如新闻、女性频道、活动咨询、电影等。出行方式特征刻画用户的出行习惯,人工标注出行方式词汇,得到18维用户出行方式特征,如地铁、公共汽车、出租车等。语气词特征:语气词揭示用户的发文风格,提取44维语气词特征,如啊、呀等。标点符号特征:标点符号特征刻画用户标点符号使用倾向,人工标注标点符号,得到11维标点符号类型特征,4维标点符号长度特征。
食物特征:食物特征刻画用户的饮食偏好,人工标注提取23维食物特征,如火锅、水果、海鲜等。电影特征:电影特征刻画用户电影类别、口碑偏好,包括5维电影评分特征、11维电影国别特征、29维电影分类特征,如动作、剧情、爱情、惊悚等。音乐特征:音乐特征刻画用户音乐类别、口碑偏好,包括5维音乐评分特征、8维音乐类别特征,如流行、摇滚、民谣等。旅游特征:旅游特征刻画用户对旅游地风格的偏好,包括4维景点级别特征、16维景点类别特征,如公园、故居、古建筑等。
统计特征:统计特征包括博文统计特征、粉丝统计特征、关注的人统计特征、好友统计特征、发文习惯。博文统计特征包括博文平均长度、转发博文平均长度、评论博文平均长度、原创博文平均长度。粉丝统计特征包括用户粉丝性别比例、用户粉丝认证比例、用户男性粉丝数、用户女性粉丝数、用户认证粉丝数、用户未认证粉丝数。关注的人统计特征与好友统计特征与粉丝统计特征类似。发文习惯包括小时级发文量、星期级发文量。另外统计特征中还有关注的人与粉丝之比、好友与粉丝之比、好友与关注的人之比3维特征,用来刻画用户社交网络结构。
行为特征:用户参与社交网络互动,评论他人博文,博文中也会提到好友,行为特征可以刻画用户社交网络的参与程度。本文提取3维用户行为特征,包括转发博文量、评论博文量和原创博文量。
3 社交网络群体画像方法实现
数据集:实验使用复旦大学微博数据集[13],包括用户基本信息数据、用户间关注数据、用户博文数据。筛选发文数大于50,用户间关系数大于10的微博用户,最终得到481,393个微博用户、354,786,647条微博。
特征提取完成后,对数据进行归一化处理,使用SVD对数据降维,保留95%的信息,之后使用Kmeans对用戶进行聚类。根据轮廓系数、CH指标确定K值大小,如图2和3所示,k=40时,轮廓系数最大、CH指标较大,所以将用户划分为40个类。
对这些类进行分析,得到17个具有明显差别的用户群体,包括:企业团体官方账号、机构团体官方账号、普通营销类个人用户、时政类认证男性用户、情感时尚类认证男性用户、精英类认证女性用户、普通文艺女性用户、普通时政类北京男性用户、普通情感类广东男性用户、普通生活家庭类女性用户、普通情感宣泄类女性用户、普通潜水型时尚类女性用户、普通情感宣泄类男性用户、普通时政情感宣泄类男性用户、普通乐观积极养生类女性用户、普通情感宣泄生活类男性用户、普通职场男性用户等。因篇幅有限,对企业团体官方账号、普通营销类个人用户、普通文艺女性用户这三类用户进行重点介绍。
企业团体官方账号:群体规模为7413,群体中大部分用户为认证用户,用户群体博文主题如图4所示,排名前三的主题为养生健康、职场宝典、心灵鸡汤。粉丝数(1283)大于关注的人数(306),发文数为920,高于整个数据集平均值,原创博文占总博文数的94%,该类用户群体的影响力较大。该群体发文习惯如图5所示,上午与下午上班时间发文较多,晚上发文很少,周末发文少,周内发文多,该类微博账号有相关人员经营。在感情符的使用方面,多使用喜、鼓励类的积极感情符,情绪倾向积极,传播正能量。在发文设备方面,该类群体多使用电脑发文。微博工具类软件使用较多,多使用工具类软件辅助发文。该类用户在本行业领域权威性较强,可以推荐给有行业兴趣的普通用户关注,可以作为商业精准营销的广告平台、在舆情方面可以作为网络正能量的引导者。
普通营销类个人用户:群体规模为7144,群体中大部分用户为未认证用户,用户群体博文主题如图6所示,排名前三的主题为心灵鸡汤、笑话、养生健康。粉丝数(1542)大于关注的人数(342),发文数1032,原创博文占比98%,该群体发文习惯如图7所示,上午、下午与晚上发文都比较多,且该群体多使用电脑发文、频繁使用微博工具类软件辅助发文,使用情感符积极。该类用户未认证,可以多推送行业内权威知识,提高自身平台影响力。
普通文艺女性用户:群体规模为10400,群体中为未认证女性用户,所在地为北京,用户群体博文主题如图8所示,排名前三的主题为生活、情感受挫、情感美文。关注的人数(248)大于粉丝数(178),发文数为807,原创博文占比72%,该群体的发文习惯如图9所示,晚上22点发文最多,该用户群体喜欢深夜发文。在感情符的使用方面,多使用喜、哀类情感符,情感表达丰富。该类用户关注文艺,是艺术类商品的营销受众。
与现有的社交网络用户群体画像方法对比,本文在20小类特征维度对用户进行刻画,群体画像更加全面精准。与其他社交网络用户群体画像方法对比结果如表2所示,文献[9]使用微博用户活跃度指数将用户分为“大V”用户、“网红”用户、活跃用户、“潜水”用户四大类,之后使用兴趣主题特征对每类用户进行细分。文献[8]使用粉丝数、关注数、微博数、收藏数以及博龄对用户进行聚类分析,得到微博阅读型用户,普通用户,微博活跃用户,名人微博、微博运营用户五类用户群体,形成用户类型标签,最终在单个用户画像(用户类型标签、安全标签、统计标签),用户行为和用户关系链方面对用户进行批量画像。文献[4]对微博高影响力人物进行画像研究,提取用户基本属性、用户行为属性、用户价值属性三类18个用户标签,将高影响力用户分为优质内容生成主力军、高流量头部用户、高频互动分享型用户三类。本文使用基本特征、内容特征、统计特征、行为特征四大类特征对用户群体进行刻画,涉及用户主题、话题、位置、表情符、发文习惯等20小类特征,特征涉及范围广,群体画像更加全面精准,充分揭示了用户群体兴趣偏好、行为倾向及价值诉求。聚类分析得到17类群体,用户群体覆盖面广,更加完整地揭示微博用户群体的构成及特征。
4 结束语
本文提出了一种基于社交网络数据的用户群体画像方法。使用新浪微博数据进行实验,挖掘利用社交网络用户信息,提取用户基本特征、内容特征、统计特征、行为特征四大类20小类用户特征,特征融合得到高层次的用户特征,构建更加全面的社交网络用户画像,对用户群体进行聚类分析,得到用户群体,构建社交网络用户群体画像。后续研究中,将进一步提取如用户影响力之类的高层次特征,构建更加完备精准的用户群体画像。
参考文献
[1] 兰冰.基于群组用户画像的图书馆信息智能推送服务[J].图书馆学刊,2019, 41(07):109-112.
[2] 孙守强.基于用户画像的智慧图书馆个性化服务研究[J].图书馆工作与研究,2019(07):60-65.
[3] 韩张俊杰. 基于数据分析的资讯类App用户画像设计与应用[D].中国科学院大学(中国科学院工程管理与信息技术学院), 2017.
[4] 魏明珠,张海涛,刘雅姝,徐海玲.多维属性融合的社交媒体高影响力人物画像研究[J].图书情报知识,2019(05):73-79+100.
[5] 欧阳秀平,廖娟,冯烨,刘卉芳.基于運营商大数据的游戏用户画像构建研究[J].邮电设计技术,2019(09):40-44.
[6] 唐嘉泉. 面向DPI数据的旅游画像系统的研究与实现[D].北京邮电大学,2019.
[7] 卫学渊. 基于神经网络的智能电视用户分类研究[D].北京邮电大学,2019.
[8] 张哲. 基于微博数据的用户画像系统的设计与实现[D].华中科技大学,2015.
[9] 任金玥.基于动态主题模型的微博用户分类画像应用研究[D].华东师范大学,2019.
[10] 郭光明. 基于社交大数据的用户信用画像方法研究[D].中国科学技术大学,2017.
[11] 刘禹辰,王伟.基于社交网络隐私信息挖掘的情绪智力画像方法研究[J].网络空间安全,2019,10(02):24-31.
[12] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.
[13] 复旦大学自然语言与信息检索实验室.微博数据集[DB/OL].http://sma.fudan.edu.cn/datainfo/weibo.html,2015.
作者简介:
索晓阳(1996-),女,汉族,山西忻州人,北京交通大学,硕士;主要研究方向和关注领域:网络空间安全。
王伟(1976-),男,汉族,湖北英山人,西安交通大学,博士,北京交通大学,博士生导师,教授;主要研究方向和关注领域:网络空间安全。