基于情感和网络分析的社交网络用户人格预测
2016-03-02杨洁李继云姜霖霖
杨洁 李继云 姜霖霖
摘要:人格是对人类之间不同个体特征的高度概括,与人类的行为密切相关。人们在社交网络中的行为同样受到人格的影响,了解社交网络用户的人格对于推荐系统和个性化广告都有很大的价值。已有的关于社交网络用户人格的研究大多仅使用用户数据的统计特征,没有反映用户数据的内在特征。本文提出一种新的社交网络用户人格预测方法,通过综合考虑用户的情感及用户网络分析特征预测用户人格类型, 并通过Facebook用户数据分析实验验证了方法对提高人格预测准确率的有效性。
关键词:社交网络;情感分析;网络分析;人格预测
中图分类号:TP305文献标识码:A 文章编号:2095-2163(2016)01-
Abstract : Personality can be defined as a set of characteristics which make a person unique. Peoples behavior is closely related to personality. Personality affects individuals behavior in social networking sites as well as in the offline world. Gaining insight in an individuals personality can be very valuable for recommender system and personalized advertising. Most of previous studies on the personality of social network users only focus on the statistical characteristics, which cannot reflect the inner properties of user. This paper proposes a new method to predicting personality based on sentiment analysis and network analysis. The validity of the method to improving the precision of prediction is verified by the experiment on Facebook data.
Keywords :Social Network; Sentiment Analysis; Network Analysis; Personality Predicting
0 引 言
近年来,社交网络(如Twitter、Facebook、新浪微博等)迅速发展,给人们的日常交流沟通方式带来了新的变革,这类线上社交模式已经成为了人们日常社交的一部分。社交网络给人们提供了一个展现自我、发表观点、联络朋友的平台。社交网络既是人们在现实世界中的社交关系的延伸,同时也会对人们现实生活的社交产生影响。
在社交网络中比较有代表性的是Facebook。Facebook始创立于2004年,在2012年注册用户已经突破十亿大关。同时Facebook也是全球活跃用户最多的社交网络。由于在社交网络中用户的行为和状态容易获取和分析,近年对社交网络用户的研究正逐渐增多,其中关于用户人格方面的研究占据了重要的部分。
人格是人类的不同个体特征的高度概括,即使在同样的环境中,不同的人也会表现出不同的行为,这源自于每个人不同的人格。人格心理学是心理学的分支之一,主要是通过人们外在的行为来区分人们的内在特质,并研究相互之间的关联[1]。心理学上通常使用人格特征来定义人们的性格,解释用户的行为和偏好[2]。常用的人格模型有MBIT(Myers Briggs Type Indicator)和大五人格模型(Big-Five Model)。
人格与人类的行为息息相关。人格心理学研究已经表明,可以通过人格问卷来预测人们生活中很多方面的行为,比如上班是否准时、工作表现以及音乐偏好等等[3,4]。人格同时也影响着人们的商品选择及购买习惯。社交网络是人们日常社交的一部分,人们在社交网络上的行为状态与现实世界的行为一样,都与个人的人格有密切关联[5]。把人格心理学的研究与社交网络分析相结合,通过社交网络用户的行为状态等数据对用户的人格进行分析和预测,对于推荐系统、个性化广告、用户心理预警等方面都有着巨大的价值[6]。
目前对社交网络用户人格分析预测的研究主要对用户行为状态数据进行统计学分析,这种方式忽略了用户行为的内在特征。本文提出一种新的社交网络人格预测方法,对Facebook用户发布的文本状态进行情感分析,分析用户的情感状态及其变化。同时对用户在Facebook使用过程中建立的用户网络进行分析,分析用户网络的特征以及用户在网络中的状态及位置。在情感分析和网络分析的基础上,分析人格特征和用户行为的关联,并实现对用户人格特征的预测。
1 相关研究
大五人格模型是人格心理学中使用最为广泛的人格模型之一,具体将人格划分为五个维度:开放性(Openness to Experience)、严谨性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)和神经质(Neuroticism)。开放性表现为富于想象力和审美能力、对新事物好奇等;严谨性表现为自律、有组织性、有计划等;外向性表现为好交际、爱娱乐、感情丰富等;宜人性表现为乐于助人、富于合作精神和同情心等;神经质表现为焦虑、不安全感、脆弱等。
早期部分研究分析了人格特征和网络应用之间的关联。Vazire和Gosling等人使用个人网站的内容对个人的人格进行评估[7]。Gill等人通过邮件对人格进行判定[8]。Rosen等人通过研究社交网络的用户发现外向性和严谨性和用户在使用社交网络过程中感到放松的程度呈正相关[9]。
Ross等人研究了大五人格与社交网络行为之间的关联[10]。实验采用97个用户的样本,验证了外向性和组成员个数密切相关。研究在收集社交网络用户数据时采用用户自我报告的方式。这种方式存在一定的不足之处。首先,自我报告可能由于用户的主观影响而存在数据上的不可靠性。其次,这种方法需要人工对用户的数据进行统计,存在效率低下的问题,不适用于大量样本的研究。
Gosling等人在Facebook上进行了两项实验,对Facebook用户的行为和人格特征之间的关联进行分析[11]。第一个实验采用传统的用户自我报告的方式,第二个实验采用直接观察用户数据的方式,去除了用户主观性的影响。但是,这种方式仍然通过人工完成,效率较低。同时,实验中所使用的用户社交网络行为特征,比如用户每周在Facebook上花费的时间、照片数量等,都是基于数据统计,并没有用户内在特征的分析。
Golbeck等人开发了一个Facebook社交网络的应用程序[12]。该应用程序包含两个功能:邀请Facebook用户参与大五人格测试、在用户授权的情况下收集用户的公开信息(自我介绍、发布的状态、照片等)。该应用程序实现了实验数据的自动化采集,提高了实验效率,同时也去除了用户主观性对数据的影响。实验采用了两种机器学习算法(M5 Rules和高斯过程)来对用户的人格进行预测。不足之处在于实验中所使用的用户社交网络行为特征,例如通过LIWC(Linguistic Inquiry and Word Count)工具提取的用户的语言特征,仍然是基于对用户使用的文字进行数据统计,没有进行深入的分析。同时,研究中考虑的用户网络密度不能反映出该用户在社交网络中的地位和重要程度。
国内关于人格预测方面的研究相比国外起步较晚。新浪微博是中国使用最为广泛的社交网络之一。Wang Lingyu等人分析了新浪微博用户的行为和人格之间的关联[13]。Bai Shuotian、Yuan Sha等人对新浪微博进行用户人格分析和预测[14]。实验采用应用程序的方式实现用户大五人格测试以及用户数据的自动化收集。除了用户基本信息以及用户使用行为的统计数据外,实验还收集了用户安全设置方面的信息,分析其与用户人格之间的关联并对微博用户的人格进行预测。张磊等人对人格分析和预测的相关研究进行了综述,指出了研究中面临的挑战以及未来的前景[15]。
在已有研究的基础上,本文提出了新的社交网络用户人格预测方法,采用自动化收集的用户数据,并对用户的行为数据进行深入分析,对Facebook用户在使用过程中发布的文本状态进行情感分析,同时对用户网络进行分析,获取用户行为的内在特征,结合这些特征分析其与用户人格特征之间的关联并实现对用户人格的预测。
2 实验方法
本文进行社交网络用户人格预测方法时采用的数据来自Facebook应用程序自动化收集,在用户数据方面除去了用户主观性的影响,通过大五人格问卷获得用户的人格特征。对用户数据进行情感分析和网络分析,形成用户的特征向量。数据流程如图1所示。
2.1 情感分析
Facebook用户发布的状态和Twitter类似,是用户发布的文字等信息。通常这类信息都与用户的日常生活及思想有关。Yoram Bachrach 等人在研究中考虑了用户发布状态的个数[16]。部分研究结合Facebook用户的“About Me ”和“blurb”中的文字,结合用户发布的状态,把所有的文字视为一个字符串,使用LIWC(Linguistic Inquiry and Word Count)工具提取用户在文字中使用不同类型文字的统计特征[12;17]。这些研究仅仅考虑了用户发布状态和使用的文字中的统计学特征。
用户发布状态内容包含的情感状态和现实中人们的情绪状态类似,和用户的人格息息相关。本文将用户发布的每个状态视为单独的一篇文章,对每个状态进行情感分析。情感分析是对自然语言定量分析的处理过程,提取主观信息,旨在识别出意见、情感和评估的极性是积极还是消极。本文结合斯坦福自然语言处理组织提出深度学习情感分析模型[18],给每个单词赋予积极的或消极的情感得分,在分析单词的情感得分的基础上,结合语法结构,考虑到单词组成的含义,最终求出文本的情感总分。
本文将Facebook用户发布状态的情感分为五类:非常积极(very positive)、积极(positive)、中立(neutral)、消极(negative)、非常消极(very negative)。在情感分析的基础上,从每个用户的状态中提取22项特征,如表1所示。
2.2 网络分析
用户网络即用户在使用社交网络平台的过程中建立的网络关系,包含用户和所有关联用户、以及这些用户之间关联的网络[19]。不同人格的用户建立的网络有不同的特征,通过网络分析可以深入反映个人的社交行为方面的特质,帮助评估人格。已有的关于用户网络和用户人格的分析通常仅考虑了网络大小,并没有反映出用户网络的内在特征。本文对用户网络进行更深层次的分析,分析用户网络的特征以及用户在网络中所占的位置和重要性。
矩阵G表示用户网络,每个结点代表一个用户,矩阵中的元素yij的值表示用户i和用户j之间关联与否。如果用户i和用户j之间有关联(即结点i与结点j之间有边),则yij的值为1,否则值为0。N表示网络中所有结点个数。Gjk表示用户j和用户k之间的最短路径条数。Gjk(i)表示用户j和用户k之间所有最短路径中经过用户i的最短路径条数。
本文考虑用户网络的以下6个特征。
(1)网络大小(Network size)。网络中所包括的人数,即结点总数。
(2)网络密度(Density)。
3 实验
3.1 实验准备
本文实验环境为Intel Core i5-2400 3.10GHz CPU、4G内存、500G硬盘的PC机,操作系统为Windows 7系统。本文采用的数据集包含255个Facebook用户的数据。包括用户基本信息、发布的状态以及状态的时间戳、用户网络信息等。数据来自于Facebook上的myPersonality应用[20]。参与者使用该应用填写人格问卷并获得自己人格特征测试结果,同时授权该应用获取用户的公开信息及行为数据。在实验开始前对数据集进行处理,删除数据集中状态少于10条的用户,剩余241个用户。
3.2 实验结果
本文使用斯皮尔曼相关系数来评估Facebook用户人格特征和Facebook行为特征之间的关联。部分结果如表3所示。“积极-消极”表示积极状态和消极状态之间平均间隔状态个数。OPN表示开放性,CON表示严谨性,EXT表示外向性,AGR表示宜人性,NEU表示神经质。
带有*(p<.05)和**(p<.01)的值表示两者之间存在着有意义的关联。如表3所示,积极状态在所有状态中所占比例和严谨性以及宜人性特征呈有意义的正相关,这表示严谨性和宜人性的用户通常表现出更多的积极情绪。积极-中立和积极-消极都和神经质特征呈有意义的负相关,这表明神经质用户通常欠缺情绪的稳定性。所有的用户网络特征都和外向性特征呈有意义的相关性。网络大小和外向性特征正相关,表明外向性的用户通常拥有更多的朋友,同时网络密度和外向性呈现负相关,这表明外向性的用户的朋友网络规模大,但网络中的用户彼此大多不认识。严谨性特征也呈现相似状况。
在进行Facebook用户人格预测之前需要对用户的人格测试结果数据进行处理。测试问卷的人格特征的得分介于1分至5分之间,是连续性的值,不能直接用于分类。首先需要对数据进行离散化。对于每个人格特征维度,将计算其平均值,然后将用户的人格特征得分划为两类:低于平均值、高于平均值。用户人格特征数据离散化处理结果如表4所示。
本文使用支持向量机(SVM)机器学习算法对用户人格进行预测。同时进行另外一组实验进行对比,参考Golbeck等人的实验,提取Facebook用户基本信息和用户行为数据统计特征,包括用户发布状态总数、平均每天发布状态数、使用LIWC工具提取用户状态文字的统计特征、用户网络的人数等。两组实验的准确率(precision)和召回率(recall)如图2和图3所示,其中Exp2采用本文提出的实验方法,Exp1采用Golbeck的实验方法。
如图2和图3所示,在外向性(EXT)、神经质(NEU)、宜人性(CON)和严谨性(CON)这四个人格特征维度上,本文提出的方法取得了更好的准确率和召回率。在开放性(OPN)人格特征方面,另一组实验取得了更好的准确率。
已有的社交网络人格预测研究中用户网络特征通常仅考虑网络密度和网络大小,本文对用户网络进行更深入的分析,增加了网络特征。为验证增加网络特征的效果,进行了对比实验。Exp2采用本文提出的实验方法,Exp3在用户网络特征上仅考虑网络大小和密度,其他特征与本文方法相同,两组实验的准确性和召回率如图4和图5所示。
如图4和图5所示,增加网络特征后,在五个人格特征维度上,准确性和召回率均有较大的提高。对用户网络进行深入的分析,可以更好地对社交网络用户的人格进行预测。
4 结束语
分析并预测社交网络用户的人格特征对于推荐系统和个性化广告具有很大的价值。本文在已有研究的基础上,提出了新的预测社交网络用户人格特征的方法。通过对Facebook用户发布的状态进行情感分析以及对用户在使用Facebook过程中形成的用户网络进行深入分析,提取相关特征,使用支持向量机方法进行人格预测,并取得了较好的结果。本文采用的实验样本数据量有限,在后续的研究中将收集更多的社交网络数据,考虑大规模数据处理的情况。
参考文献:
[1] Matthews G, Deary I J, Whiteman M C. Personality traits[M]. New York:Cambridge University Press, 2003.
[2] ALLPORT G W. The general and the unique in psychological science1[J]. Journal of Personality, 1962, 30(3): 405-422.
[3] ROTHMANN S, COETZER E. The big five personality dimensions and job performance[J]. SA Journal of Industrial Psychology, 2003, 29(1): 68-74.
[4] DOLLINGER S. Research note: Personality and music preference: extraversion and excitement seeking or openness to experience?[J]. Psychology of music, 1993, 21(1): 73-77.
[5] KOSINSKI M, BACHRACH Y, KOHLI P, et al. Manifestations of user personality in website choice and behaviour on online social networks[J]. Machine Learning, 2014, 95(3):357-380.
[6] GAO R, HAO B, BAI S, et al. Improving user profile with personality traits predicted from social media content[C]// Proceedings of the 7th ACM conference on Recommender systems, Hong Kong: ACM, 2013: 355-358.
[7] VAZIRE S, GOSLING S D. e-Perceptions: personality impressions based on personal websites[J]. Journal of personality and social psychology, 2004, 87(1): 123-132.
[8] GILL A, OBERLANDER J. Perception of e-mail personality at zero-acquaintance: Extraversion takes care of itself; neuroticism is a worry[C]// Proceedings of the 25th annual conference of the cognitive science society, Boston: CogSci, 2003: 456-461.
[9] ROSEN P A, KLUEMEPER D H. The impact of the big five personality traits on the acceptance of social networking website[C]// AMCIS 2008 proceedings, [S.l.]: AMCIS, 2008:223-229.
[10] ROSS C, ORR E S, SISIC M, et al. Personality and motivations associated with Facebook use[J]. Computers in Human Behavior, 2009, 25(2): 578-586.
[11] GOSLING S D, AUGUSTINE A A, VAZIRE S, et al. Manifestations of personality in online social networks: Self-reported Facebook-related behaviors and observable profile information[J]. Cyberpsychology, Behavior, and Social Networking, 2011, 14(9): 483-488.
[12] GOLBECK J, ROBLES C, TURNER K. Predicting personality with social media[C]// CHI'11 extended abstracts on human factors in computing systems, Vancouver: ACM, 2011: 253-262.
[13] WANG LingYU, QU Weina, SUN Xianghong. An Analysis of Microblogging Behavior on Sina Weibo: Personality, Network Size and Demographics[M]//P. L. Patrick Rau:Cross-Cultural Design. Methods, Practice, and Case Studies,Berlin Heidelberg: Springer , 2013,8023: 486-492.
[14] BAI Shuotian, YUAN Sha, HAO B,et al. Predicting personality traits of microblog users[J]. Web Intelligence and Agent Systems, 2014, 12(3): 249-265.
[15] 张磊, 陈贞翔, 杨波. 社交网络用户的人格分析与预测[J]. 计算机学报, 2014, 37(8):1877-1894.
[16] BACHRACH Y, KOSINSKI M, GRAEPEL T, et al. Personality and Patterns of Facebook Usage[J]. Proceedings of the Acm Web Science Conference, 2012, 12(68):24-32.
[17] QIU L, LIN H, RAMSAY J, et al. You are what you tweet: Personality expression and perception on Twitter[J]. Journal of Research in Personality, 2012, 46(6):710–718.
[18] SOCHER R, PERELYGIN A, WU J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]// Empirical Methods in Natural Language Processing, Washington: EMNLP, 2013: 1631-1642.
[19] OMALLEY A J, MARSDEN P V. The analysis of social networks[J]. Health Services & Outcomes Research Methodology, 2008, 8(4):222-269.
[20] CELLI F, PIANESI F, STILLWELL D, et al. Workshop on computational personality recognition (shared task)[C]// Proceedings of the Workshop on Computational Personality Recognition, Boston: WCPR, 2013:455-459.