基于社交文本的人格研究综述
2017-12-28朱宇
朱宇
(四川大学计算机学院,成都 610065)
基于社交文本的人格研究综述
朱宇
(四川大学计算机学院,成都 610065)
随着计算机网络技术的飞速发展和社交媒体工具的普及,人们越来越频繁地在社交网络上利用文本信息进行自我表达和展现,这些信息对人们的人格分析有着很大的研究价值。通过这种研究,可以更好地促进人们对自己心理健康的认识和维护,也可以促进服务商为人们提供更准确、个性化的服务。故从相关的研究基础、主流方法、研究现状及不足三个方面对基于社交文本的人格分析研究进行综合阐述和总结。
社交网络;文本分析;人格分析;分类模型
0 引言
社交网络已成为人们生活的一部分,并且在和人们相互影响的基础上飞速发展,因此,探求人和社交网络之间的联系,越来越受到业界的关注。“人格”便是联系人和社交网络的重要因素之一,因为人格对于一个人来说,是相比于商品喜好、个人信息更为深入的认知,例如,我们可以通过一个人在社交网络上体现的人格,推断出这个人的根本的喜好范围、与他人的个性相似度,从而给出更为精确的推荐。
人格不能被直接观测到,而要通过有效、明确的行为指示器(如行为样本)来测量。所以,人格测试的结果由与人格相关的行为指示器的测量方法确定。自我陈述技术是目前最广泛使用的方法,然而它有着明显的参与者召集问题和资源的消耗问题。而由于社交网络的巨大普及性,人们在社交网络平台上进行大量的自我展现,我们便可以通过获取用户的社交网络平台上展现出的各种文本信息去研究他们的人格特质。
1 研究基础
1.1 人格与人格特质
人格心理学是为心理学的分支之一,它可以被简
单定义为:是一门研究一个人特有行为模式的心理学。人格译自于“Personality”一词,也被译作“性格”,心理学界把它译作“人格”。不过“人格”却不单包括传统意义上的性格,它还包括价值观、态度、个人记忆、社会关系、习惯和技能等。准确来说,“人格”可定义为一个人拥有一致性的行为特征的集合。人格的组成特征因人而异,因此每个人都有其带来的独特性,正是独特性使不同人面对同一情况下可能有不同的反应。人格可以用人格特质理论进行描述和分析。术语“人格特质”,代表了个体和个体之间表现出的差异,这种差异又反映了个体间人格的差异。人格特质是以连续性的度量出现的,例如,每个人都拥有着真诚的人格特质(本质相同),但在该特质上体现的程度却因人而异(在量上有差异)[1]。
1.2 人格与文本的关系
大多数的人格特质名称都会被编码到自然语言中去,这是从自然语言中寻找人格特质的基本设想。具体讲,自然语言中包含了这一语言使用者的人格维度[2]。美国心理学家Alloport和Odbert[3]从1926年版的《韦氏国际字典》中挑出了17953个“能区分人类行为差异”的术语。他们把所选出的词分为:能清楚表示真正人格特质的术语,对人格特点进行评价的词,描述人目前活动、心理和心境暂时状态的术语,以及不能归为上述三组的词。此后Norman[4]也进行了类似工作,并将挑出的词分为三组:描述稳定特质的,描述暂时状态的,以及描述社会角色、社会关系和社会效应的术语。此后近40年中,众多心理学家采用上述两个词表对人格特质维度进行了研究,并引发了“人格心理学中的一场静悄悄的革命”[5]。Tupes和Christal[6]在这之后提出了“大五”人格维度模型,并得到很多心理学家的验证。研究者发现,该模型中的五个人格特质,可以涵盖人格描述的所有方面。具体来说,这五种人格特质可以分别用以下五对形容词描述:外向的-内向的、随和的-强硬的、自律的-散漫的、神经质的-情绪稳定的、思想开放的-保守的。“大五”人格模型经过众多学者的研究发展和使用,已被认为是最可靠、最主流的人格模型[7]。
2 分析方法
传统文本人格分析方法为,在人格特质模型的基础上,使用传统的自然语言处理方法并结合文本分类算法进行研究,本节主要介绍目前主流研究的方法流程。
2.1 文本预处理
文本预处理主要是为了从文本样本数据中提取出规范、有价值的内容,避免不相关或者属于噪声的信息对分析结果带来的负面影响。与文本人格分析相关的文本预处理的方法主要有:分词处理——将那些语言中没有分隔符(如英语中的空格)的文本(如中文、日文和韩文)中的文字和标点按照相应的语法和特定语义规则进行切分,得到一些单词或词组作为句子的基本特征用于人格分析;停用词(Stopword)处理——过滤掉那些语言中出现频率很高,但同其他词语而言,几乎没有实际含义的功能词(例如英语中的“is”、“a”、“the”,汉语中的 “的”、“那个”);文本的规范化——删去文本数据中可能含有的与内容无关的字符 (如html标记),规范化一些语言中可能存在的半角、全角的编码不一致问题。
2.2 文本表示
用于分析处理的文本数据都是非结构化的,所以需要通过一些文本的表示方法,将这种非结构化的数据转化为结构化数据,让计算机能够直接处理。目前,与本文相关的常用的文本方式有两种:
(1)布尔模型。假设有文本D,由词语t1t2t3…tn组成。按照布尔模型[8],文本D可由1×n维向量表示,dJ=(t1j,t2j,t3j,…,tnj),其中,若第 i个词语 ti在文本 dj中出现,则tij的值为1,否则为0。然而,这种表示方法只能提供一些文本中最基本的语义信息,它只能表示词语在文本中是否出现,但无法提供出现次数甚至词语的语义权重等信息。
(2)向量空间模型。向量空间模型解决了布尔模型的问题,在向量空间模型中,上述文本D的向量与布尔向量相似,可表示为 dJ=(w1j,w2j,w3j,…,wnj),其中,wij的值为实数,表示对应的词语ti在文本dj中的权重。权重的计算方式有多种方式:布尔法、词频法和TF-IDF法等[8-10]。向量空间模型由Salton等人[9]提出,让文本和词语之间的关系遵循基于语法、上下文信息等设计出的权重规则。这样,根据文本向量之间的距离来获得文本的相似性,就可以得到文本特征之间的相关性,从而提高语义分析的准确度。
2.3 特征提取和选择
经过文本预处理、文本结构化等步骤后,我们会得到一个含有大量与语义相关和不相关的文本表示,这是一个高维稀疏的特征空间,若不作处理,它将为文本分析在训练、分类或预测过程中带来巨大的计算量。而且在这些特征中,有很多特征往往与人格分析没有太多相关性,甚至会带来噪声、对模型的分类预测性能造成严重影响。特征提取和选择则能从这些高维的特征集合中,选取与人格分析目标高相关的一部分特征作为分类特征,作为最能代表文本所体现人格特质的特征子集合。目前主流的特征提取和选择方式有两种:结合人工构造的人格词典,采用DF(文档频率)、TF-IDF等方法[13-16];通过 N-Gram语言模型获得适合进行下一步分类学习所需要的特征集合[17-19]。
2.4 常用分类模型
(1)朴素贝叶斯分类。朴素贝叶斯分类方法(Naïve Bayes Classifier)[11]基于这种独立假设:文本中每个特征都是独立的,与其他特征都不相关。在这种假设的基础上,算法通过贝叶斯公式计算出文本中每个特征属于该类别的概率。模型参数估计使用最大似然估计。其优势在于只需要少量训练文本就可以估计出必要的参数,且训练速度较快,现实应用的准确率和效率都不差。其缺点在于,由于其特征独立的假设,忽略了文本特征之间的相似度。
(2)支持向量机。支持向量机(Support Vector Machine,SVM)[12]的核心思想是,利用核函数将特征向量从低维空间映射到高维空间,然后根据概率统计构造一个或多个超平面,用于分类任务。这些超平面会被放置在使接近该超平面的两类向量的距离最远的位置,完成分类过程,而这些向量被称为支持向量。一般来说,支持向量与该超平面距离越远,分类的效果越好。支持向量机方法主要用于解决二分类问题,后来被改进用于解决多分类问题。
3 研究现状及不足
目前,利用文本分析人格特质的研究,主要分为基于词典和基于语言模型两种方法。
3.1 基于词典的研究
基于词典的研究主要借助人工构建的词典进行。文献[13][14]主要使用的词典为LIWC(语言查询和词语计数工具)词典和MRC(医学研究委员会)所提供的词典对文本进行人格相关的特征提取。其采用的人格量表是NEO-FFI(一种60题的大五人格量表)。该研究将词语按语法分为功能词、聚合词、评估词、评价词四种类别,并将文本用不同类别的词语在相应集合组中出现的相对频率组成的向量来表示,并用SVM进行预测分类。文献[15]采用了两种方法进行研究及比较:方法一为关键词汇预测法,首先获取相关研究中总结的人格词典并利用WordNet扩充该词典,然后用TF-IDF结合词袋模型进行文本的分析;方法二为变型的贝叶斯方法,结合由问卷得到的用户实际人格得分进行机器学习进行分析,并将学习过程中获得的高相关性词汇作为方法一词典的扩充。文献[16]的方法为结合大五模型理论获取词典SC-LIWC中每个词项对应的性格因素值,通过查询获取微博文本中词项对应的性格因素值,并基于LDA模型分析微博文本中蕴含的用户性格。
这类研究的不足之处在于,对文本的语义研究建立在人工所构建词典的基础上,通过对文本中词语的类型决定该词语对不同人格特质的贡献。这样在分析中,仅仅对文中的词语以割裂的方式单独进行分析,忽略了词语在句子中与前后词语的联系。这种联系不仅仅会造成语义分析的偏差,甚至起到相反的分析效果。例如,在文本表达中,“我有信心”和“我很有信心”所表达的意思虽相近,但程度由明显差别,而“我有信心”和“我没有信心”则完全是相反的意思。然而,这两种情况在上述分析中,因为只考虑“信心”在句中的出现次数,模型在分析时无法体现这三个句子意思的差别,造成很大的误差。
3.2 基于语言模型的研究
基于语言模型的研究则主要是基于N-Gram语言模型。文献[17][18]在用N-Gram方法建立语言模型、获得特征后,通过频率、实际人格得分区分度、离群程度、置信度四个标准对特征进行筛选。然后使用SVM和贝叶斯模型分别进行了建模和相互比较,此外还比较了对人格得分不同的群体区分方法下的分类准确率。文献[19]则在当时相关研究的基础上,侧重于从文本的句法特征入手研究作者的人格。研究使用N-Gram语言模型,抽取了文本句子中的名词短语、主语、宾语以及其它语法关系作为句法特征进行建模。
这类研究的不足之处在于,由于N-Gram语言模型是根据相互之间没有任何遗传属性的离散单元词而构建,从而不具备连续空间中的语义记录,当系统模型针对某一词语或词序列调整参数时,相似意义的词语和词序列也会发生改变,这就一定程度上造成了上述研究中模型的不可重复性和不精确性。另外,这一方法在需要相当规模的已标注数据的同时,对比传统语义分析的方法而言准确率也没有显著优势。
4 结语
人格作为一个表示个体根本差异的重要心理学概念,具有对个体特质的全面描述和对个体行为很强的预测作用。人格有着很大的研究价值,可以让人们更好地了解自我、心理医生更好地了解病人、服务商能够为客户提供更为个性化、高效的服务等。由于人格特质是研究人格的重要工具,而人格特质在语言中的表现非常明显,研究者们越来越倾向于使用人们在社交网络中发布的文本信息进行对人格的研究分析。本文从相关研究基础、主流方法、研究现状及不足三个方面对这类研究进行了综合阐述。可以看到,随着社交网络和机器学习技术的飞速发展,基于社交网络文本的人格分析尽管有着很多问题和挑战,但同时也有着巨大的价值和广阔的前景。
参考文献:
[1]许燕.人格心理学[M].开明出版社,2012.
[2]王登峰,方林,左衍涛.中国人人格的词汇研究[J].心理学报,1995,24(4):400-406.
[3]Allport G W,Odbert H S.Trait Names:A Psycho-Lexical Study[J].Psychological Monographs,1936,41(1,whole No.211).
[4]Norman W T.2800 Personality Trait Descriptors:Normative Operating Characteristics for A University Population[R].Ann Arbor:Department Of Psychology,University of Michigan,1967.
[5]Goldberg L R.The Development of Markers for the Big-Five Factor Structure[J].Psychological Assessment,1992,4(1):26-42.
[6]Tupes E C,Christal R C.Recurrent Personality Factors Based on Trait Ratings[M].(Tech.Rep.No.ASDTR-61-97).Lackland Air Force Base,TX,U.S.Air Force,1961.
[7]张磊,陈贞翔,杨波.社交网络用户的人格分析与预测[J].计算机学报,2014,37(8):1877-1894.
[8]Chang K C,Garcia-Molina H,Paepcke A.Boolean Query Mapping Across Heterogeneous Information Sources[J].Knowledge and Data Engineering,IEEE Transactions on,1996,8(4):515-521.
[9]Salton G,Fox E A,Wu H.Extended Boolean Information Retrieval[J].Communications of the ACM,1983,26(11):1022-1036.
[10]Lee J H.Properties of Extended Boolean Models in Information Retrieval[C].Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Springer-Verlag New York,Inc.1994:182-190.
[11]Rish I.An Empirical Study of the Naive Bayes Classifier[C].IJCAI 2001 Workshop on Empirical Methods In Artificial Intelligence. Vol 3.2001:41-46.
[12]Suykens J A,Vandewalle J.Least Squares Support Vector Machine Classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[13]S.Argamon,S.Dhawle,M.Koppel,J.Pennbaker.Lexical Predictors Of Personality Type.In Proc.Joint Annu.Meeting Interface Classification Soc.North Amer.,2005.
[14]F.Mairesse,M.A.Walker,M.R.Mehl,R.K.Moore.Using Linguistic Cues for the Automatic Recognition of Personality In Conversation And Text.J.Artif.Intell.Res.,Vol.30,pp.457-500,2007.
[15]張曉珍,運用文字探勘技術在社群行為上之人格預測,臺灣國立交通大學,2013.
[16]汤文清,微博用户的兴趣及性格分析,上海大学,2015.
[17]J.Oberlander,S.Nowson.Whose Thumb Is It Anyway?Classifying Author Personality from Weblog Text.In Proc.Annu.Meeting Assoc.Comput.Linguistics,2006,pp.627-634.288 IEEE Transactions On Affective Computing,VOL.5,NO.3,July-September 2014
[18]S.Nowson,J.Oberlander.Identifying More Bloggers:Towards Large-Scale.In Proc.Int.Conf.Weblogs Social Media,2007.
[19]K.Luyckx,W.Daelemans.Using Syntactic Features To Predict Author Personality From Text.In Proc.Digit.Humanities,2008,pp. 146-149.
Survey of Personality Research Based on Social Text
ZHU Yu
(College of Computer Science,Sichuan University,Chengdu 610065)
With the rapid development of computer network technology and the popularization of social media tools,more and more people use the text information to express themselves on social network.This information has great value in the research on personality analysis.This research can better promote people′s understanding and maintenance of their mental health and can promote service providers to provide more accurate,personalized service.Therefore,carries out a summary of the social text based on the personality analysis with the three aspects,related research foundation,mainstream methods,research status and the problems.
Social Network;Text Analysis;Personality Analysis;Classification Model
1007-1423(2017)09-0061-04
10.3969/j.issn.1007-1423.2017.09.016
朱宇(1988-),男,四川简阳人,硕士,研究方向为人机交互
2017-02-15
2017-03-20