APP下载

基于支持向量机的人格推断模型

2017-04-22董春霖

现代计算机 2017年7期
关键词:超平面准确率向量

董春霖

(四川广安岳池县第一中学,广安 638300)

基于支持向量机的人格推断模型

董春霖

(四川广安岳池县第一中学,广安 638300)

新浪微博是人们广泛使用的社交平台,提取微博用户的信息,使用支持向量机对数据进行分类,建立人格推断模型,可以对微博用户的人格进行推断。结果表明,该推断模型能够得到不错的推断准确率。

人格;支持向量机;新浪微博

0 引言

人格是一种具有自我意识和自我控制能力,具有感觉、情感、意志等机能的主体,是具有一定倾向性和相对稳定的心理特征。根据大五人格理论,人格可以被分为五个维度:开放性、尽责性、外向性、宜人性和神经质。开放性是指对新鲜事物的态度和偏好,尽责性是指对事物的态度,外向性是指社交的多少,宜人性是对他人的关心和帮助,神经质是情绪的稳定程度。

对人格的研究是非常重要的,研究表明具有相同人格的人之间会相互吸引,如果让相同人格的人进行合作,工作效率会得到提高。因此人格特点的研究可以作为特征服务的基础。

1 相关工作

之前关于社交网站的研究主要集中于社交网页等。从某种意义上来说,虚拟世界是真实世界的一个缩影,遵循真实世界中大多数的原则。研究发现,网络用户喜欢加入一些小的社区。同时,近年来,越来越多的网络用户在网络上暴露自己的信息,这些信息可以用来对他们自身的特征息息相关。Junco Reynol研究了Facebook和学生表现之间的关系,发现Facebook的使用频率和学生的成绩成反比。

到目前为止,关于社交网络和人格之间的研究还非常少。Emily S.Orr曾经在大学生中研究过害羞和社交网络的使用之间的关系。他发现,害羞的人明显在社交网络上面花费更多的时间。但是,他们的好友数量却比不害羞的人更少。Teresa Correa研究了用户人格和社交媒体之间的关系,发现开放性和外向性与交媒体的使用成正相关,神经质和社交媒体的使用负相关。但是这些研究只是给出了正负相关,并不能对他们进行量化。Samuel D.Gosling研究了不同人格在社交网络上面的表现。他的研究表明,人格和社交网络的使用有着对应关系。

总的来说,大多数关于人格的研究只使用了心理学的方法。不论是自陈量表还是他人观察,对于大规模的问题来说都是不够效率的。同时,他们的研究只是用了用户对社交网络的使用频率。如果我们使用一些跟情绪相关的特征,将得到更好的结果。在关系模型中,只能得到社交网络和人格之间的关系,但是不能够直接预测人格。尽管这些因素可以描述人格和行为之间的关系,但是他们不能对人格进行定性研究。由于心理学和计算机科学有着各自的优势和劣势,我们尝试将这两个学科统一起来,建立一个人格自动识别模型。

2 支持向量机

支持向量机(Support Vector Machine,SVM)以寻找在空间中最合适的平面为目标,该方法在适量的训练样本上使用数学方法和优化技术来生成一个最佳超平面,并且该超平面使得两类之间数据点间距最大。也因此属于间隔分类器。由于在训练时,训练集的每一个样本是一个支持该平面的向量,该算法则被称为支持向量机。

对于二分类问题,在样本空间中,可将超平面描述为:

其中w=(w1,w2,…,wd)为法向量,据决定超平面的方向;b为位移。假设超平面(w,b)可以正确的对样本进行分类,即可表示为:

那么可以通过解决以下优化问题寻找到拥有最大间距(margin)的最优二维分割超平面。

对上式的每个约束条件添加拉格朗日乘子,则可变形为:

求w和b的偏导,再代入上式,解出α,求出w和b,即可得到模型。

需满足Karush Kuhn-Tucker(KKT)条件

3 方法

3.1 数据收集

本文尝试建立一个基于社交网络的人格计算模型。我们选取了现在中国实用率最高的社交平台——微博,作为实验平台。微博对第三方应用开放了很多API。这些三方应用,可以被分为三类:网页接口、应用软件接口和手机接口。本文使用一个网页接口。当被试登录网页接口后,我们将得到他们的授权。然后,我们将通过这个接口接入微博获得他们的数据信息。

每位参加实验的被试都要做一份大五人格量表,测试他们的人格类型。得到的人格类型,在后面的数据处理中用来做类标,进行分类。

3.2 特征选择

我们得到的数据并不能直接使用,需要从这些数据中提取有用的特征。根据之前的研究,我们提取了45个跟大五人格有关特征。这些特征可以分为5个组。具体的特征分类如表1所示。

表1 文字输入特征分类

用户基本信息和社交网络使用信息已经被很多研究所使用,这些信息包括用户的性别、年龄、家乡、博客使用频率等。时间相关的特征包括微博发表频率,对别人微博转发频率等。情绪相关特征是那些跟情绪表达相关的特征,包括用户在微博中使用的表情、情感词等。情感相关的特征就是找出微博中情感词、表情的使用数量。时间和情感都相关的特征是指最近的情感表达。

4 实验

4.1 被试

本文共选取200名位被试,所有被试都经常使用微博,至少两天登录一次。他们的年龄在25-51岁(平均年龄38),其中女性121位,男性79位。在做实验之前,我们会告诉他们,我们将会接入他们的微博,并获得他们微博中的信息。每位被试按要求填写大五人格量表。然后,被试登陆我们的第三方网页接口,给我们授权收集他们的微博信息。

每位被试在实验结束后都填写一份大五人格量表,通过量表的得分给每位被试的数据加类标。为了得到用于分类的类标,我们把量表测得的分数离散化,把被试的得分分为两组,高分组和低分组。高分组为高于或等于平均分的被试,低分组为低于平均分的被试。

通过转换,得到下表所示的数据。

表2 人格量表得分离散化

4.2 分类模型建立

本文采用支持向量机算法建立分类模型。使用5折交叉验证,4/5的数据用于建模,剩下的4/5的数据用来对该模型进行验证。

最后对人格五个维度上的分类准确率进行统计,同时使用双侧T检验判断分类的准确率和基线之间是否有显著性差异。这里,我们用多数类所占的比例为基线。

无时间限制的人格推断模型分类准确率如表2所示。从表中可以看出,通过支持向量机进行分类,开放性的分类准确率最高,达到了81.00%,是最容易被分类的。其次是尽责性,准确率达到了78%。分类效果最差的是宜人性,准确率只有69%。

这个结果,应该和类标的获取有着重要的关系。为了获取类标,本次研究采用自陈量表的方式得到每位被试在各个维度得分的高低,得分容易受到自我认识的影响。大五人格五个维度中,一些容易被观察到,例如宜人性,而一些是不容易被观察到的,比如开放性。容易被观察的维度,自评量表得到的结果就不是那么准确,容易有误差,而不易观察的维度,通过自评量表得到的结果更加准确。本文采用的自评的方式获得人格分数,所以分类结果不易观察上的准确率更高(开放性最高),而不易观察的维度上面的准确率较低(宜人性最低)。

同时,我们把每个维度的分类准确率和基线进行对比,使用双侧T检验(p<.05),得到的结果如表最后一列所示,只有宜人性的分类准确率没有没显著高于基线,其他四个维度的分类准确率都显著高于基线。

表3 人格五个维度上分类准确率

5 结语

本文使用支持向量机,对微博用户的人格进行推断。通过对我们提取出来的45与人格相关的特征,在人格的五个维度上进行分类,得出已下结论:①本文建立的人格推断模型能够对微博用户的人格进行推断。②模型在开放性维度的准确度最高,在宜人性维度上的准确度最低。

将来,我们将继续在心理学计算机科学的交叉学科上进行研究。为了将整个人格推断模型做地更好,我们将尝试其他分类算法,期望找到更好的算法。同时,现在还存在很多其他社交平台,例如QQ空间、微信,将来我们也打算在其他平台进行尝试,对我们的结论进行检验,同时希望更多的信息能够提高我们的推断准确率。

[1]Kaplan A M,Haenlein M.Users of the World,Unite!The Challenges and Opportunities of Social Media[J].Business Horizons.2010, 53(1):59-68.

[2]Reeves B,Nass C.The Media Equation:How People Treat Computers,Television,and New Media Like Real People and Places[M]. Cambridge University Press,1996.

[3]Goldberg L R.The Structure of Phenotypic Personality Traits.[J].American Psychologist,1993,48(1):26-34.

[4]Gosling S D,Rentfrow P J,Swann W B.A Very Brief Measure of the Big-Five Personality Domains.[J].Journal of Research in Personality.2003,37(6):504-528.

[6]Cattell H E."The Structure of Phenotypic Personality Traits":Comment.[J].American Psychologist.1993,48(12):1302-1303.

[7]Dd O C E O.Social Network Analysis[J].Encyclopedia of Social Network Analysis&Mining.2011,22(Suppl 1):109-127.

[8]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[C].International Conference on Human-Computer Interaction,2009.2009:304-314.

[9]Fang X,Chan S,Nair C.An Online Survey System on Computer Game Enjoyment and Personality[J].Lecture Notes in Computer Science.2009,5613:304-314.

[10]王莹,朱廷劭.微博人格结构的词汇学研究[C].全国心理学学术会议,2014.2014.

[11]王青.大学生微博用户人格特质、使用动机和使用行为的关系研究[D].南开大学,2011.

[12]刘丽华.人格互动与微博传播[J].新闻知识.2011(12):51-52.

[13]胡志海,范晓振.微博活跃使用者人格状况分析[J].黄山学院学报.2014(4):90-93.

[14]陈俏,曹根牛,谢丽娟.支持向量机的研究进展[J].现代计算机:专业版.2009(4):47-50.

Personality Inference Model Based on Support Vector Machine

DONG Chun-lin
(No.1 Middle School,Guangan 638300)

Weibo is widely used in China.By extracting the information of Weibo users,and using support vector machine to classify the data,establishes a personality inference model to infer users'personality.The results show that the inference model can get good inference accuracy.

Personality;SVM;Sina Weibo

1007-1423(2017)07-0003-04

10.3969/j.issn.1007-1423.2017.07.001

董春霖(1982-),女,四川岳池人,本科,全国三级心理咨询师

2016-12-22

2017-03-01

猜你喜欢

超平面准确率向量
一种改进的多分类孪生支持向量机
向量的分解
基于非线性核的SVM模型可视化策略
有限维Banach空间中完备集的构造
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
聚焦“向量与三角”创新题
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
Gianluca Capannolo