基于TF-IDF方法的文本人物群体人格分析方法
2019-05-16蔡天鸿史国阳怀丽波
蔡天鸿 邓 金 史国阳 朱 晋 怀丽波
(延边大学计算机科学与技术学院智能信息处理研究室 吉林 延吉 133002)
0 引 言
个体人格与个人发展息息相关,人格研究可以帮助人们达到美好的人生和成功的事业。在群体生活中,群体成员心理存在社会标准化倾向,对于外界事物的认知和判断会发生类化,彼此互相影响,如流行于群体中的歌曲、衣着、饮食等在内的习俗化表现。群体人格研究能够让人们从更多角度理解某群体的语言,包括一些独特的想法、习惯、情感在内的群体文化和群体人格,增强对某群体的理解和认识。
本文从特定模拟情境入手,记录大学生群体在该条件下的文本语言表达,采用多种自然语言处理技术相结合的方法获得该群体的人格分布。依据实验所得到的结果了解学生的性格,可以因地制宜地教学,对改善学习效果、提高教学质量等研究提供一定的参考价值。
1 相关工作
1.1 情景模拟法
美国心理学家茨霍恩最早提出情景模拟法。随着人类社会的进步和发展,管理、教学等领域对人才的需求极大,将情景模拟测试运用到各个领域可以更有效地选拔人才。目前把情景测试法归纳为以下五种:公文处理、无领导的小组讨论、角色扮演、起草公文、案例分析。情景模拟法具备趣味性浓、真实感强的优势,特别是在教学和人力资源管理方面运用得非常广泛[1]。
随着对情景模拟的了解越来越深,近年来,合理运用情景模拟法已经逐渐成为很多领域不可缺少的一部分。如根据对突发性事件的应急场景的模拟,可以测试相关人员的合格程度[2];根据对急诊抢救场景进行模拟,让实习护士学会将理论知识应用于实际操作;将情景模拟教学与财务会计相结合,提高学生学习兴趣和实践操作能力[3]。情景模拟的应用还在不断扩展中,本文将情景模拟应用进行拓展,用于大学生群体人物人格分析。
1.2 九型人格
九型人格从古中亚开始发展,距今已有近两千五百多年的历史,在Naranjo、Hudson、David Daniels等来自不同国家的心理学研究学者的广泛推广下,九型人格逐渐走入现代心理学体系[4]。作为人格研究工具,RHETI量表是到目前为止九型人格领域使用最多、传播最广、影响力最大的量表,该量表被认定了充分的信度和效度,以及内部的高度一致性[5]。近年来涉及九型人格的领域愈加广泛,如医疗、教育、企业、人才培养等[6]。如2012年柴佳就给出了大学生教育中个体人格的分析对教育的影响[7],但涉及大学生群体性格研究的文献相对较少。本文则采用机器学习分析群体人格,具有一定的研究意义。
1.3 文本技术
文本表示如今普遍采用Salton等提出的向量空间模型。在这个模型中不必考虑文本中语义单元的顺序,而是将文本简化为一个BOW(Bag-of-Word),并表示为特征权重的向量。向量空间模型主要以词作为特征,以词频矩阵为基础计算权重[8]。常用的特征提取方法有文档频率、信息增益、互信息、卡方检验、期望交叉熵、TF-IDF方法和特征降维[9]。现有的特征降维技术有PCA等,此外小波变换压缩数字信号的特点也能用来进行特征提取[10]。
文本分类是基于内容的文本信息挖掘的基本技术之一,目前常用的文本分类方法主要有朴素贝叶斯分类算法、决策树分类算法、神经网络分类算法、K-最近邻(KNN)分类算法、支持向量机(SVM)分类算法等。其中SVM算法分类器训练时间长,而决策树算法的效率也会因为数据量的增大而降低。而KNN算法在准确率和稳定性方面均有优势,它不需要预先训练模型,同时具有很好的鲁棒性。
2 基本理论
2.1 人格分析
情景模拟方法具有一定的情境特征,是一种行为测试手段。情境模拟规则是模拟特定的情境,并在一定的情境压力下对其进行评估。此外,由于许多人参与测评,可以为评价者提供条件的比较,使评价结果更加准确。情景模拟是在动态中考核,在动态评价中可以提高评价的真实性、有效性。
九型人格也被称为人格型态学。在众多的人格测试和划分方法中,与其他人格分类法不同,九型人格揭示了人们内在最深层的价值观和注意力焦点,它不受外在行为的变化影响。按照一个人的核心焦点和深层的动机的不同,将人的人格划分为九类:1号完美型、2号助人型、3号成就型、4号自我型、5号理智型、6号疑惑型、7号活跃型、8号领袖型、9号和平型[11]。2000年后九型人格作为一门理论,开始逐渐在企业管理、教育、精神治疗等领域发挥作用。另外,机器学习技术不断发展成熟,将九型人格理论和机器学习相结合将成为可预见的事实。
2.2 文本处理
在VSM模型中,单词权重计算最为有效的实现方法是TF-IDF。它的计算公式如下:
W(ti,dj)=tf(ti,dj)×idf(ti,d)
(1)
式中:W(ti,dj)是特征项ti在文本dj的权重取值;tf(ti,dj)是特征项ti在文本dj中出现的频率,用于计算该词描述文档内容的能力;idf(ti,d)是特征项ti在文本集d中出现文本频率数的反比,称为反文档频率,用于计算该词区分文档的能力[12]。
PCA降维方法将高维的词语特征-文档空间转换为一个低维度的正交矩阵,从中选择最有辨别能力的特征。Wavelet是时间(空间)频率的局部化分析,它通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节。
KNN分类算法能够确定待分类样本与训练样本之间的相似程度,从而确定与待分类样本距离最近的K个训练样本。其最关键的因素是相似性度量方法,最常采用的相似性度量方法是余弦距离,如下所示:
(2)
式中:X,Y代表两个文档表示向量。对于一个待分类文本,根据相似性度量函数从整个训练集中找到与文本最相似的K(K是预先设定的一个整数)个文本,然后根据K个近邻文本所属的类别给的候选类别评分。
2.3 方法设计
本文以情景模拟法入手,利用文本分析方法对大学生群体人物性格进行群体人格判别,具体流程如图1所示。
图1 分析方法整体框架图
首先需要得到有效的训练样本。让100位志愿者登录官网进行专业的九型人格测试,然后按志愿者人格类型分为九个小组,并让每个小组内的志愿者回答设定的情景模拟题,进而得到100个已经标定好人格类型的文本样本。
读取100个模板文本样本,去掉特殊符号和停顿词等,剩余词语为关键词。为了减少计算量,本文利用TF-IDF特征提取方法对关键词进行排序,选取TF-IDF值较大的词作为类别关键词,之后根据筛选好的类别关键词构建向量空间模型a。
逆向文件频率(IDF)本质上是对噪声数据的加权,本文中如果单纯认为文本词频越小越有用、频数越大越无用是片面的,需要加入其他算法对类别关键词进行优化。分别利用PCA特征提取方法和Wavelet特征提取方法对文本语言表达集进行特征提取,得到PCA空间b、Wavelet空间c。
分别对提取到的空间a、b、c使用KNN算法进行分类,测试时选取3×K个候选项,以3×K个候选项中出现次数最多的人格类型作为最终判别人格。
3 实验结果与分析
本文以“假如去一孤岛只能带三样东西并阐述理由”作为情景模拟,共收集500位大学生志愿者的回答文本。选取100位志愿者,让其在九型人格官方测试网站选取180题的测试选项进行测试,选取准确率较高的180题测试网站作为标准,且假定测试结果准确。
3.1 分类模型训练
为了获得较好的分类器,从最初获得的100个样本中随机选取一定比例的训练样本和测试样本进行实验,实验结果如表1和表2所示。
表1 实验样本个数为100时分类器的准确率
表2 训练样本数/测试样本数为4/1时分类器的准确率
计算出分类器的准确率约在72.3%,该结果是在假定模板为绝对正确的前提下进行的,所以是相对结果。而180题测试的准确率约为75%,故实际准确率约为0.75×72.3%=54.2%,而常见的测评网站例如144题、80题、36题等准确率一般在50%左右[4]。本文方法与常规测评准确率接近,可以作为人格测评的依据。前100个标定样本的分布图如图2所示。可以看出:除了3型人格,其他八类人格在训练样本中分布差别不大,这能有效地缩小分类误差。
图2 100个标记样本群体人格类型分布
3.2 群体性格预测
1) 在参数已设定好的情况下对其余400个未标定的文本话语进行了人格分类,人格分类结果如图3所示。可以看出,在整体中九种人格所占比例分别为:1型占3%,2型占9%,3型占45%,4型占17%,5型占6%,6型占4%,7型占8%,8型占4%,9型占4%。其中:所占比例最高的为3型人格,几乎占到整体的一半;所占比例最低的为1型人格,仅仅只占整体的3%。
图3 未标定的400样本对应群体人格类型分布
2) 500个数据样本总分布图如图4所示。可以看出,在整体中九种人格所占比例分别为:1型占4%,2型占9%,3型占40%,4型占17%,5型占7%,6型占5%,7型占8%,8型占5%,9型占5%。其中:所占比例最高人格类型为3型(成就型)人格;所占比例最低的为1型(完美型)人格。由此可以发现,这一群体的主流人格为成就型人格。成就型人格的主要特征是在拥有强烈的好奇心,同时喜欢与人比较,将成就作为衡量自己价值高低的媒介。不仅如此,拥有该人格的人物自信、积极进取、具有接受挑战的欲望。上述特质和实验研究群体即当代大学生的积极、向上的主流思想特点相吻合,基于TF-IDF方法的文本人物群体人格分析方法是可行且合理的。
图4 500个样本对应群体人格类型分布
4 结 语
针对日益增长的人物群体人格分析的需求,本文提出了一种基于TF-IDF方法的文本人物群体人格分析的方法。实验表明,该方法不但能极大地缩短了预测人格的时间,而且具有相当大的可信度。本文提出的文本人物群体人格分析则能在短时间内高效地获取学生人格分析结果,真正做到因材施教。下一步需做的工作有如何进一步提高分类器可信度以及引入人物的动作神态指标等。