基于GA 和网络日志的人格倾向分析

2020-06-08古勇成陈平华秦勇

现代计算机 2020年12期

古勇成，陈平华，秦勇

（1.广东工业大学计算机学院，广州510006；2.东莞理工学院计算机学院，东莞523808）

0 引言

如今，网络已经渗透到人类工作、学习、生活的方方面面，并对人们的生活方式与心理行为产生了深刻的影响。我们应该看到，网络在给人们带来便利与进步的同时也不可避免地引发许多问题，如网络成瘾、网络犯罪等。因此，近年来互联网使用方面的心理学研究也受到了国内外学者的广泛关注[1]。

心理学家们曾为了深入了解网络用户，关注并研究了用户人格特性与网络使用行为之间的关系。在过去的研究表明，用户的人格特性可以通过用户的网络行为来体现。在对网络用户人格的分析研究中，目前的方法是利用社交网络上的数据来实现[2]。在各种网络媒体（例如微博、Facebook 等）[3-5]上的研究也证实了这一方法的可行性。

但是，以往的这些研究内容主要集中于人格分析在社交网络上的实现，适用面仅局限于社交网络上的用户，可以说该方法只利用了用户在网络空间行为中的一部分数据而已，对于一些社交网络数据量少或没有的用户群体来说，该方法并不适用于他们，因此光靠社交网络上的数据不能实现对每个上网用户人格情况的分析。

故针对上述问题，本研究在总结人格测量的标准与方法的基础上提出了一种基于网络日志信息和遗传算法相结合的分析方法。该方法所使用的用户网络特征数据为网络日志数据，该数据直接与每个上网用户相联系，能直观全面地反映每个用户的上网行为习惯，从而为用户人格倾向的分析预测提供更为客观、全面、准确的数据来源。且结合遗传算法能够从广阔的网路日志特征空间中，寻找出最适合用于人格倾向分析的特征组合，从而达到降低特征维度，提高模型精度。

1 遗传算法介绍

1.1 遗传算法定义

遗传算法（Genetic Algorithm，GA）是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，不需要确定的规则就能自动获取和指导优化的搜索空间，自适应地调整搜索方向。其中，选择、交叉和变异构成了遗传算法的遗传操作；参数编码、初始群体的设定、适应度函数的设计、遗传操作设计、控制参数设定五个要素组成了遗传算法的核心内容[6]。

1.2 遗传算法原理及步骤流程

遗传算法对于特征选择的基本原理是用遗传算法寻找到一个最优的二进制编码，编码中的每一位都对应着特征向量表中的一个特征，若第i 位为“1”，则表示对应的特征被选取，为“0”，则表示该特征未被选取，最后所有选取的特征将用于分类器的构建。其基本步骤为：

（1）编码：采用二进制的编码方式，选中的特征位为“1”，没有选中的特征位为“0”。

（2）初始化种群：随机生成N 个携带特征基因的群体。

（3）适应度函数：适应度函数用于衡量个体的优劣性。即用一个数值来计算出携带不同特征基因个体对于解决问题的优劣程度。

（4）选择：将适应度最大的个体，即种群中最好的个体根据选择策略选择出来，就如同自然界中优胜劣汰的规律。

（5）交叉和变异操作：对于经过选择后的群体，挑出一部分作为父代，一部分作为母代，进行基因的交叉。同时设定一个变异的概率，使群体的基因能够发生变异。交叉和变异均是用于扩大特征基因的组合方式，使问题的解不至于陷入局部最优的情况。

（6）繁衍：设置一个种群的繁衍次数，即对于上述步骤4、5、6 进行迭代操作，同时记录下最优的个体。算法执行流程如图1 所示。

图1 遗传算法流程图

2 基于遗传算法（GA）和网络日志的人格倾向分析模型

通过用网络日志数据作为人格倾向分析模型的输入，能够全面地反映上网用户的上网行为特征，再通过结合遗传算法模型，便可以得到人格倾向分析的最优特征数据组合。其模型结构如图2 所示。

图2 模型结构图

2.1 模型的输入处理

2.1.1 标签数据的选取及处理

Myers Briggs Type Indicator（MBTI）是人格类型说的典型代表，MBTI 是一种基于量表的人格测评方法，它的理论原型是分析心理学的创始者Carl G Jung 的人格类型说，人格类型说的理论类似于数据挖掘中的分类问题，即假定某一类型的人的行为与其他类型人的行为明显不同，把全部个体分为固定的几个类别。MBTI 量表的结构清晰，完全符合理论模型，具有非常理想的结构效度，而一个量表的信效度最根本的证据就是结构效度。故采用MBTI 量表来评估用户的人格内外倾向是具有一定的信效度的。

本次的人格数据是通过在校内网络问卷平台上发布迈尔斯布里格斯类型指标（MBTI）量表来获得的。MBTI 的指标类型如表1 所示，评估结果展示如图3所示。

表1 MBTI 类型指标表

图3 MBTI评估结果图

处理方法：

对于样本中内外向倾向类型的数据，通过对该量表的了解，为了让样本数据更加具有区分性，我们设定30%作为该数据的一个阈值，对于大于该阈值的数据，我们进行保留，并进行标签二值化处理，将外向类型标记为“0”，内向类型标记为“1”。2.1.2 特征数据的选取及处理

源日志主要来自于专门的网络日志采集服务器，通过用户申请访问网络的情况，采集其访问的链接数据，从而获得用户的网络日志信息。在征得学生本人的同意下，本研究采集了在校1000 名学生一个月的网络日志信息。日志格式为：“用户在某时间点访问某网络类型的记录”。日志样本如表2 所示。

表2 日志样本

日志信息处理：

（1）对日志中的关键词信息进行提取，包括用户访问类型、网站的名字、时间和日期。

（2）对于提取到的关键信息，把同义及相近的类型归在为一类，做合并处理。

（3）制定上位词，如“购物”是“天猫，淘宝，京东”的上位词替代，用“购物”这一上位词作为该类型的集合名称。

（4）对一个月内各类型的网络日志数据进行统计，这样可以降低短期内偶发性网络数据的影响，从而从一个较长的时间范围内来分析用户的人格倾向。

2.2 模型的训练

本文的模型是基于遗传算法（GA）的分析模型，其训练方法主要是依据适应度函数的计算值和选择策略的结果对有标记的监督样本进行有限次的迭代操作，从而选出最适合用于区分人格内外倾向的特征组合方式。

2.2.1 适应度函数的选取

本文使用基于距离判据的适应度函数，该判据直接依靠样本本身的数据进行计算，直观简洁，物理概念清晰。通过计算同类样本之间的距离和异类样本之间的距离来判断样本的可分性。其相应计算内容及公式如下：

（1）总体类内散布矩阵：

（2）总体类间散布矩阵：

（3）适应度函数：

显然，对于同类样本来说，样本之间的距离越小越好。对于异类样本来说，样本之间的距离越大越好。也就是说，同类样本的距离越小，异类样本的距离越大，模型的分类效果越好。故用类内散布矩阵Sw和类间散布矩阵Sb的迹来衡量类内距离和类间距离，进而给出的类间-类内距离判据J，J 越大，类别可分性越好。

2.2.2 选择策略

本文使用轮盘赌的选择策略。该方法是一种有放回的随机采样方法，根据每个个体适应度函数的计算值占群体适应度函数值之和的比值作为其能够被选中进入下一代的概率，所以适应度函数计算值越高的个体越容易被保留下来。计算公式如下：

本文在训练过程中采用如下改进策略：

（1）为避免选择策略的随机性，我们将适应度函数最优的个体直接保留到下一代迭代群体中

（2）在迭代算法前期，为保障群体的多样性，避免算法过早陷入局部最优的状况，我们将适当降低高适应度个体的适应度值，提高低适应度个体的适应度值，从而保证前期在进行选择策略时，群体所含的解的空间范围能够尽可能的大。

最后，在实际的模型训练过程中，为了得到稳定可靠的模型，减少偶然误差的影响，实验取10 次训练结果的平均值。

3 实验结果分析

3.1 实验环境

表3 实验环境及配置

3.2 参数设置

具体参数设置如下：初始种群N=100，迭代次数tmax=100，变异概率因子p=0.02，改进策略中前期指迭代次数t≤15。

3.3 实验结果分析

本文用于人格倾向分析的网络行为特征共有17种，分别是：视频网站、弹幕视频网站、旅行、聊天、体育、新闻、贴吧、微博、音乐、FM、阅读、网页游戏、手游、直播、漫画、金融、购物。

模型结果如图4。

由图4 可以看出，当选择的特征数为5 个时，遗传算法模型中的适应度数值达到最大，说明此时选出的特征数据组合是最优的，其对人格内外倾向标签的区分度最高，这组特征最能体现出不同人格倾向类型的上网行为差异，模型输出的最优特征组编号为：[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1]，其对应的特征名为：[“弹幕视频网站”，“微博”，“音乐”，“手游”，“购物”]，在这5 个维度的网络行为特征上，内外倾向的人格上网行为具有一定的区分性。

图4 模型结果图

为验证基于网路日志的遗传算法选出的特征组合的有效性，我们用机器学习模型中的分类模型来验证其结果，模型的评价参数有：

P 值：样本的总体精确率

R 值：样本的总体召回率

F1 值：F1 分数同时考虑精确率和召回率，让两者同时达到最高，取得平衡。

该模型结果如表4。

表4 分类模型验证结果表

由表4 可知，实验中特征向量的选取有两种情况，一种是通过遗传算法处理后，选取部分特征的情况：[0.1.0.0.0.0.0.1.1.0.0.0.1.0.0.0.1]，一种是没经过处理，全部的特征数据都采取的情况：[1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1.1]，再通过用两种机器学习的分类模型，SVM（支持向量机）和RF（随机森林）对这两种情况进行建模分析，证明了基于网络日志的遗传算法模型选出的网络日志特征数据的组合是有效的，能够明显地提升分类模型分类内外人格倾向的精确度。