C4.5算法在大学生心理健康分析中的应用
2016-09-20江家龙秦亮曦
江家龙,秦亮曦
(1.广西大学计算机与信息工程学院,南宁 530004;2.广西工商职业技术学院现教中心,南宁 530008)
C4.5算法在大学生心理健康分析中的应用
江家龙1,2,秦亮曦1
(1.广西大学计算机与信息工程学院,南宁 530004;2.广西工商职业技术学院现教中心,南宁 530008)
大学生的心理健康问题受到了各高校和相关研究人员的普遍关注。采用C4.5算法对大学生的心理健康问题进行分类分析。通过收集学生基础数据和SCL-90心理健康测评信息并提取相关属性,以C4.5算法构造大学生心理健康问题分类模型,发现影响学生心理健康的主要因素和它们之间的关系,并生成分类规则。利用测试集的数据对分类模型进行测试,测试结果表明该模型有较好的准确率。该模型一定程度上可为高校开展心理健康教育的规划、决策提供参考。
C4.5算法;心理健康;决策树
0 引言
作为受高等教育的群体,大学生在自身发展和追求过程中,承受着学业、生活、情感、就业等诸多压力。一项对全国12.6万名大学生的调查显示,20.3%的大学生有心理问题。其中存在抑郁、焦虑、强迫、人际关系不良、人格障碍、精神疾病等心理问题或心理障碍约占16-30%[1]。《2010-2011年度大学生心理健康调查报告》显示,27%的大学生认为自己经常有心理方面的困扰。众多的调查和研究表明心理健康不仅影响着大学生成长,还关系着校园的稳定和社会的和谐发展。近年来,大多数高校都成立了心理健康中心或类似的机构。心理健康课程的开设、讲座的举办、问卷调查、网上测评、面对面的心理咨询等,为大学生心理健康分析积累了丰富的数据资料。如何快速准确地对上述数据进行分析,探讨影响学生心理健康的主要因素,针对性地进行心理健康教育,成为各高校迫切需要关注的问题。
目前数据挖掘在大学生心理健康分析的应用,主要以决策树分类算法为主。吴小刚[2]以SCL-90量表各个维度作为决策属性,构造了大学生心理问题模型。李鑫[3]通过Clementine 12.0工具,选择C5.0算法,建立了大学生强迫、焦虑、人际关系问题症状的决策树模型。高艳平[4]通过问卷调查,研究了学生性格、家庭和睦、家庭经济、精神病遗传和学生有无心理疾病之间的关系,并采用C4.5算法构建了相关心理模型。本文在文献[2]基础上,拟通过收集学生基础数据和SCL-90心理健康测评信息并提取相关属性,以C4.5算法构造大学生心理问题模型。以期发现影响大学生心理健康的主要规律与模式,为大学生心理健康预防和教育提供更科学和有效的依据。
1 C4.5决策树算法
针对ID3无法处理属性值缺失、不能对连续属性进行处理、计算信息增益时偏向取值较多的属性等缺点,Quinlan对其进行了改进,提出了C4.5算法。该算法以信息增益率作为衡量标准,选取最高信息增益率的属性作为分裂属性。设集合S有s个数据样本,Si是类Ci(i=l,…,m)中的样本数。集合S在Ci分类中的期望信息量(也称信息熵)[5]:
信息增益率为信息增益对分割信息量的比值:
2 基于C4.5算法的心理健康分析过程
2.1 数据采集
本文选取某高职院校2012-2014年度学生网上SCL-90心理健康测评信息,对象为2012级、2013级、2014级学生,共采集到7398个样本。涵盖了文、理、工等33个专业,其中男生2161人,女生5237人,数据具有一定的代表性。
表1 学生测评信息综合表
2.2 数据预处理
(1)数据清洗
学生的基础数据来源于教务科研处,该数据经学生本人和班主任认真核对,无数据缺失,所以不用清洗。虽然学生心理测评都是在专业心理老师指导下进行,但仍有部分学生敷衍了事如:答题不完全、答题答案完全一致。对这些数据必须进行清理,最后得到学生测评信息综合表记录为7289条。
(2)属性选择
学生姓名、专业、年级、民族等基础数据对建立模型没有影响,因此在构造决策时不考虑这些属性。SCL-90各个项目的答题情况是不能直接用于数据挖掘的,必须通过其答题情况将其转化成相应的因子分,同时为了对学生的健康情况进行分类,我们还必须加入一个总分属性。经过属性处理后得到学生测评信息综合表,如表1所示。
(3)数据泛化
数据泛化的目的是将数据清理后数据信息转换成适合于挖掘的形式,建立一个真正适合挖掘算法的分析模型[5]。性别为“男”、“女”,无需泛化。学生的家庭地址,可以泛化为“农村”、“城镇”、“城市”,而属性名称也相应改为生源地。SCL-90中的10个因子,当因子分Si∈[1,2)时泛化为“健康”,当因子分Si∈[2,3)时泛化为“轻度”,当因子分Si∈[3,4)时泛化为“中度”,当因子分Si∈[4,5]时泛化为“重度”。当总分S∈[90,160]泛化为“健康”用A表示,当总分S∈(160,200]泛化为“进一步检查”用B表示,当总分S∈(200,250]泛化为“很明显”用C表示,当总分S∈(250,450]泛化为“比较严重”用D表示,属性名称也相应改为症状[3]。
经过数据泛化之后,出现很多条重复的记录。这些重复数据会增加数据分析的时间和计算量,降低分类的效率,因此将其删除。经过数据预处理后,最终得到可用于挖掘的数据1119条,随机选取749用于决策树训练,其余370条用于决策树模型的准确性评估。
表2 泛化后的学生测评信息综合表
2.3 决策树的构造
在训练集中症状A、B、C、D的子集数分别为S1= 161、S2=433、S3=109、S4=46。首先计算集合S分类的期望信息量:
然后计算各个决策属性的信息量,以决策属性“强迫”为例,分别计算其症状健康、轻度、中度和重度四个类别时的期望信息量。
(1)当强迫属性值为健康时:
(2)当强迫属性值为轻度时:
(3)当强迫属性值为中度时:
(4)当强迫属性值为重度时:
Gain(强迫)=I(S1,S2,S3,S4)-E(强迫)=0.364193019
训练集S关于强迫的各个属性分割信息量为:SplitInfo(强迫)=-
同理得其他属性的信息增益率分别为:GainRatio(性别)=0.0038133,GainRatio(生源地)=0.0089437,GainRatio(躯体化)=0.2166676,GainRatio(人际关系)= 0.2629232,GainRatio(抑郁)=0.3134827,GainRatio(焦虑 )=0.3170075,GainRatio (敌对 )=0.1894517,GainRatio(恐怖)=0.158826,GainRatio(偏执)= 0.1782178,GainRatio(精神病性)=0.2484147,GainRatio(饮食睡眠)=0.1605511。
由以上可知焦虑的信息增益率最大,因此将其作为决策树根节点,同时根据焦虑的属性将训练集分为4个分支。以此类推对每一分枝重复上述步骤,构建根节点到叶子的决策树。
2.4 决策树剪枝
由于本文决策属性较多,生成的决策树比较大,为防止过拟合现象,我们要对生成的决策树进行剪枝。Quinlan提出的PEP[6]剪枝算法,不需要独立的剪枝集,误差估计增加了连续性校正,剪枝效率和精确度都比较高。本文选用PEP剪枝算法进行剪枝,属性名称做了简化,最后得到决策树如图1。
2.5 规则提取
由以上决策树可以生成以下分类规则:
(1)IF焦虑=健康AND强迫=健康AND睡眠饮食=健康THEN心理健康分析=健康(A)
(2)IF焦虑=健康AND强迫=健康AND睡眠饮食=轻度AND恐怖=健康AND人际关系=健康THEN心理健康分析=健康(A)
(3)IF焦虑=健康AND强迫=健康AND睡眠饮食=轻度AND恐怖=健康AND人际关系=轻度THEN心理健康分析=进一步检查(B)
(4)IF焦虑=健康AND强迫=健康AND睡眠饮食=轻度AND恐怖=轻度AND偏执=健康THEN心理健康分析=健康(A)
…
从分类规则中发现,焦虑、强迫、抑郁、人际关系在大学生心理健康问题中起着比较重要的作用。当学生无焦虑症状时心理疾病几率较小;当学生焦虑、强迫、人际关系都有轻度症状的时候,学生存在心理疾病的可能性比较大;当学生焦虑轻度、强迫中度时,学生存在比较明显的心理疾病,要加以干预;当学生焦虑、人际关系都有中度症状或焦虑重度症状的时候,学生存在严重的心理疾病的可能性比较大,要及时进行心理疏导。
2.6 模型验证
准确率是决策树性能评价的重要指标。根据提取的分类规则对测试集中的370条记录进行分类测试,测评结果为:一致298条,不一致72条,正确率80.54%,模型具有较好的预测能力。
图1 剪枝后的决策树
3 结语
本文探讨了C4.5算法的相关理论,并详细介绍了该算法在学生心理健康分析中应用过程,构建了大学生心理健康模型,发现了影响学生心理健康的主要因素和它们之间的关系。预测结果表明,该研究方法是可行的,该模型一定程度上可为高校开展心理健康教育的规划、决策提供参考。
[1]刘建中.近20年大学生心理健康研究进展综述[J].职业时空,2009,(10).
[2]吴小刚,周萍,彭文惠.决策树算法在大学生心理健康评测中的应用[J].计算机应用软件,2011,28(10):241.
[3]李鑫.决策树算法的研究及其在大学生心理健康数据处理中的应用[J].江汉大学学报(自然科学版),2015,43(6):371-375.
[4]高艳平,丁智.C4.5算法在高校学生心理教育方面的应用研究[J].江西科学,2011,29(6):813.
[5]朱明.数据挖掘第二版.安徽合肥:中国科学技术大学出版社,2008:68-69.
[6]Quinlan J R.Simplifying Decision Trees[J].International Journal of Man-Machine Studies,1987,27(3):221-234.
Application of C4.5 Algorithm in the Mental Health Analysis of College Students
JIANG Jia-long1,2,QIN Liang-xi1
(1.School of Computer,Electronics and Information,Guangxi University,Nanning 530004;2.Department of Modern Educational Technology Center,Guangxi Vocational College of Technology and Business,Nanning 530008)
The mental health of college students has been widely concerned by all the universities and related researchers.Uses the C4.5 algorithm to analyze the mental health problems of college students.Based on the data collected from students and SCL-90 mental health assessment information and extracted the relevant properties.Constructs college students'mental health problems model base on C4.5 algorithm,finds the main factors influencing the students'mental health and the relationship between them,and generates classification rules.Prediction results show that the model has good accuracy.The model to some extent,can provide reference for the planning and decisionmaking of mental health education in colleges and universities.
C4.5 Algorithm;Mental Health;Decision Tree
1007-1423(2016)21-0015-05
10.3969/j.issn.1007-1423.2016.21.003
江家龙(1981-),男,广西南宁人,讲师,研究方向为计算机技术应用
2016-04-27
2016-07-20
秦亮曦(1963-),男,广西桂林人,教授,研究方向为数据挖掘、进化计算、管理信息系统