数据挖掘技术在大学生心理测评数据中研究应用
2015-12-10张继美
张继美
摘要:随着当前社会生活节奏加快、社会竞争激烈和就业压力加大等,大学生心理问题日益成为高校和社会关注的焦点。高校开始重视大学生的心理健康教育,开展定期的大学生心理测评工作,积累了大量的心理档案数据。对这些心理测评数据的分析筛选与研究也成为众多高校教师和科研人员的研究方向之一。近年来数据挖掘技术在大学生心理领域中的研究日益广泛,在对学生心理问题的分析研究中也出现了各种数据挖掘技术和算法。数据挖掘是上世纪末兴起的一种智能数据分析技术,也被称为数据库知识发现,它可以从数据库、数据仓库、或其他存储库中提取或挖掘出有用的知识[1]。
关键词:数据挖掘;大学生心理;心理测评
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)26-0012-02
当前我们国家经济水平提高,网络的快速发展带来信息量的剧增,人们的物质生活水平大幅度提升,可人们心理负担的加重和心理问题的出现也日益受到关注,特别是代表创新、青春与活力一群的现代大学生群体。随着当前社会生活节奏加快与社会竞争激烈、就业压力加大等,大学生还要面临着对新环境的适应,专业方向的选择与认同,人际关系的处理,青春的躁动和恋爱的问题等,致使大学生心理负重增大,心理、情绪、思维和观念意识都在发生着变化。很多调查数据显示出现心理问题的大学生比例在增加,很多校园恶性事件也源于学生心理问题,国家对大学生心理问题提起了重视,各高校也在加强大学生的心理健康教育。合理利用高校心理档案系统中的大量数据进行研究工作,对高校加强心理健康教育、预防学生出现心理问题、进行心理干预和心理咨询工作提供帮助。
学生综合素质改革的要求下,结合计算机技术的现代化教育管理模式已经应用在广大高等院校。目前心理测评系统已经应用到各高校中,很多高校每年都会对学生进行心理测评,而SCL-90心理测评量表是常用的心理测量量表之一。高校积累了大量的学生心理测评数据,对这些心理测评数据的分析筛选与研究也成为众多高校教师科研人员的研究方向之一。近年来数据挖掘技术在大学生心理领域中的研究日益广泛,在对学生心理问题的分析研究中也出现了各种数据挖掘技术和算法。
1 数据挖掘概述
随着计算机和信息时代的飞速发展,人们对数据的收集、存储和访问的能力大大提高,海量数据的快速增长已远远超过人们的理解,传统的数据分析工具显得力不从心。如何有效组织海量数据,寻找有价值的知识,从而帮助人类做出正确决策,数据挖掘技术应运而生;数据挖掘是上世纪末兴起的一种智能数据分析技术,也被称为数据库知识发现,它可以从数据库、数据仓库、或其他存储库中提取或挖掘出有用的知识 [1]。
对于高校的学生心理档案系统,数据源主要包括学生基本信息、主要社会关系和个性心理特征等,其中个性心理特征一般使用相关的心理测量量表进行问卷测量。数据挖掘比较重要的环节是数据预处理,对采集的数据源进行清洗加工和提炼,提炼出高质量的样本集再进行数据挖掘。从数据本身来考虑,数据挖掘通常需要有数据信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示等8个步骤。可以划分为三个阶段:数据准备、数据挖掘和结果知识表示。如图1所示。
图1 数据挖掘过程
2数据挖掘技术在大学生心理问题中研究应用
2.1聚类分析
聚类分析是指从一个给定的数据集的对象之间搜索有价值关系的数据,是将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类过程是一组物理或抽象的对象,根据它们之间的相似性,分为若干组,类似的对象分为一组,一个集群是由彼此相似的对象集合组成,不同的聚类对象是不相似的[2]。聚类方法主要包括划分方法、分类方法和层次模型法、基本网格法或基于密度的分类方法等。李哲等[3]运用聚类分析方法对学生心理档案数据进行分析,采用聚类分析的k-means算法将具有相似特征的学生划分到同一组,再分析同组学生共性。
2.2决策树技术
决策树是一种典型的分类方法,是根据数据集特点构造分类器,把未知的数据样本映射到给定的分类类别中,内部进行分类属性的比较,根据属性值的不同向下形成分支,从上到下最终成为一个类似的树结构图。每个内部节点的决策树属性表示一个测试,每个分支表示测试的结果,每一个叶节点表示一个类别,从根到叶结点的路径形成一条合取规则。目前应用比较广泛的典型决策树算法主要有:ID3,C4.5,CART等。
如何构造决策树的小尺寸和高精度是决策树算法的核心内容,构造决策树的过程中,第一步是根据训练样本集生成决策树,第二步是通过对上一阶段决策树的检验和修正,剪除冗余分枝和影响准确性的分枝。
何广东[4]运用ID3算法生成有无焦虑症状的决策树模型,并通过对提取的规则进行分析得出结论,性别和家庭和睦程度是影响焦虑症的最相关属性。张俊生等[5]以大学生心理档案系统中心理测量量表为数据源,筛选出心理异常学生为测评数据作为数据集,采用C4.5算法构造决策树进行数据挖掘研究。周小刚等[6]选取广东阳江职业技术学院学生的症状自评量表SCL-90的测评结果数据作为训练样本集,采用C4.5算法构造决策树,挖掘出学生躯体化和敌对属性在大学生心理健康问题中起比较重要的决定作用。
2.3 关联规则分析
关联规则挖掘刚开始是R.Agrawal等就超市的购物篮问题分析提出的,其目的是找到不同的商品超市交易数据库之间的关系,发现超级市场中用户购买的商品之间内在的关联关系,并用知识的形式表示出来[1]。关联规则的挖掘过程主要包括两个步骤:第一步是找到所有的数据集高频项目团队,第二步是从这些高频率项目团队中产生关联规则。关联规则挖掘的指标是适用于数据记录的离散值,如果原始索引在数据库中是连续数据,则需要先进行适当的数据离散化处理,再进行关联规则的挖掘,处理是否合理会影响关联规则挖掘的结果,因此数据处理是数据挖掘的重要步骤。
经典的关联规则挖掘算法有Apriori算法和FP-growth算法,Apriori算法多次扫描交易数据库,每一次用候选高频项目团队产生频繁集;FP-growth算法直接用树结构得到一个频繁集,降低扫描事务数据库次数,提高算法效率[1]。关联规则挖掘技术已被广泛应用于银行,保险,电信,零售和市场营销等方面。
何广东[4]运用关联规则的Apriori算法对学生有无焦虑症状进行挖掘,由关联规则分析出家庭不和睦的学生表现出了焦虑症状。在学生心理管理系统中应用关联规则挖掘技术,主要目标是寻找学生心理档案的大量数据项中隐藏的某种联系或相关性[7]。学生心理问题不能仅根据测量结果简单判断,应结合学生个人基本信息和主要社会关系等,挖掘出其中的关联性。
2.4 其他数据挖掘技术
其他常用的数据挖掘技术有贝叶斯分类方法、神经网络分类方法、粗糙集方法、模糊集合方法和模糊评价方法等。黄中海[8]设计实现了基本CART决策树算法、BP人工神经网络算法和模式识别网络算法的大学生心理挖掘模型,并分别对三种分类挖掘模型进行测试、比较和分析,设计出综合三种方法的数据挖掘内核程序。郭晶晶[9]通过向10个专业学生发放问卷的方式获取数据源,然后分层抽样收集学生问卷,构造心理评测模型,运用综合模糊评价法分析计算出大学生心理健康的评判区间。
3 结束语
数据挖掘技术在大学生心理问题领域的研究及对大学生心理测评数据的分析研究是当前心理领域的研究热点,还有很多数据挖掘算法可以应用。根据学生心理测评数据的特征选择合适的数据挖掘算法是今后需要不断研究和探索的一个方向。
参考文献:
[1] 陈志泊. 数据仓库与数据挖掘[M].北京:清华大学出版社, 2009.
[2] 朱明. 数据挖掘[M].安徽:中国科学技术大学出版社, 2002.
[3] 李哲, 张映雪, 胡蕙. 聚类分析在大学生心理健康管理中的应用[J].湖北工程学院学报, 2014(11).
[4] 何广东. 数据挖掘在大学生心理问题中应用[J].无线互联科技, 2013(2).
[5] 张俊生, 张华. 决策树算法在大学生心理档案系统中的应用研究[J].价值工程, 2012(17).
[6] 周小刚, 周萍, 彭文惠. 决策树算法在大学生心理健康评测中的应用[J].计算机应用与软件, 2011(10).
[7] 张俊生, 张华. 数据挖掘在学生心理管理系统中应用[J]. 计算机与网络, 2012(2).
[8] 黄中海. 数据挖掘在高等学生心理危机预防中的应用[D]. 武汉科技大学, 2015.
[9] 郭晶晶. 基于数据挖掘的大学生心理问题分析[J]. 淮北职业技术学院学报, 2015(2).