APP下载

K-means 聚类算法在分析大学生心理健康的应用

2020-06-18陈秋伍魏惠梅大连科技学院

数码世界 2020年4期
关键词:预处理均值聚类

陈秋伍 魏惠梅 大连科技学院

关键字:R-shiny 数据分析 K-means 聚类算法 心理健康 数据可视化

1 背景分析

在当今大学校园中,大学生心理健康是值得重视的一个问题。在绝大部分的高校中,学校都设立了心理健康咨询处,而且众多学生的心理健康数据都会储存在这里的数据库中,通过对数据库的基本操作,对解决心理健康问题也取得了一定的效果,但是数据库中的数据并没有得到充分利用和分析。为此,本文基于R-shiny 的数据分析平台以及K-means 聚类算法,将数据根据重要特征量进行分类,做到数据可视化,继而分析每一类的学生特点,可以提前发现这类学生潜在的心理健康问题,做到一种主动防御心理健康问题发生的机制。

2 k-means 聚类算法介绍

2.1 .k-means 聚类算法的定义

K 均值聚类算法(K-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤主要是选取K 个对象作为初始聚类中心,然后计算每个对象与各个种子聚类中心的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给他们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心就会根据聚类中现有的对象被重新计算。这个过程不断地重复知道满足某一个结束条件。结束条件可以是没有对象被重新分配给不同的聚类,没有聚类中心再发生变化,误差平方和局部最小。

2.2 .K-means 聚类算法的主要步骤

过程:

2:repeat

8:end for

13:else

14:保持当前均值向量不变

15:end if

16:end for

17:until 当前均值向量均未更新

注:其中第1 行对均值向量进行初始化;

在第4-8 行与第9-16 行以此对当前簇划分及均值向量迭代更新,若迭代更新后聚类结果保持不变,则在第18 行将当前簇划分结果返回。

3 实际案列分析

3.1 数据来源

基于R-shiny 数据分析平台,调用其中的K-means 聚类分析算法,可以比较容易地将大量的数据归类处理以及数据的可视化。我们对两个班的学生做出了锻炼、睡眠、社交能力、压力、课堂等类别的问卷调查,每个类别都有一个或者多个特征量,最终在十周的问卷调查中随机提取了72 小时的特征量数值作为数据来源。数据类别及特征量如表1 所示:

表1 数据来源示例

3.2 特征量的选择

每个类别都有一个或者是多个特征量,特征量的选择对研究学生的心理健康有着紧密的联系,选取最佳的特征量就意味着最终的聚类结果有着更高的可信度,通过不断地分析与比较,我们以“Sleep_hour”(睡眠时间),“Exercise_exercise”(锻炼时间),“Class_hour”(课外做功课时间),“Stress_level”(压力等级),“Social_number”(社交人数)作为五个最佳的特征量,其中的“Stress_level”是最能反映学生心理健康的一个特征量。

3.3 数据预处理

1.为了保证K-means 算法分析数据的准确性,需要对数据进行预处理。数据预处理的目的如下:

(1)保证数据的有效性:采集的数据要与研究的内容相关,避免数据丢失;

(2)剔除孤立数据:把明显不准确的数据剔除;

(3)统一数据尺度:对数据进行量化,方便聚类算法的运算和最终的可视化展现;

2.数据处理步骤如下:

(1)对每个学生样本的特征量在计划时间内的数据进行均值处理;

(2)根据对应的数据转换表,将特征量均值转换为K-means 聚类算法所需均值初始向量;

3.数据预处理后如表2 所示:

表2 .部分数据预处理后示例

3.4 K-means 聚类分析结果

基于R-shiny 搭建了学生心理健康分析平台。其中聚类的个数即K 值可以任意的选取,每选取一个K 值,样本数据就会分为K 个群体,选取最佳的K 值对分析学生心理健康的准确性有着重要意义,通过不断地分析与聚类对比,聚类分为5 类效果最佳。

1.学生心理健康数据聚类分析结果如图1 所示:

图1 .最终聚类分析结果

2.最终聚类结果分析:

(1)学生群C1 占比为42%,这类学生大多情商较高,善于交流,活泼好动,心态也是相当的乐观,他们的大学生活丰富多彩,算得上是个逍遥子,他们愿意花更多的时间去做自己喜欢的事情,他们出现心理健康的几率相当的小,但是老师或者辅导员更应该多鼓励这类学生多花时间在学习上,为社会输出优秀人才。

(2)学生群C2 占比为13%,这类学生应该是辅导员值得关注的群体,他们反应出来的现象就是方向不明确,在大学找不到属于自己的目标,稍遇挫折就极易的堕落,情绪也容易失控,并且,这类学生的心理健康问题早期是很难发现的,所以辅导员应该及时对该类学生做好心理疏导和方向指明。

(3)学生群C3 占比为18%,这类学生大多学习成绩优异,他们往往是班上的活动积极分子、班干部或学生会干部。对这类学生,应该好好地加栽培,将他们积极向上、乐观开朗的心理状态带给班级的每一位学生,这个群体是在班集体中传递正能量的主要群体,辅导员应该对他们加以引导,让他们的学习、品德更上一层楼。

(4)学生群C4 占比为12%,这类学生属于贪玩调皮的那一类,他们喜欢打游戏的同时也钟爱与锻炼身体,对学习马马虎虎,然而他们却有着很强大自尊心,在连续受到自尊心打击的情况下,很可能会做出过激的反应,若他们出现心理健康问题是很容易及时发现的,在保护他们自尊心的同时也应该适当的指出他们的错误。

(5)学生群C5 占比为15%,这类学生,很容易发生心理健康问题,他们内心的压力太大,在小情绪的积累下,很容易就会精神崩溃,大多都是源于他们的实际行动追赶不上自己内心的欲望,对于大多数的事情都只有三分钟的热度,容易被新的知识所难倒,又想在这方面达到很高的成绩,这显然是不可能的,辅导员应该鼓励这类学生做事情应该脚踏实地,冰冻三尺非一日之寒。

4 结束语

借助该方法不仅有助于学校心理咨询师、学生管理人员为学生提供更多更好的心理健康服务,而且能为高校心理健康教育工作者提供了一定的参考价值,提高相关管理人员的工作效率,弥补传统分析方法存在的局限性,从而达到科学、合理、快速地反映学生心理状态的目的。

猜你喜欢

预处理均值聚类
一种傅里叶域海量数据高速谱聚类方法
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
一种改进K-means聚类的近邻传播最大最小距离算法
污泥预处理及其在硅酸盐制品中的运用
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
浅谈均值不等式的应用
改进K均值聚类算法
基于预处理MUSIC算法的分布式阵列DOA估计