APP下载

高校公共卫生数据挖掘分析

2024-04-14赵静刘杨纪晓韵

现代信息科技 2024年2期
关键词:聚类分析

赵静 刘杨 纪晓韵

DOI:10.19850/j.cnki.2096-4706.2024.02.011

收稿日期:2023-04-18

基金项目:2022年上海电子信息职业技术学院课题(B22243)

摘  要:由于高校公共卫生安全任务艰巨,提出构建一种高校公共卫生功能体系。通过Weka平台挖掘统计分析高校公共卫生功能体系中产生的高校公共卫生数据,运用关联规则算法分析出强关联规则产生的离返校重要影响因素从而帮助高校重点关注人群。统计挖掘因病请假的学生数据,帮助高校规范公共安全卫生管理并提供数据依据。运用聚类K均值算法分析得出需要重点关注的簇类学生,有指向性地提供公共卫生安全心理疏导,验证通过高校公共卫生数据挖掘分析能达到大数据精准治理公共卫生安全效果,推动高校公共卫生治理模式创新。

关键词:高校公共卫生功能体系;Weka;聚类分析

中图分类号:TP391  文献标识码:A  文章编号:2096-4706(2024)02-0045-05

Analysis of Public Health Data Mining in Colleges and Universities

ZHAO Jing1, LIU Yang2, JI Xiaoyun1

(1. Information Centre of Shanghai Technical Institute of Electronics & Information, Shanghai  201411, China;

2.Library of Shanghai Technical Institute of Electronics & Information, Shanghai  201411, China)

Abstract: Due to the arduous task of public health and safety in colleges and universities, it is proposed to construct a functional system of public health in colleges and universities. It mines, counts and analyzes the public health data in colleges and universities generated in the public health functional system in colleges and universities through the Weka platform, and it uses association rule algorithms to analyze the important influencing factors of leaving and returning to school generated by strong association rules so as to help colleges and universities to focus on the crowd. It counts and mines the data on students who take a leave of absence due to illness, and helps colleges and universities standardize public safety and health management and provide data basis. It uses the clustering K-means algorithm to analyze and conclude the cluster students who need to be focused on, provides targeted psychological counseling for public health and safety, and verifies that the effect of big data precise governance for public health and safety could be achieved by public health data mining and analysis in colleges and universities, which promotes innovation of public health governance mode in colleges and universities.

Keywords: functional system of public health in colleges and universities; Weka; cluster analysis

0  引  言

2003年“非典”的突然爆發,各高校公共卫生应对非常疲惫;2019年的“新冠病毒感染”疫情的爆发,高校的公共卫生安全任务也非常艰巨、繁重,各高校也相应落实落细各项防控措施,但也暴露出缺少公共卫生大数据精准统计挖掘分析和重点人群排查等公共卫生问题。针对高校公共卫生安全治理方面存在的不足,目前研究者提出了较多改进策略,例如,李鸿涛[1]等提出的高校公共安全治理与大数据应用研究;闵颖[2]提出的高校公共安全宣传教育问题研究——以江苏建筑职业技术学院为例;王星[3]等提出的高校公共安全问题及对策分析。针对上述问题,本文构建了适合高校的公共卫生功能体系,进一步挖掘出学生离返校重要影响因素和比较突出的簇类学生,提出对重点人群的重视策略,以提高高校公共卫生安全工作效率和管理水平,节约人力成本,对加强高校的公共卫生安全建设提供参考。

1  高校公共卫生功能体系构建

高校公共卫生功能体系构建围绕学生返校前、到校时、返校后和离校时四个关键时间节点构建学生离返校系统、每日健康信息统计等两个功能点,汇聚大体量数据,面向全日制高职生、五年一贯制、高本贯通学生、中高职贯通学生等用户。每日健康统计提供学生的快速每日核查、健康数据采集、极速上报监测,杜绝谎报瞒报。综合分析每日学生健康统计,帮助高校完成分批次的安全返校安排。高校疫情防控功能体系中的离返校系统成功实施了学生离返校全过程零接触方案,学生提交离返校请假申请,并查看审批结果。

2  多种算法在公共卫生数据中的应用

2.1  Apriori算法在公共卫生数据中的应用

Apriori算法是关联规则挖掘的基础算法,目的是在大规模的数据中寻找相应关系。关联规则算法使用置信度和支持度。

置信度是在X出現的情况下,Y出现的概率,也称为条件概率。例如,离校请假不离沪的情况下,离校目的地都是学校附近的概率。置信度(Confidence)数学式可表达为:

(1)

支持度表示一个项集在数据集中的比例,也是支持的程度,即{X,Y}一起出现的概率。比如,{离校不离沪,允许离校}一起出现的概率。Support支持度数学式表示为:

(2)

文章采用关联规则算法其中一种Apriori算法,将在Weka实验下使用Apriori算法[4]挖掘分析数据,找出高校公共卫生离返校数据影响因素之间的强关联规则。

2.2  聚类算法在公共卫生数据中的应用

聚类是将抽象或物理对象的集合分成由类似的对象组成的多个类的过程。聚类分析的任务是把高校公共卫生功能体系离返校实例分配到n个对象或者元组的簇,构建k个划分聚类的方法,并将同一个簇的实例聚集在一个簇中心的周围。不同簇实例之间的距离比较远,同一个簇之间距离比较近。

在应用中,对高校公共卫生功能体系中数据“back to school.numeric”和“leaving school.numeric”做聚类分析,使用K均值算法[5]。每个簇都是使用对象的平均值来表示。

3  关联规则及聚类分析过程及结果

通过高校公共卫生功能体系中离返校申请流程的数据挖掘,探索、发现离返校重要影响因素的强关联性,对高校公共卫生工作提供有效依据。文章以某高校在校学生作为研究目标和预测素材。

3.1  数据预处理

3.1.1  数据清理

研究主要选择2021年11月某高校的公共卫生功能体系中离校请假和返校申请数据作为关联规则算法和聚类分析算法的数据源。为了形成算法模型,合并构成两个数据集合,分别是离校请假申请和返校申请数据集合。因为数据的冗余、缺失等问题,高校公共卫生功能体系中导出的离返校数据要经过数据预清理、集成、变换及离散化等一系列数据预处理,最终得到有效离校数据5 309条,有效返校数据1 009条。鉴于以上提出的数据冗余和缺失问题,进行如下处理:

1)数据集合去掉冗余字段。返校数据取是否返校、返校频率、近两周是否有发热、干咳、乏力等症状、年级、性别、近两周是否有接触境外归国人员、近两周是否接触有呼吸道感染或发热症状人员、是否有正常核酸检测报告、近两周是否有境外旅居史、是否有正常健康码和行程码、是否有承诺书等属性。其余流水号、流程名称、发起人工号/学号、发起人姓名、学院、状态、流程发起时间、流程最后更新时间、家庭住址、省、市、县(区)、具体地址、紧急联系人、紧急联系人电话、到校日期、出发地、其他需要说明的内容、个人行程、交通工具、行程开始时间、行程结束时间等字段去掉。离校数据取离校请假频率、是否离沪、年级、离校原因、性别、预测离校时间、离校目的地、预测返校时间等属性。其余流水号、流程名称、学号、姓名、学院、状态、流程发起时间、流程最后更新时间、离校附件上传、行程时间、个人承诺等字段去掉。

2)将属性均值填充在缺失值上来解决数据缺失问题。

3.1.2  数据集成和变换

对学生的离返校数据集合中的各属性及属性值都进行集成和变换处理。对返校申请流程数据集合中所有属性依次按顺序集成编号{A,B,C,…,L};按照流程时间先后的顺序,所有数据依次集成编号{2,3,…}。对离校请假数据集合中所有属性依次按顺序集成编号{A,B,C,…,H};按照流程时间先后的顺序,所有数据依次集成编号{2,3,…}。

3.1.3  数据离散化

Apriori算法的关联规则分析和聚类分析[6]使用的数据类型有具体的要求,所以离返校数据集成完成后还需将离校申请频率和返校申请频率进行数据转换,将numeric类型转换成nominal[7]类型,即离散化数据。离校抽取的数据离散等级分为三个等级,分别为高频率离校、中频率离校、低频率离校。返校抽取的数据离散等级分为三个等级,分别为高频率返校、中频率返校、低频率返校。聚类数据预处理需将离校申请频率和返校申请频率的数据处理成numeric类型[8]的文件。

3.2  数据关联规则分析过程及结果

文章将高校公共卫生数据预处理后导入Weka平台中,随后选择Associate选项卡中的Apriori算法。通过上面置信度数学式(1)和支持度数学式(2)得出的最小支持度下界为0.4,最小置信度0.9的参数情况下,生病离校分析结果如图1所示,返校分析结果如图2所示。

图1中大数据分析挖掘出离校原因是因病请假,强关联规则是不离沪的情况下允许离校,做好这些学生因病请假和病因挖掘追踪,学生健康状况达到高校公共安全卫生管理要求时方能返校。

从图2关联结果可知,允许返校,近两周没有发热、干咳、乏力等症状,近两周没有接触有发热或呼吸道感染症状人员,近两周没有境外旅居史,近两周没有接触境外归国人员,有承诺书,有健康码和行程码都是关联性最强。对于挖掘出的有近两周有发热、干咳、乏力等症状、近两周有接触有发热或呼吸道感染症状人员、近两周有境外旅居史、近两周有接触境外归国人员等任何一个重要影响因素的学生,高校需要加强关注这些重点人群以及应急处置,学生健康状况达到高校公共卫生要求时再返校。对于有近两周有发热、干咳、乏力等症状的学生及其病因和进展进行追踪关注。

3.3  高校公共卫生数据聚类分析过程及结果

在Weka平台中,先将高校公共卫生预处理后的数据导入其中,随后选择相应选项卡下的SimplekMeans算法。先将高校公共卫生数据中2021年11月学生返校行为1 009条学生实例数据聚类成七簇。处理返校数据聚类运算时,先设置好返校数据参数numClusters為7,seed为63进行聚类运算,就是其中的“seed”参数为一个随机种子,主要是为了算出第一次SimplekMeans算法中给出的K个簇中心位置。研究得到近两周有发热返校聚类图,如图3所示。再将高校公共卫生数据中学生离校行为5 309条学生实例数据聚类成7簇。处理离校数据聚类运算时,先设置好离校数据参数numClusters为7,seed为200,研究得到离校高频率聚类图和离校频率非常高实习学生离校聚类图,如图4和图5所示。

图3中可以直观地看到第6簇中有学生近两周有发热的情况,了解学生具体病情。如果是传染病,及时向高校公共卫生相关部门汇报,并做好此簇学生的健康档案和追踪档案记录。

图4为第5簇中的学生,这簇学生特征是每月离校频率超过15次。高频率离校一定要引起高校各部门和老师的高度警觉,通过进一步和学生的有效沟通,要详细了解学生高频率离校的原因,原因可能是身体问题、心理问题、环境问题、实习问题,等等。针对不同情况,也要提供给学生相应解决策略。若是身体问题,区分是否是传染病。如果是传染病,需要向高校公共卫生部门及时反馈,并做好此簇学生的健康档案和追踪档案记录。若是环境问题,比如住宿公共卫生、食堂公共卫生等环境问题引起心理问题,不同的公共卫生环境问题需要针对性地解决问题,并对此类学生有指向性的心理疏导,保障学生安心学习。若是实习问题,提醒学生在实习单位也要注意做好传染病的防范措施。

图5为第4簇中的学生,学生的情况是当天回来去实习,但是离校频率非常高的学生。诸如此簇的学生要引起学校重点关注,要时常关注和追踪这簇学生的健康安全情况。

4  大数据分析结果推动精准治理

采用Weka统计挖掘分析方法,开展高校公共卫生功能体系中各个节点的多维度、多层次分析,立体展现公共卫生功能体系特质。

一是从影响离返校行为的重要影响因素入手,优化高校公共卫生功能体系。

二是利用关联规则方法,对学生是否离沪、学生离沪的目的地、离校原因、预测离校时间及返校时间和是否离校进行关联规则分析,对近两周是否有发热、干咳、乏力等症状、近两周是否接触有发热或呼吸道感染症状人员、近两周是否有境外旅居史、近两周是否有接触境外归国人员、是否有承诺书、是否有健康码和行程码、是否有核酸检测报告、核酸检测报告结果、是否返校进行关联规则分析。由强关联规则产生的离返校重要影响因素可以帮助高校重点关注人群以及应急处置演练。

三是对离返校数据进行聚类分析,充分展现不同簇的学生的不同表现行为。辅导员对于时常意向参加实习、反复申请离返校的学生、近期有身体不适的学生要予以重视,可以通过当面或者“云访问”关心关注学生,掌握学生突出行为表现的原因,并有针对性地进行心理疏导,达到大数据分析结果推动精准治理公共卫生安全效果。

5  结  论

通过创新性构建“高校公共卫生功能体系”,实

时、精准了解学生身体状况、返校过程、在校情况、离校请假等数据,全面排查公共卫生安全风险并及时预警和关注重点人群,有力保障学生公共卫生安全。高校公共卫生功能体系还促进了高校公共卫生数据“高价值”转化,提升高校、教师和学生风险应对能力,强化大数据在高校公共卫生各环节应用,推动公共卫生治理方式变革,强化大数据在教育教学、学生生活管理等领域应用,推动高校公共卫生治理模式创新。

参考文献:

[1] 李鸿涛,许嘉悦,陈怀波.高校公共安全治理与大数据应用研究 [J].南京理工大学学报:社会科学版,2021,34(3):87-90.

[2] 闵颖.高校公共安全宣传教育问题研究——以江苏建筑职业技术学院为例 [J].内蒙古煤炭经济,2021(2):141-142.

[3] 王星,吴群红,郝艳华,等.高校公共安全问题及对策分析 [J].中国农村卫生事业管理,2020,40(5):359-363.

[4] 肖易,袁艳,阮芳,等.新形势下公共卫生人员工作满意度调查分析 [J].湖北科技学院学报,2023,43(1):150-156.

[5] 高建杰,缪芷羽.公共卫生事件影响下旅游小群体交通管控策略研究 [J].时代汽车,2023(4):196-198.

[6] 刘安长.突发公共卫生事件下支持地方公共卫生体系改革的财政政策研究——以湖南省为例 [J].河北青年管理干部学院学报,2023,35(1):44-49

[7] 张淑琪,赵振华.突发公共卫生事件影响下高校学生突发事件的类型及预防策略研究 [J].科学咨询:教育科研,2022(12):16-18.

[8] 周波,代鹏,李丽萍.从公共卫生安全角度重新审视高校智慧校园设计 [J].现代建筑电气,2023,14(1):37-41+65.

作者简介:赵静(1984—),女,汉族,上海人,工程师,硕士研究生,研究方向:管理科学与工程等。

猜你喜欢

聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究