基于数据融合的 一种校园安全判定模型构建与研究
2021-09-05赵文龙邓文雯张强伟孙玉
赵文龙 邓文雯 张强伟 孙玉
摘 要:传统学生在校状态往往基于一卡通消费数据进行判断,存在数据质量不高、消费随机性较大等现象,加上信息时代行为习惯不同,导致数据精准度不高、预测性不强、可信度较差。为精准掌握学生在校状态,文章提出一种基于多源数据融合的判定模型,结果表明:行为活动时间长度在筛选时间段长度[60%,80%]之间时,是否在校判定模型的计算结果与实际在校状态基本相符,准确率可达98%以上,为疫情防控提供了辅助决策支持,为平安校园建设提供了一种技术保证,并根据ARIMA模型进行预测分析,对学情管理具有一定的指导价值。
关键词:数据融合;判定模型;数据驱动;辅助决策;预测分析
中图分类号:G717;TP391.77 文献标志码:A 文章编号:1673-8454(2021)15-0065-04
一、引言
随着大学返校复学的推進,为确保返校学生生命安全和身体健康,继续坚持健康状况“日报告”和“零报告”制度,积极有效开展线上线下混合式教学。[1]利用校内业务系统之间数据融合联动,达到用数据说话、用数据决策、用数据管理的效果,进而为实现精准分析学情提供辅助决策支持,并将“人民至上、生命至上”政策落实到常态化学情管理中。[2]
随着信息化业务深度的拓展,以往精准学情分析如学生是否在校,仅靠一卡通应用分析完成,仍存在数据质量差、分析结果不准确、数据价值难以实现的情况;[3]鉴于此,基于异构数据融合,笔者提出一种高等院校学生是否在校安全判定模型的数据解决方案,通过集成异构应用系统的多源耦合数据的采集、清洗、治理,基于预置设定模型对数据集进行计算、可视化展示,并对在校异常情况进行特别关注与处理,进而实现对全校学生在校状态实时掌控,为学校的教学、管理提供决策支持,实现决策科学化、学情治理精准化。
二、相关工作
1.数据融合
数据的多源异构性使数据共享和综合应用变得比较困难,进而导致“数据孤岛”存在。单一业务系统数据往往不足以支持特定数据集成应用研究,因此通过构建数据平台,实现不同业务平台内数据质量不一的混合型、离散型整合,打通数据孤岛,进而通过一个多层次、多方面的处理过程,如对多源数据进行检测、结合、相关、估计和组合,以期实现数据冗余减少,数据提质增效,精确的状态估计、身份评估等完整及时的态势分析。其按操作级别分为数据级融合、特征级融合以及决策级融合。
2.校园安全
疫情防控期间,校园安全成为学校稳定、产生社会影响的关键因素,借助智能信息化技术对学生是否在校进行精准的识别与预警,及时发现和掌控学生在校行为的安全异常点,消除化解疫情防控期间的安全隐患,有效做到学生在校安全的全生命周期的管理和预警,并利用大数据手段对疑似不在校学生予以重点关注,为多维度的校园学情管理提供决策支持,切实履行校园安全保障责任,落实“校园安全无小事”的常态化服务事项。
三、理论模型
基于数据清洗与整合平台,通过ETL工具采集关联业务系统产生的原始数据,经清洗、治理、转换后,将以学生唯一ID标识为基准构建的、时间属性约束下的行为属性数据链存储在共享数据中心主题库。[4]其执行流程如图1所示。
如图1所示,采集异构多源业务系统(一卡通消费系统、图书借阅系统、人脸识别安防系统、上网认证系统)的数据,基于异构数据治理处理采集的数据,并将治理后的数据转换成统一格式,生成学生在校行为活动统一格式记录,构建数据筛选参数和判别逻辑模型,分析学生限定时间段内在校情况,进而判断学生在校时段内的行为状态,最终为疫情防控管理提供辅助决策支持。
根据预设参数从主题库所存储学生的记录表中筛选出满足一定条件的在校行为活动记录,并将在校行为记录存储为数据链,每一数据链均含有ID号、行为发生时间、行为属性等,设计模型如下:
上面三个公式中:Yi是第i个学生的行为活动次数;
Ci是预设时间内行为活动时间长度;
Si是第i个学生平均活动时间长度;
S是所有学生平均行为活动时间长度;
N是学生总数。
基于上述公式,其判定模型为:
(1)若第i个学生的活动次数Yi大于0,则判定预设时间段内该学生在校,否则不在校;
(2)若第i个学生的活动时间长度Ci大于等于阈值A,且单次活动时间长度Si小于等于单次活动时间长度平均值,则判定预设时间段内该学生全时段在校,否则不在校。
四、模型设计
基于多源共享分析挖掘数据价值,建立决策模型,[5]构建一体化、智能化的辅助决策服务平台,进一步推动高校信息化建设发展,本文提出的学生是否在校判定模型设计,分数据采集模块、数据清洗与整合模块、数据转换与筛选模块、数据判定模块、数据可视化展示模块及数据存储模块。其总体设计框图如图2所示。
如图2所示,数据采集模块主要实现关联业务原始数据采集,并基于增量模式实时存储数据;数据清洗与整合模块主要依据元数据,规范统一整合多源异构数据并进行混合存储;数据转换与筛选模块主要实现,行为活动数据基于数据链表转化成统一的格式化要求数据;数据判定模块根据判断模型进行数据推算;数据可视化模块实现设定时间段内的在校判定结果实时展示,进而为辅助管理提供决策支持,实现决策治理科学化。
1.模型计算
本文提出的判定模型,设定共用N个学生,算法模型规定如下:
(1)选取第i个学生的行为活动记录表Xi(i=1,2,3,...,N),查询统计出预设时间段内第i个学生的行为活动次数Yi;
(2)按照行为活动时间对行为活动记录表中的数据链进行排序,用行为活动数据链中的最大行为活动时间减去数据链中最小行为活动时间将得到第i个学生预设时间段内的行为活动时间长度Ci;
重复执行(1)(2),先分类汇总N个学生的行为活动次数、行为活动时间,再分别计算出行为活动次数平均值、单次行为活动时间长度Si、平均单次行为活动时间长度S。
2.数据存储与展示
学生行为活动记录数据经采集、清洗、转换后存储在主题库中,为便于数据分类汇总,将筛选后的数据链表数据存储在Elastic Search搜索引擎数据库中。实时展示学生在校、疑似不在校统计数据,并支持“下钻”级联查询,为疫情防控期间学情分析提供辅助决策支持。
3.模型实现
先将多源异构数据转换为统一数据格式,将原始库中的数据统一转换为“学号、姓名、日期、学院、行为记录开始时间、行为记录结束时间、行为活动属性”(各项之间间隔1个字符)数据格式,其中行为活动属性包括“1.校园消费”“2.图书借阅”“3.人脸识别”“4.上网认证”;根据预设属性如时间段等,对数据链表进行查询即可获取相应的行为活动记录。[6][7]利用上述定义的数据结构完成行为活动记录链数据封装,根据预设时间段进行满足条件的数据链表记录筛选,并存储筛选记录,以便对数据进行可视化展示。
根据结构体数据链表数组模型分别计算出:①每个学生Xi行为活动次数Yi、所有学生X(i=1,…,N)的行为活动记录平均值;②每个学生Xi行为活动时间长度Ci;③每个学生Xi单次行为活动时间长度Si;④所有学生X(i=1,…,N)的单次行为活动长度均值S。
基于封闭期间线上教学时间(上午8∶00-下午5∶50)、餐饮供应时间(早上7∶00-晚上6∶30)、图书馆特殊时段工作时间(早上8∶00-下午5∶00)等要求,预设时间段设置分别为时间段1(上午7∶00-下午1∶30)、时间段2(下午1∶30-晚上6∶30)、时间段3(晚上6∶30-第二天上午8∶00)、时间段4(整天全时段00∶00-24∶00)。
采用双向数据链表的设计,并将行为活动记录数据项作为数据链表中的一个节点,不同数据项之间通过指针实现,既保持数据记录完整性,又保持了数据链表的连续性。[8]
五、实验验证
基于Ubuntu18.04 Eclipse3.2 IDE集成开发环境完成模型分析软件代码实现与应用部署。根据数据画像标签可视化,完成每个学生Xi的预设时间段内行为活動次数Yi的判断,若Yi>0,则预设时间段内此学生Xi在校;对Yi为0的学生集进行二次筛选判断,分别计算第Xi个学生的行为活动时间长度Ci、单次行为活动时间长度Si、学生单次行为活动时间长度均值S。
1.预设时段计算分析
以14天封闭周期的第一周数据为例,不同筛选时段下判定模型计算的所有在校生第一周内的校园消费、人脸识别、图书借阅、上网认证数据平均结果统计如表1所示。
如表1所示,从行为活动记录来看,四个统计时段内行为活动记录主要为上网认证,校园消费略高于人脸识别,图书借阅相对较少,主要和封闭期间减少外出、线上授课等原因相关;从上网时间平均宽度来看,上网时间占时段宽度的30%以上,和上网习惯、线上授课相关;从疑似不在校率来看,疑似不在率与时段宽度相关,从试验数据可知,若筛选时间宽度越长,疑似不在校率就越低;若筛选时间宽度越窄,疑似不在校率就越高。全时段模型运算流程如图3所示。
如图3所示,根据判定模型,设置推算时段初值和累进步长,经多次实验对推算时间内的阈值进行推理,发现阈值宽度和活动时间长度、单次活动时间长度之间具有相关性,经推算得知:阈值∈筛选时间段长度的[60%,80%]范围内,学生是否在校判断正确率接近实际;若阈值大于筛选时间段长度的80%或小于筛选时间段长度的60%,学生是否在校判断正确率偏差较大,与实际不符。
2.模型判定运算结果分析
根据模型算法显示的封闭期内14天的在校率统计数据,本次返校总人数为6000,7个二级学院平均在校率为99.939%。
如图4所示,第一批学生自4月23日返校,4月24开始14天封闭期,根据判定模型计算出当天疑似不在校学生人数;参照线性模型、2移动平均(双周期移动平均)模型均显示疑似不在校趋势为逐渐减少,其预测趋势与实际相符,随着封闭期结束,学生一卡通消费、图书借阅、人脸识别、上网认证和校园生活逐步恢复正常。
3.ARIMA模型预测结果分析
根据一个封闭期内14天的数据,基于ARIMA模型进行时间序列预测分析。
本文提出的判定模型对14天的运算结果表明不具有时序季节性影响、接近卡方近似呈平稳分布,经多次试验确定模型ARIMA(p,d,q)中的p为1、d为1、q为1。模型预测分析结果如表2、表3、图5所示。
如表2 所示,R平方为0.915,表明数据序列拟合度较高;如表3所示,AR系数为0.077,MA系数为0.646,显著性水平小于0.01;由图5可知,残差ACF、残差PACF呈现平稳状态;拟合结果显示ARIMA(1,1,1)合理。
由多次推算调整参数可知,ARIMA模型(1,1,1)与实际相符,预测疑似不在校人数随着校园生活逐步恢复后趋于平稳,不会出现较大波动,进而表明本文提出的一种校园安全判定模型可为校园安全提供技术保证和决策支持。
六、结语
基于需求引领、数据驱动原则整合业务系统,解决数据“孤岛”,实现数据共享。创建业务模型,实现学情综合治理,通过学情深度挖掘,建立数据关联关系,实现多源数据分析,并将结果进行可视化展示,为学生管理提供辅助决策与支持。
本文提出的一种校园安全判断模型在疫情下返校复课学生管理中得以应用,充分利用大数据手段对疑似不在校学生予以重点关注,为多维度的校情学情管理提供决策支持,切实履行学生安全保障责任,积极落实“人民至上、生命至上”常态化服务理念。本文设计的个性化分析模型有效提升了校园安全系数,并根据ARIMA模型进行预测模型分析,为平安校园建设提供技术保证和辅助决策支持。
参考文献:
[1]刘淑英.高职院校混合式线上线下教学模式改革的研究[J].农家参谋,2020(16):179.
[2]徐遵义,王俊雪.基于风速融合和NARX神经网络的短期风电功率预测[J].现代电子技术,2020,43(9):166-169,174.
[3]李芳.五年制高职化学学情分析及教学应对[J].南方农机,2019,50(19):196,210.
[4]李秀.基于校园数据中心的数据治理与应用[D].西安:西安科技大学,2018.
[5]邱国栋,王易.“数据-智慧”决策模型:基于大数据的理论构建研究[J].中国软科学,2018(12):17-30.
[6]翟书颖,郝少阳,杨琪,李茹,李波,郭斌.多源异构数据融合的智能商业选址推荐算法[J].现代电子技术,2019,42(14):182-186.
[7]阿辽沙·叶.用电信息采集系统中多源异构通信协议设计[J].现代电子技术,2018,41(2):145-147,151.
[8]梁宝华.基于链表结构的启发式属性约简算法[J].计算机应用与软件,2016,33(3):259-263.
(编辑:王天鹏)