数据驱动的学校疫情预测模型的构建研究

2021-01-07赵荟宇王琦崔占

中国信息技术教育 2020年24期

赵荟宇王琦崔占

1.北京师范大学教育学部

2.北京师范大学未来教育高精尖创新中心

3.清华大学附属小学信息中心

近年来，除极端天气等原因外，季节性疫情造成北京市中小学多次区域性停课。我国中小学校在应对突发疾病方面缺乏预警能力，除了定期进行疾病防控以外，一般是在疫情出现后才开始消毒清洁，这种滞后的应对方式效果较差，给学校的教学、管理等工作的开展造成困难，不利于相关教育卫生资源的合理配置和使用。[1-2]因此，结合相关数据建立一套预警模型，为教育资源配置和疫情预警提供有针对性的指导是很有必要的。本文以北京市某小学一年内的数据为基础，利用人工神经网络（ANN）在目标预测领域的优势，构建学校疫情预测模型，以期为区域教育信息化、深度学习技术在教育管理领域的应用提供参考模型和实践指导。

图1 基于BP神经网络的学校疫情预测模型

● 研究设计

1.研究思路

前馈神经网络是最基础的人工神经网络，其内核是BP算法。人工神经网络采用分布式存储、计算非线性数据，避免人为因素的参与，并依靠其本身强大的计算能力与学习能力，使研究数据经过大量数据的训练后更加接近实际，从而提高了目标预测的精准度。本文利用神经网络在目标预测领域的优势，对学校疫情预测模型进行构建，如上页图1所示。本文首先将原始数据进行处理，提取相关的特征变量，导入到设计好的神经网络中进行训练和测试。用户可以对模型输入指定的特征变量，随后获得学校生病人数的预测结果反馈。

2.数据处理

（1）数据来源

本文的研究数据来源于北京市某所重点小学，时间跨度为2018年2月至2019年6月。该数据的学生分布情况，以2019年数据为例，包括一年级学生（2018年9月入校）244人，二至五年级学生709人，总计学生953人。原始数据2320条。该数据主要由学生家长、教师每天填写并提交到指定平台，部分数据内容如表1所示。

表1

（2）数据清洗和预处理

该数据的提交平台于2018年2月投入使用，在初期，存在学生家长、教师对该平台的熟悉度较差，使用频率不足的现象。为避免此类原因造成的影响，本文已删除前两个月的数据，保留2018年4月至2019年6月的数据作为总数据集。由于学生家长、教师误操作或系统出错等原因，数据中会存在某一学生在某天请假多次的情况，本文按照每天每条数据的序号，以最后编辑提交的数据为准，剔除多余的重复数据。最终，清洗后的数据为2264条，其中病假1807条，事假457条。

在神经网络训练前，需要将清洗后的数据集进行整理。首先，本文按照日期排序，设置起始时间为2018年4月2日，结束时间为2019年6月30日，剔除事假人数，将每天生病人数进行统计汇总，得出当天学校内学生因病请假的总人数，其中，不足1天的，按当天1人次处理，最终获得有效数据为455条。

目前，呼吸道疾病是影响青少年健康和导致学生缺课的主要原因。[3]本文主要选取10个可能造成青少年呼吸道疾病的外部因素作为变量，如表2所示。

表2

选取的指标主要包括季节（1～4）、月份（1～12）、是否为假期（0～1）、星期（1～7）、最高温度、最低温度、平均温度、天气（1～11）、平均风速、空气质量（1～6）等。其中，天气指标的11个层级为晴、多云、阴、阵雨、小雨、中雨、大雨、雨夹雪、小雪、霾、扬沙；空气质量指标的6个层级为优、良、轻度污染、中度污染、重度污染、严重污染。由于每学年学校总人数不同，需计算学校每天学生生病率，公式为(Sicked/N)*100%，其中Sicked为当天生病人数，N为当前学校总人数。

在本文的数据集中，有很多变量都属于类型变量，如Season=1、2、3、4，分别代表四个季节，而在神经网络的训练中不能将Season变量直接输入到神经网络，这是因为Season的数值越高并不表示与之对应的信号强度越大。本文的解决方案是将该类型变量的不同数值用一个“一位热码”（One-hot）来编码，如图2所示，本文已对表2中的

图2 将Season变量进行One-Hot编码Season、Mnth、Vac、Week、Met、Airq等6个变量进行了One-Hot编码处理，并在剔除序号、日期等不相关特征后，得到该数据集的变量特征总数为45个。

由于数据集中每个数值型变量都是相互独立的，所以它们的数值绝对大小与研究问题的本身没有关系，为了消除数值大小的差异，本文对每一个数值型变量进行标准化处理，即让每个变量的数值都围绕着0左右波动。例如，对于平均温度Atemp这个变量来说，它在整个数据集中的平均值为Mean(Atemp)，方差为Std(Atemp)，如下方公式所示，其目的是将不同的取值范围的变量设置为让它们处于一个平等的地位。本文已对Ttemp、Ltemp、Atemp、Wind等4个变量进行了归一化处理。

3.神经网络设计

（1）神经网络的构建

人工神经网络实际上就是多层复合函数的链式法则，本文采用三层前馈神经网络，如图3所示，最左侧X=(X1,X2,……,Xn)为输入向量，中间Z=(Z1,Z2,……,Zt)是隐含层的输出向量，最右侧Y是输出层的输出向量，Wi是输入层至隐含层的权重，Wj是隐含层至输出层的权重，隐含层初始偏置为a。根据数据集的总特征数，该神经网络输入层有45个节点，即n=45。本文采用1个隐含层的BP网络来实现，其中隐含层节点数量t为10，输出节点数为1。

（2）神经网络的初始化与训练

由于数据量有限，为充分利用有限的数据训练该神经网络，本文将前430天的数据作为训练集，将后7周（49天）的数据作为测试集，设置网络的学习速率为0.01，将训练数据迭代训练1000次，设置每次训练的Batch大小为128。

在神经网络向前传输的过程中，先随机初始化权重和偏置，经过隐含层节点时选用Sigmoid函数作为激活函数，将输出结果加权求和后与真实值比较，并计算误差，进行反向传输和参数修正。神经网络的学习主要蕴含在权重和偏置中，从输出层开始，神经网络首先对输出值跟实际值进行比较，将计算误差的偏导数反向传播给隐含层神经元，隐含层神经元利用这个偏导数进行加权求和，从而调节隐含层到输出层之间的连边权重与偏置，同样，根据隐含层神经元的均方误差，来调节输入层到隐含层之间的连边权重与偏置。

● 实验结果与启示

1.实验结果

（1）神经网络的损失值

本文将训练数据迭代训练1000次，并对每100次的损失值（误差）进行收集，通过Matplotlib进行绘制后，结果如下页图4所示。其中，横坐标代表训练次数，纵坐标代表损失值。可见，在每次训练过后，该神经网络的损失值均有所下降，大约在第400次训练以后，损失值降低至0.3以下。本次实验的最终损失值约为0.2492，表明该神经网络的训练是成功的。

（2）神经网络的预测结果

最后，本文将最后7周（49天）的数据进行预测，并通过Matplotlib进行绘制，如下页图5所示。其中，实线代表数据的真实值，虚线为神经网络的预测值。可见，该神经网络可以模拟该学校学生生病人数的大致趋势。

观察图5可以发现，图中前两周神经网络的预测值低于实际值，而后两周的预测值高于实际值。在与该学校教师的交流后得知，5月中旬该校正在举办为期两周的足球联赛，许多学生在高温天气中训练、比赛、助威，其间的生病人数明显多于其他时间段；而6月底正值该校的期末，为了加紧复习，许多学生患病来校学习，这是导致神经网络预测产生偏差的主要原因。

图3 BP神经网络结构图

图4 预测模型的损失值曲线

图5 预测模型预测值与实际值曲线

2.启示

从以上结果可以看出，基于人工神经网络实现的预测模型可以预测学校的生病人数及变化趋势，教育管理者可针对预测结果提前做好疫情的防控工作，但该神经网络并不完善，发现并解决神经网络存在的问题，对充分发挥人工智能技术的优势、高效合理地利用教育资源具有积极意义。

（1）数据的数量与质量

数据在作为训练样本时，其本身的复杂性、多样性、稀疏性、冗余性和缺失值等将对模型的训练效果有很大影响。为此，学校、地区应持续做好相应疾病类别、数量、病因等的记录与保留，而不仅限于记录病假人数与事假人数，从而为后续的研究提供数据支撑。

（2）数据集的维度

针对学生生病所选取的外部因素指标仍需改善。本文仅列举了10个外部因素变量，仍有其他导致学生生病的外部因素需要补充。此外，环境变量、生病人数也会对神经网络的预测结果造成影响，这就需要后续对数据集进行修改，并引入LSTM等记忆类算法，对神经网络进行完善，提高预测的精准度。

（3）其他神经网络算法

当深度学习模型应用于其他教育问题，遇到类似数据量较少的问题时，可以采用迁移学习的方式，将已有的、大批量的数据集进行神经网络的预训练，通过迁移学习算法对该神经网络进行再训练，也可以提高神经网络预测的精准度。

● 结语

本文从数据角度出发，利用已有数据对学校学生的生病人数进行预测，以作案例研究。本文以2018年2月至2019年6月期间北京市某小学每天生病人数的数据为基础，建立疫情预测模型。从结果来看，预测值与实际值偏差较小、趋势相近，拟合精度较高。因此，教育管理者可以根据该模型的输出结果，做好卫生疾病的防控工作，并合理配置相应地区的教育卫生资源。