APP下载

三种新型智能算法在疫情预警模型中的应用
——基于百度搜索指数的COVID-19疫情预警

2021-04-23高铖铖陈锡程宋秋月伍亚舟

计算机工程与应用 2021年8期
关键词:黏菌主题词百度

高铖铖,陈锡程,张 瑞,宋秋月,易 东,伍亚舟

陆军军医大学 军事预防医学系 军队卫生统计学教研室,重庆400038

2019 年12 月,湖北武汉地区爆发新型冠状病毒性肺炎(Corona Virus Disease 2019,COVID-19)疫情,给我国经济社会造成巨大负面影响[1]。尽早知晓COVID-19的流行趋势有利于更好地控制疾病的传播与进展,进而降低其社会危害[2]。传统的流行病监测系统因数据来源和数据种类较为有限,对于新发性传染病存在一定程度的报告延迟,无法提前对传染病的发生进行有效预警[3]。近年来,利用网络数据监测公共卫生事件的研究逐渐增多,常用的传染病预警模型主要包括支持向量机、神经网络、多元线性回归和时间序列法[4]。其中最小二乘支持向量机(Least Squares Support Veotor Machine,LSSVM)是根据基础模型的改进优化,已广泛运用于各类预警系统[5-7]。实际应用时,LSSVM 核心参数的精确选取将直接影响其泛化性和稀疏性,也是目前LSSVM模型相关研究的重点之一[8-9]。

LSSVM 模型参数选取传统方法主要为经验法、试凑法、交叉验证法等,但上述方法存在计算耗时长、代价大、准确度低等不足,因此很难达到实际应用要求[10]。近年来随着人工智能领域的快速发展,多种新型智能优化算法相继发表,为预测模型的参数选取提供了新的思路。智能优化算法无中心控制,有效增加了模型的鲁棒性,且群体中的合作个体能力简单,具有一定扩充性,大大提高了模型参数寻优的速度和精确性,已成为人工智能研究领域的热点之一[11]。

因此,本研究利用百度指数及疫情数据分析网络健康信息检索数据与发病数据的相关性,构建COVID-19的预警模型以指导疫情常态化防控。同时,利用多种新型智能优化算法,分别对百度指数COVID-19预警模型进行参数寻优,对比各智能优化算法的实际应用效果,为新型智能优化算法的推广应用提供一定的理论依据和分析策略。

1 算法原理

1.1 新型智能优化算法

1.1.1 多元宇宙优化算法

多元宇宙优化算法(Multi-Verse Optimizer,MVO)是近年来提出的一种元启发式优化算法,其灵感源于多元宇宙的物理理论,依据白洞、黑洞及虫洞等主要概念构建数学模型,模拟宇宙中物质通过虫洞由白洞向黑洞转移的思想[12]。MVO算法的优势在于注重全局寻优效果,仅需调控较少参数即可达到实现效果,操作难度较低且性能较佳,当前已广泛应用于压力容器设计、焊接梁设计等经典工程问题中[13-14]。

MVO算法假定探索空间存在宇宙矩阵为:

其中,d为变量个数,n为宇宙数量(候选解)。

图1 MVO算法概念模型

为提升宇宙通过虫洞改善物体膨胀率的可能性,假设虫洞隧道总是建立在宇宙和最优宇宙间,此机制可表述为:

其中,Xj代表目前最优宇宙的第j个变量;ubj代表第j个变量的最高值;lbj代表第j个变量的最低值;xj i代表第k个宇宙的第j个变量;r2、r3、r4均代表0与1取值范围的随机数。上述机制中出现了虫洞存在可能性(Wormhole Existence Probability,WEP)及旅程距离速率(Travelling Distance Rate,TDR)等两个算法主要参数,其随时间(迭代次数)变化曲线图详见图2。

图2 MVO算法WEP及TDR参数变化趋势

1.1.2 黏菌优化算法

黏菌优化算法(Slime Mould Algorithm,SMA)由Li等[15]于2020年提出,其灵感来自于黏菌的扩散和觅食行为,属于元启发算法。该算法与以往类似命名优化算法有较大差异,主要模拟了黏菌在觅食过程中的行为和形态变化,而未对其完整生命周期进行建模。通过权值指标模拟黏菌静脉状管的形态变化和收缩模式之间的三种相关性[16]。

黏菌觅食过程,首先根据空气中气味接近食物,食物浓度越高,生物振荡器波越强,细胞质流动越快,黏菌静脉状管越粗。通过函数表达模拟该其逼近行为:

其中,LB与UB表示搜索范围的上下边界,vb的参数取值范围是[-a,a],vc从1 线性减少至0。t表示当前迭代,Xb表示当前发现食物气味浓度最高位置,X表示黏菌当前位置,XA和XB表示随机选取的两个黏菌位置,W表示黏菌重量,S(i)表示X的适应度,而DF表示所有迭代中的最佳适应度。其中,参数a的函数表达为:

其中,max_t表示最大迭代次数。而W的表达式为:

其中,condition 表示S(i)排在前一半的种群,r表示[0,1]区间内的随机值,bF表示在当前迭代过程中获得的最优适应度,wF表示当前迭代过程中得到的最差适应度值,SmellIndex表示适应度序列(最小值问题中为递增序列)。

公式(4)表示的黏菌逼近食物行为,搜索黏菌个体位置X可以根据目前获得的XB最佳位置进行更新,同时vb、vc和W参数的微调可以改变黏菌位置。黏菌搜索个体在三维空间中的位置变化,可通过rand函数使个体形成任意角度的搜索向量,此概念同样可扩展至更高维空间。

1.1.3 平衡优化算法

平衡优化算法(Equilibrium Optimizer,EO)由Faramarzi等[17]于2020年提出,属于元启发算法,其灵感来自于在控制体积上进行简单混合的动态质量平衡,其中使用质量平衡方程来描述控制体积中非反应性成分的浓度。与大多数元启发算法相似,EO 使用初始种群启动优化过程,初始浓度由粒子的数量、尺寸及在规定搜索空间内进行均匀随机初始化构建,函数表达式如下:

其中,Cinitiali是第i个粒子的初始浓度,Cmin和Cmax表示维数的最小值和最大值,rand是取值范围[0,1]的随机向量,n为总体粒子数。评估粒子的适应度函数,然后将其排序确定平衡候选者。将5 个粒子确定为平衡候选者,并用于构建一个平衡池向量,函数表达为:

浓度更新规则中的另一项指标为指数项F,该指标的准确定义有助于EO算法在勘探与开发之间取得合理平衡,其函数表达为:

其中,a1是控制勘探能力的恒定值,其值越高,算法的勘探能力越强,而开发性能就越弱,根据经验测试一般a1设为恒定值2,r是介于0 到1 之间的随机向量。EO算法中最为重要的算法指标为生成速率(Generation rate)G,其通过改善开发阶段来提供最为精确的解决方案,EO算法引入该指标后,更新规则如下:

等式右边第一项表示一个平衡浓度,而第二项和第三项则代表浓度的变化。第二项负责全局空间搜索寻优,第三项有助于使解决方案更加准确。浓度更新示意图如图3所示。

1.2 最小二乘支持向量机

最小二乘支持向量机是标准支持向量机模型的变型改进,其采用二次损失函数取代原先的不敏感损失函数,从而将不等式约束问题转化成等式约束问题,避免了二次规划问题,可以有效提高模型运算求解速度,其具体方程表达式为:

图3 EO算法浓度更新示意图

其中,目标函数前一项确定了模型的泛化能力,后一项则对应精确性,γ是正则化参数,为可调节参数,可用于控制J(w,ξ),其中ξ=[ξ1,ξ2,…,ξn]T表示预测值与真实值的误差,w表示高维平面的相应权值向量,而φ(xi)则用于将数据集映射至高维空间。模型引入Lagrange函数后可将w与ξ去除,最终用核函数形式表示矩阵方程并求解,得到决策函数为:

其中,k(xi,x)为核函数,常用的核函数包括多项式核函数、线性核函数、Sigmoid 核函数和径向基核(Radial Basis Function,RBF)核函数,由于RBF 核函数只需要确定一个关键参数σ,即可用最小代价发挥核函数性能,完成特征空间的线性可分。因此,本研究选用的核函数为径向基核函数:

最小二乘支持向量机中有两个关键参数,分别为γ和σ,其中γ为正则化参数,γ越大支持向量越大,从而影响模型训练和预测的速度;另一个关键参数σ是RBF核函数的参数,表示RBF 核函数的宽度,σ低易导致模型欠拟合,而σ高则容易过拟合。LSSVM 中所有数据对于决策函数皆有贡献,并采用核函数映射而进行非线性变换,其相关参数都必须要求精确匹配,否则将影响其稀疏性和泛化性。本研究初始预警模型构建时,设置关键参数为默认值,之后分别采用MVO、SMA和EO算法选择参数,核函数皆选择RBF。

2 百度搜索指数COVID-19预警模型构建

2.1 数据来源

2.1.1 疫情数据

本次研究中的COVID-19 每日确诊病例数据均来源于国家卫健委及各地区(纳入31个省市区、不含港澳台)卫健委等官方渠道。每日全国新增确诊数与国家卫健委发布数据保持一致,其数据每日更新。因2月12日国家卫健委颁发了《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》,将“临床诊断病例”统计为确诊病例,因此当日新增14 840 例确诊病例,属于异常值,因此数据选取2020年2月13日始至2020年11月1日止。

2.1.2 百度指数

本次研究的网络数据来源于百度搜索指数(http://index.baidu.com/)。百度指数是基于大量用户检索行为数据的共享平台,以用户检索量为基础、主题词为统计对象,利用系统算法对各主题词在搜索引擎中被检索次数进行加权求和。

2.2 主题词筛选

2.2.1 初步搜集

主题词的初步搜集方法包括经验搜集法、技术搜集法及范围搜集法[18]。本次研究选取范围搜集法,其关键在于在筛选分析之前先依据经验确定主题词的选择范围,有利于在规避主题词遗漏的同时降低工作量。依据机体的发病阶段将主题词分为预防、症状、治疗及名称类等,此外还利用百度自带的主题词推荐功能进行词汇扩充,尽可能确保初步搜集的完整性,最终构建初步主题词表(20个主题词),详见表1。

表1 COVID-19初步主题词表

2.2.2 互相关分析

互相关分析指利用互相关系数r对两个不同时间序列间的相关程度进行评估的方法,包括相关性分析及先行性分析。其实施方法为将被选指标相较于基础指标进行前后移动,然后对移动后序列及基准序列求相关系数,相关系数最大时所对应的移动时间即为该指标先行或延后的时间段。公式如下:

其中,y(i)代表基线指标,x(i)代表相对指标,其中i=1,2,…,n,d表示延迟数,取正数时表示相对指标x(i)向后移动,取负数时相对指标x(i)向前移动。本研究中对疫情每日新增病例数与百度指数进行互相关分析,由于百度指数每日公布前一日统计数据,而作为预警模型的主要变量,需要至少提前2 天才具有实际应用价值,因此分别计算先行2至7天(疫情数据相对滞后2至7天)初选主题词与疫情数据的相关系数r,再在得到的多个相关系数(要求具有统计学意义)中找出最大值,最终获取16个主题词(表2,标记有“*”或“**”号),具体包括先行2 天的主题词“新冠病毒”“新冠肺炎”“2019-nCoV/COVID-19”及“头疼”,先行3天的主题词“呼吸道感染”,先行5 天的主题词“退烧药”,先行6 天的主题词“新型冠状病毒”“体温”“发热”“口罩”“体温计”“核酸检测”“消毒剂”“疫情防控”“新冠疫苗”及“抗病毒药物”。

2.3 COVID-19预警模型构建

2.3.1 数据预处理

因数据间数量级或量纲间存在差异,为确保量级较小的数据不会被掩盖与忽略,需在建模前对数据行归一化处理;公式如下:

其中,xi代表归一化前各因素的输入值;x'i代表归一化后各因素的输入值;xmax代表各因素的最大值;xmin代表各因素的最小值。以每日新增确诊病例数(2020-02-13—2020-11-01)为因变量,自变量则依次选取归一化处理后的各有效先行主题词的百度指数;共有263 组数据,随机抽取80%作为训练数据集(210组),剩下20%留做验证数据集(53组)。

2.3.2 LSSVM预警模型构建

采用训练集(210 组)数据进行模型构建,使用MATLAB 中的lssvm 工具箱,参数设置默认值:正则化参数γ=2,RBF核宽度σ=3。最终构建模型均方误差MSE=8.796 5,平均绝对误差MAE=43.584 5,均方根误差RMSE=127.472 8,决定系数R2=0.918 3,各项指标结果表明模型拟合训练集数据情况较好(图4)。

图4 LSSVM模型训练集真实值与预测值对比

2.3.3 预测性能评价

提取测试数据集(53组),代入已经构建好的训练集LSSVM 预警模型,最终模型误差分析结果:MSE=47.16,MAE=124.16,RMSE=343.35,R2=0.12,结果表明该模型的预测性能较低。模型测试集预测值与真实值对比情况详见图5。

3 新型智能算法优化预警模型

3.1 预警模型参数寻优过程对比

分别选用MVO、SMA 和EO 三种新型智能算法优化LSSVM模型,各智能优化算法的关键参数设置如表3所示,目标函数皆定为求不同迭代次数训练集(归一化处理后)均方误差MSE 的最小值,而MVO 算法将MSE设置为宇宙膨胀率,SMA 将MSE 设置为黏菌位置的适应度,EO算法将MSE设置为粒子浓度的适应度。LSSVM模型参数寻优迭代收敛过程如图6 所示,结果表明,MVO 和EO 算法在迭代初期迅速收敛,而SMA 算法收敛速度较慢,表明SMA 的全局搜索能力较MVO 和EO较弱,SMA 陷入局部最优的风险更大。MVO、SMA 和EO 三种优化算法寻优50 次迭代耗时分别为44.25 s、45.11 s、89.75 s,结果表明EO算法的运算效率低于MVO和SMA算法。

表2 新增病例数与主题词百度指数的相关系数

图5 LSSVM模型测试集真实值与预测值对比

表3 各智能优化算法关键参数设置及迭代耗时

3.2 模型预测性能对比

三种智能优化算法优化LSSVM预警模型、MVO与EO 算法最终输出相同的模型参数,预测性能对比结果如表4所示。结果表明:三种模型对于训练集和测试集拟合情况相近,测试集的误差分析和拟合情况较优化前皆有显著提升,三种智能优化算法皆提升了LSSVM 疫情预警模型的预测性能。图7 展示了MVO-LSSVM 模型的真实值和预测值的拟合情况。

图6 不同算法优化LSSVM模型收敛曲线

图7 MVO-LSSVM预警模型真实值与预测值对比

4 讨论

4.1 元启发式算法研究分析

元启发算法是在仿生学的启发下,从自然界的随机现象中收获灵感,并将局部算法与随机算法相结合的算法统称[19]。其是在启发算法的基础上进行的改进,虽然二者皆不能完全保证得到全局最优解,但元启发算法中引入了随机因素,更不易陷入局部最优,同时其目标函数无特殊要求,具有更广泛应用范围,已成为目前最优化问题求解、模型参数寻优等研究中的热点[20]。

表4 不同算法优化LSSVM模型预测性能对比

据最新研究统计,目前,元启发算法已提出超过150多种,但大多数算法仅对部分特定问题具有较好优化效果,尚未发现某元启发算法能够胜任所有的优化问题[21]。元启发算法根据受启发机制差异,大致可分为模仿生物学过程与基于物理学理论两大类,本研究选择的三种新型智能算法,SMA 模仿了黏菌生物学过程,而MVO 和EO 为基于物理学理论的元启发算法。元启发算法的设计与改进重点,应为平衡好集中式挖掘与多样化探索之间的关系。集中式挖掘便于算法在某区域内根据经验快速、准确寻出最优,但易导致算法陷入局部最优;多样化探索可允许算法在较大可行域内探索,避免陷入局部最优,但易导致算法耗时延长,获取最优解精度下降。因此,如何平衡好集中式挖掘与多样化探索之间的关系,是目前元启发式算法开发、改进的关键。

4.2 三种智能优化算法对比

本研究构建的百度搜索指数COVID-19 预警模型中,引入了三种新型智能优化算法进行模型参数寻优对比。各优化算法的算法结构、计算过程和研究特性皆有其各自特点,相同标准参数设置时,根据寻优过程和最终模型预测性能对比结果,可得出以下结论:

(1)EO 算法收敛性强,但算法的寻优耗时较长,运算效率较MVO和SMA算法低,对于复杂和实效性要求高的体系,EO算法优势较低。EO算法将粒子浓度作为搜索代理,浓度随机更新以适应平衡候选,这种随机更新浓度的模式可以有效提升EO算法初始迭代的全局探索能力,从而避免其在整个优化过程中陷入局部最优解[17]。本次研究,EO算法的收敛效果较好,但实际应用时应注意规避其运算时间较长的问题,可通过设置目标函数寻优阈值,减少实际迭代次数,从而达到提升算法的运算效率的目的。

(2)SMA优化算法,收敛性较差,收敛速度较慢,表明其全局搜索能力较弱,陷入局部最优的风险更大。分析认为,该算法是一种基于黏菌的扩散和觅食行为的智能优化算法,但该算法为了提高其可扩展性,算法开发过程使用了较为简单的算法原理,未来可利用各类变异机制或加速机制增强算法的全局探索能力[15]。

(3)MVO优化算法,运算效率短,收敛性速度快,收敛性强,最终构建的MVO-LSSVM 模型预测精度和稳定性皆较好,表明MVO 算法更适合解决此类优化问题。分析认为,该结果与MVO 算法原理更加注重全局寻优效果有关,仅需调控较少参数即可达到实现效果,从而表现出了更优异的性能[12-13]。

4.3 预警模型推广应用价值

本研究构建的MVO-LSSVM 预警模型,具有较高的预测精度和稳定性,具备一定的实际推广应用价值。同时,在预警模型构建阶段充分考虑了实现的简便性及预测的准确性,旨在用简洁、可行的操作实现对疫情的准确预警。既往研究中还曾提及多种改善检索数据准确性的方案,包括还原百度指数的原始检索数据进而构建模型[22]、针对各地区进行各自建模以规避地区因素的影响[23]、利用语义分析技术进而深入探究用户检索动机等[24]。但以上方法均需要复杂的实施过程、极大程度地耗费时间精力,且对于其能否有效提升检索数据的准确性尚无明确有效的研究支撑。本次研究的重点在于主题词的搜集、筛选,确定相关性、先行性好的主题词,进而构建预警模型。因此,本次研究一方面实现了模型构建的简易性,另一方面确保了模型的预测能力,可为后续疫情常态化防控阶段的防疫行为预判提供一定参考。

4.4 研究不足与展望

4.4.1 智能算法优化模型方面

本研究选取的MVO、SMA 和EO 算法皆为近年来新提出的智能优化算法,相关的应用研究报道较少,单从本次研究结果分析,MVO 算法优势明显。但本次研究的对比结果是否具有代表性,尚需后期多种形式应用研究的证实。随着人工智能技术的深入发展,会有更多趋于完善的智能优化算法提出,而如何避免陷入局部最优解问题是未来智能算法重点需要解决的问题,同时需要警惕算法早熟的现象。

4.4.2 数据来源方面

随着互联网的多样性发展,目前微博、微信等多家公司均已推出了自身的搜索平台,虽然目前百度仍是目前国内最大的搜索引擎,但其无法完整反映国内的检索需求。而百度指数仅是对于百度搜索平台检索量的间接性评价,无法获取二者间的精确数量关系,亦无法评价用户直接浏览、参与主题词相关内容的频次。此外,历史数据可能对于检索数据具有较好的互补作用,若将检索数据构建的预警模型与历史发病数据结合,可能获取效果更好的综合模型[25];但COVID-19 疫情为首次爆发,无法利用其发病的历史数据对模型进行修正及完善,限制了模型预警效能的进一步提升。

后期研究展望:(1)整合各主流搜索平台的检索数据,对于国内用户的实际检索数据进行全面性、综合性评价;(2)将单纯检索行为向浏览、参与等多样化行为扩充,纳入更多的相关性信息。

4.4.3 主题词选取方面

主题词的选择主要依据主观经验及相关联想,不可避免地存在相关主题词的遗漏。此外,部分主观上认为COVID-19 存在相关性的主题词可能出现百度指数过低,甚至未被收录为百度指数,因此个体认知与公众关注点可能存在一定偏差。技术选词法有利于提升选择精度,但其对于时间、精力、经济水平及设备条件等方面的要求较高,限制了其应用于推广[26]。此外,本文所选主题词仅可代表2020年2月—11月间的用户检索行为,是否依然适用于长期后续结果仍尚需要进一步分析。随着用户信息需要及检索偏好的改变,后续应适度改变主题词以继续确保检索数据与疫情数据间的相关性。

猜你喜欢

黏菌主题词百度
黏糊糊的生命
黏菌观察记
养群黏菌当宠物
Robust adaptive UKF based on SVR for inertial based integrated navigation
黏菌一点不简单
百度年度热搜榜
百度遭投行下调评级
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引