基于互联网数据的传染病预测模型研究进展*

2024-03-15何琪乐张瑾瑶吴卓存杨予青胡红濮

医学信息学杂志 2024年2期

何琪乐张瑾瑶吴卓存杨予青赵伟胡红濮

(1中国医学科学院/北京协和医学院医学信息研究所北京 100020 2北京市垂杨柳医院北京 100022)

1 引言

对传染病进行监测预警是控制其传播的重要手段。传统传染病监测主要依靠各级医疗机构、疾控中心和监测哨点医院等构成的监测网，虽然准确性高但监测速度通常滞后于传播速度，且应对新发传染病时数据来源较少。基于Web of Science核心期刊数据库和中国知网，以 TS=((epidemic AND (monitoring OR surveillance OR forecast OR predict OR warning) AND (internet OR “search engine” OR “social media”)) OR “epidemic intelligence”)和 (主题=(传染病 OR 流行病) AND (监测 OR 预测 OR 预警) AND (“搜索引擎”OR“大数据”OR“互联网”)) OR (主题=“信息流行病学”)为主题词检索式，对2001—2022年发表的基于互联网数据的传染病预测相关文献进行检索，查得英文文献864篇，中文文献162篇。分析检索结果发现，互联网数据可用于传染病监测预警已成为研究共识[1]，且相关论文发表数量趋势，见图1。在既往研究基础上，本研究从基于互联网数据的传染病监测预警研究发展历程、应用场景、常见预测模型、主要问题与挑战、发展趋势等方面进行探讨，旨在为进一步建立基于大数据、人工智能等新技术的智慧公共卫生应急管理模式提供参考依据。

图1 2001—2022年国内外基于互联网数据的传染病预测相关论文发表数量趋势

2 基于互联网数据的传染病监测预警应用场景

互联网传染病监测数据源可分为搜索引擎结构化数据和社交媒体文本数据。基于搜索引擎数据的研究主要开展基于关键词检索指数和传染病上报数据的时差相关性分析，构建不同滞后期的复合关键词及搜索指数[2-3]。文本数据主要来源于推特、微博等社交媒体。在前期文献检索的基础上，补充结合文献计量主题词相关结果，统计2001—2022年国内外热点疾病相关论文年发表数量，共计272篇，分类绘制气泡图，圆圈直径大小反映论文数量的多少，见图2。分析可得，流感、肺结核、艾滋病、登革热、埃博拉、寨卡、乙型病毒性肝炎(乙肝)等疾病为研究热点。

图2 2001—2022年国内外各传染病相关论文发表数量及趋势

流感是最早将网络搜索数据纳入监测系统的传染病，以谷歌流感趋势最具代表性。但由于其准确性会受到用户搜索行为、传染病季节性等因素影响，其预测的流感发病率高于美国疾控中心的实际报告值[4]。Luo Y等[5]融合多来源搜索数据预测2009年甲型H1N1流感的流行规模，发现较单一搜索引擎的拟合效果更优；Mauricio S等[6]以医学专业网站UpToDate及医学专业词汇作为数据源和关键词预测流感，发现专业网站可靠性更强。搜索数据融合地理位置及环境因素可进一步获得较理想的监测效果。Gluskin R T等[7]提出谷歌登革热趋势，发现在高流行地区和登革热传播适宜气候中准确性更高；Zhou X等[8]分别拟合并比较动态模型和线性回归模型在不同地域层次上的肺结核监测能力；唐家博[9]以手足口病为监测预警对象，对互联网和气象数据进行挖掘。

3 基于互联网的传染病预测模型种类与比较

3.1 简单回归预测模型

多元线性回归是常见的简单回归模型之一。Bodnar T等[10]将其用于流感监测，发现可以通过为每个检索关键词分配不同权重减少干扰词汇产生的噪声。但解释变量之间可能有多重共线性，且向后剔除变量时会减少原数据信息。

3.2 时序预测模型

3.2.1 统计学模型常用于互联网数据传染病监测的统计学模型包括自回归移动平均(auto-regressive integrated moving average，ARIMA)模型和动态线性模型(dynamic linear model，DLM)。ARIMA可将非平稳的时间序列平稳化，将因变量对其滞后值和随机误差项的现值和滞后值进行回归，有效提取具有季节性和趋势性的数据中的线性信息，但对非线性、无规律、波动大的数据和长期预测效果较差[11]。DLM是一种高斯线性状态空间模型，可用于对非平稳时间序列进行建模，包括测量方程和状态方程。测量方程可以根据某时刻的参数向量描述此时对应的因变量，状态方程可以建立该时刻的参数向量和下一时刻的参数向量之间的联系，从而进行预测[12]。

3.2.2 传统机器学习模型 (1)随机森林(random forest，RF)。是对多个弱分类器进行组合的有监督学习，具有较高准确性和泛化性能[13]。Amin S等[14]通过分析2017—2019年推特中关于疾病情绪的社交媒体文本，监测登革热和流感，并发现RF在提高准确度、精度、召回率等方面均优于比较模型。张金宇[15]以2017—2019年登革热流行情况为研究对象，发现RF预测效果整体较好，但不足以预测发病高峰。这可能是由于RF虽然能更好地削弱异常值对结果的影响，但导致差异度小的正确决策被淹没。(2)极端梯度提升(eXtreme gradient boosting，XGBoost)。是一种基于决策树的提升算法，使用多个分类树和回归树来学习输入变量和结果之间的非线性和复杂关系，可以更灵活地调整更多参数，整体上寻求最优解，在一定程度上避免过度拟合[16]。Meng D等[17]针对手足口病建立了RF和XGBoost预测模型，发现从整体来看，XGBoost较RF模型具有更好的预测能力。(3)支持向量机回归(support vector regression，SVR)。特点是通过非灵敏损失函数测量拟合优度，而非使用常规的二次损失函数(均方差)。Aramaki E等[18]在进行流感相关推特文本分析时发现，SVR具有最高精度和最短训练时间。但黄泽颖[19]发现多元线性回归模型相较于SVR能更好地拟合2013—2018年H7N9亚型禽流感新增病例数且预测精度更高。

3.2.3 深度学习模型深度学习是机器学习领域中的新方向，其概念源于人工神经网络。人工神经网络模型擅长拟合复杂函数，形成非线性映射关系并行处理海量信息[20]。(1)BP神经网络(back propagation neural networks，BP)。是一种广泛使用的神经网络模型，可以学习和存储大量无需用数学方程准确描述的输入-输出映射关系[21]。王若佳[22]使用BP模型，通过融合百度指数预测流感暴发。从拟合结果看，BP神经网络的拟合效果比SVR更好，但拟合效果不等同于预测精度。此外，BP模型很难引进时间维度，仅能使用当期搜索信息估计当期流感状况，故被称为临近预警模型。(2)广义回归神经网络(generalized regression neural network，GRNN)模型是一种基于数理统计的径向基函数网络，可以任意精度逼近非线性函数，解决了BP神经网络局部最优的问题。GRNN的非线性映射能力和学习速度很强，且结构简单、收敛速度快，在传染病预测中得到广泛应用[23]。杨德志[24]建立GRNN模型和BP神经网络模型，发现GRNN的拟合和预测效果更好。(3)长短期记忆神经网络(long short-term memory，LSTM)模型是一种特殊的递归神经网络，可预测长时间滞后的时间序列，处理非线性成分并进行误差校正[25]。黄鹏[26]发现LSTM模型相较于ARIMA模型更适合用于乙类传染病预测研究；Parwez M A等[27]使用推特活动即时预测当周发病率，证实了LSTM模型在预测误差最小情况下的有效性。

3.3 模型比较

总结既往研究发现，常见模型大多考察数据间的线性关系，非线性模型涉及人工神经网络常用模型，见表1。由于搜索数据与真实数据之间关系的复杂性和较强的不确定性，在选择建模时应重点关注非线性模型，以获得更好的拟合效果和预测能力。此外，大多数模型仅适用于短时或实时预测，实现长时间段的预测较困难。

表1 基于互联网数据的传染病预测常见模型比较

3.4 主要问题与挑战

虽然利用互联网信息进行传染病监测具有实时快速、数据源丰富、自动化程度高等优势，但仍存在很多不足。一是目前国内算法模型创新和疾病种类相对较少，多数研究仅使用2～3种模型预测方法，在关键词选择及变量合成方面也偏主观；从预测时间跨度来看，大多数模型仅适用于短时间预测。二是国内研究数据来源较单一，且存在较多混杂因素。互联网搜索行为可能会受到媒体报道、传染病季节性、互联网用户数量、文化差异、语言等因素影响，因此，基于搜索引擎的传染病预测仅能体现相关性，无法完全替代传统监测[28]。

4 模型优化与发展趋势

4.1 构建组合模型

为弥补上述不足，可采用构建组合模型的方式提高预测精度。Su K等[29]将季节性ARIMA模型和XGBoost模型相结合，构建具有自适应权重调整机制的SAAIM模型；赖晓蓥等[30]构建ARIMA-LSTM-XGBoost加权组合模型，在预测精度上有较大提升；魏麟等[23]提出CEEMD-GRNN组合模型，精度更高、稳定性更强。