产后抑郁预测模型的分类与比较
2022-12-28王永剑齐伟静王翼鹏黄莎李丛魏娜胡洁
王永剑,齐伟静,王翼鹏,黄莎,李丛,魏娜,胡洁*
产后抑郁(postpartum depression,PPD)是女性分娩后最常见的情绪障碍,会造成产妇、伴侣和婴儿出现多种精神健康问题,进而对家庭和社会产生深远的影响。PPD的发生通常涉及生物学、心理和社会环境等多维度的危险因素[1-4]。临床预测模型[5]是指对具有某些特征表型的特定群体应用多因素回归建立统计模型进行评估,预测(诊断)疾病的存在或预测(诊断)疾病未来某种结局事件的发生概率。模型构建后可以通过评估偏差风险对预测模型的准确性和适用性进行评价及验证[6]。近年来,临床预测模型被广泛应用于医学领域,医护人员基于患者当前的健康状态,可量化患者未来患某病的风险,为患者提供个体化医疗建议,有利于降低医疗成本,甚至影响患者的诊断与结局[7]。
女性自妊娠至分娩这一特殊时期时间跨度较长,通常伴随着心理困扰,并会产生较大的心理应激反应[8],而负面的心理应激反应与PPD息息相关,因此产前应用临床预测模型对PPD的发生风险进行预测可为早期识别和干预PPD提供时间和空间,并有利于促进临床医疗决策和减少不良结局的发生。本文旨在对不同类型的PPD预测模型进行分类与比较,以期为PPD研究提供一个更广泛的视角,为产前预防及干预工作提供科学依据。
1 文献检索策略
本研究检索了PubMed和中国学术期刊全文(CNKI)数据库。采用医学主题标题(MesH)、标题和摘要中的单词以及关键词的组合,以“post-natal depression/post-partum depression/postnatal depression/postpartum depression”和“risk prediction/prediction model/predictive model”为英文检索词,以“产后抑郁/产后抑郁症”和“风险预测/预测模型”为中文检索词。采用主题词和关键词相结合的方式进行检索,并对纳入文献的参考文献进行手工检索。英文检索式:post-natal depression or postpartum depression OR postnatal depression or postpartum depression AND risk prediction OR prediction model OR predictive model ;中文检索式:“产后抑郁”OR“产后抑郁症” AND “风险预测”OR“预测模型” 。纳入标准:(1)研究对象为年龄≥18岁的孕产妇;(2)研究内容为产后抑郁发生风险的预测模型,具有完整的模型建立、验证和评价过程;(3)研究类型包括前瞻性队列研究、回顾性队列研究、病例对照研究和横断面研究。排除标准:(1)仅为产后抑郁预测因素、影响因素研究,未构建预测模型;(2)述评、系统综述、Meta分析、理论研究等类型的研究;(3)重复发表、质量较差、缺乏可用的原始数据的研究;(4)模型包含的预测变量少于2个。
2 PPD的概述
PPD的概念由PITT[9]在1968年首次提出,并将PPD归类于分娩后非典型抑郁症状。美国精神医学学会出版的第4版《精神疾病诊断与统计手册》(The Diagnostic and statistical Manual of Mental Disorders,DsM-4)中将PPD定义为既往无精神疾病史的女性在产后4周内出现明显的抑郁症状或伴有典型的抑郁发作,至少持续两周,造成产妇严重的功能障碍,通常需要专业治疗[10]。DsM-5中增加了围产期抑郁的概念,并界定抑郁症状发生在妊娠期间或分娩后的前4周内[11],使得PPD的概念及诊断更具有科学性和现实意义。
一项涵盖全球56个国家、296 284例产妇的系统综述表明,17.7%的产妇患有PPD[12]。由于新型冠状病毒肺炎(COVID-19)的全球大流行,超过四分之一的孕妇在COVID-19流行期间出现比以往更多的临床抑郁症状,围产期抑郁患病率高达25.6%[13]。发展中国家由于财政资源不足、卫生系统薄弱等多种因素,PPD的患病率比发达国家更高[14]。近年来,中国大陆女性围产期抑郁综合患病率为16.3%,其中产前抑郁(prenatal depression,PND)患病率为19.7%,PPD的患病率为14.8%[15],且呈现逐年上升趋势[16]。
作为世界上人口最多的国家,我国为了积极应对人口老龄化、进一步优化生育政策,实施了“二孩”“三孩”政策,这有利于改善人口结构,但也意味着产后女性可能承担更多的养育任务,面临着更大的家庭和工作压力,存在着心理健康风险。同时由于缺乏本土化的PPD诊断标准及指南来指导孕期心理健康,心理咨询服务的可及性仍然有限[17],因此PPD的发病率逐年升高。进行PPD的早期预测、为孕产妇提供有效的预防和治疗服务对制订具有本土文化背景的医疗制度及保健政策提供重要循证信息显得格外重要。
3 PPD预测模型的分类
PPD的发生涉及生物-心理-社会多维度因素的共同作用,随着医学模式的转变,个体化医学的进一步推进,面对孕妇海量的诊疗信息以及不同的临床症状和体征,选取密切相关的危险因素纳入预测模型及选取最合适的模型构建方法对PPD个体化精准预测尤为关键。构建PPD参数化预测模型一般使用传统逻辑回归方法,例如Logistic回归分析,预测内容包括PPD的诊断和预后[18]。随着大数据挖掘和分析的发展,应用非参数化模型即非参数化的机器学习算法构建预测模型越来越受欢迎。机器学习算法一般包含决策树、支持向量机(support vector machine,sVM)和 K- 近邻算法(KNN)等[19]。应用机器学习算法构建PPD预测模型为PPD的早期预测提供了新的途径。
3.1 PPD的参数化模型 目前大部分PPD参数化预测研究将是否发生PPD作为二分类结局变量,进而采用Logistic回归分析方法探讨PPD的危险因素,根据危险因素预测PPD的发生概率,并通过OR值分析预测因素与PPD的关联强度。
参数化模型可以根据PPD相关变量的偏回归系数构建风险评分公式,根据公式可以计算PPD的发生风险,以早期识别有PPD倾向的产妇。MARACY等[20]根据伊朗农村地区保健中心收集的6 627例产妇的横断面自我报告问卷资料,使用参数化Logistic回归模型分析问卷中的变量,结果显示抑郁史、受教育程度和意外妊娠等是影响PPD的主要危险因素。根据这些危险因素构建的风险评分公式形式简单,易于理解,医护人员可以方便使用。由此可见,应用参数化模型对PPD进行预测具有较好的可解释性,对卫生保健专业人员评估PPD是否发生提供了证据支持。
参数化模型也可以通过计算危险因素与PPD之间的关联强度,预测其对PPD的影响程度。NAKANO等[21]于2020年回顾性分析了日本爱知县妇幼保健服务机构2013年7月至2015年6月1 050例孕产妇在妊娠第11周、分娩后14 d内、分娩后1个月及分娩后3个月的数据,并进行Logistic回归分析,暴露因素与PPD之间的关联由OR值和95%可信区间确定,结果显示,PPD产前预测因素包括产前患有精神疾病〔OR=4.84,95%CI(2.09,11.19)〕、缺乏社会支持〔OR=4.93,95%CI(1.54,15.74)〕、年龄<24岁〔OR=2.43,95%CI(1.37,4.30)〕。通过对危险因素与PPD的关联强度进行分析,可以及时筛选出PPD的高危人群,为有针对性地进行预防及干预奠定基础。
值得注意的是,构建参数化预测模型时还要考虑模型的使用条件以及变量之间的相关性,避免出现过度拟合的情况[22]。ÇANKAYA[23]采用前瞻性队列研究设计,收集研究对象孕晚期及产后6~8周的一般人口学资料及孕期社会心理健康评估量表(PPHAs)评分,构建两个时间点的Logistic回归模型;结果显示在妊娠期间遭受丈夫或其他家庭成员的暴力,存在婚姻问题,产前出现抑郁、焦虑和高度感知压力的产妇患PPD的风险较高,可以作为PPD的预测因素,其中妊娠期间遭受丈夫或其他家庭成员暴力的女性PPD发生率高于未受暴力影响的女性〔OR=0.056,95%CI=(0.014,0.236)〕。但由于研究中使用的PPHAs量表总分与其他变量之间具有高度相关性〔r≥ 0.800,P<0.001,方差膨胀因子(VIF )≥3 000〕,即存在多重共线性,因此并未纳入Logistic回归模型。参数化模型不可解决非线性问题,对变量各水平上数据分布不平衡的问题也难以处理,而是否存在多重共线性决定着自变量是否被纳入回归模型。对于参数化回归模型变量筛选存在多重共线性的解决方法之一便是应用正则化技术中的岭回归、Lasso回归[24]以及弹性网络的方法。
3.2 PPD的非参数化模型 近年来非参数化机器学习算法成为医疗预测领域研究的热门方法。临床医学研究数据具有量大、混杂及随机性的特点,利用传统的统计方法预测疾病的发生过程常存在一定的局限性,非参数化机器学习算法可以根据数据类型全自动或半自动地寻找数据中的目标内容,挖掘有用知识,反复多次总结规律,帮助研究者做出决策或预测。这种通过大数据挖掘对疾病进行预测的方法符合循证医学和精准医疗的要求。目前应用非参数化机器学习算法建立PPD预测模型的方法包括基于决策树的算法、基于朴素贝叶斯的算法、基于支持向量机的算法和基于人工神经网络的算法。
3.2.1 基于决策树的算法 决策树[25]是一种简单但广泛使用的分类器,因类似于流程图的树结构、可以模仿人类做出决策的过程而命名。构建决策树可以对新的数据进行分类。随机森林(random forest,RF)[26]是专门为决策树分类器设计而成的集成学习方法,包含多个决策树,每棵“树”的分布相同,其预测结果综合了多个决策树的分类结果,因此最终结果会更加可靠[27]。同时RF也能较好地处理数据的缺省值问题,具有较高的分类精度[28],因此RF算法更受到研究者的青睐。肖美丽等[29]采用RF算法对406例孕妇按照是否发生PPD进行决策分类,综合人口学资料、生物-心理-社会等多个维度的影响因素,按照变量重要性评分进行排序,列举了排在前10位的重要预测变量,且该模型预测准确率为80.10%。
除了RF算法外,梯度提升树(gradient boosting decision tree,GBDT)算法也是一种基于决策树的集成学习方法,该算法同样由多棵决策树组成,但最终结果为所有决策树预测结论的累积,因此通过GBDT算法构建的模型更为复杂。为了控制模型的复杂程度,CHEN等[30]以GBDT为框架,对目标函数加入了正则化项,建立了极端梯度提升(XGBoost)算法。HOCHMAN等[31]根据以色列最大保健组织的电子健康记录数据库,通过使用XGBoost算法构建预测模型并评估分娩后1年内患PPD的风险,结果显示:ROC曲线下面积(AUC)为0.712〔95%CI(0.690,0.733)〕,提示该模型具有中等水平的预测性能。应用XGBoost算法可以自动解释自变量之间的交互作用,同时可以通过处理每个决策树分支的丢失数据评估不同子集的模型性能。通过XGBoost算法构建PPD预测模型、分析PPD预测因素的重要性并进行排序可以将产妇按照不同的风险群体进行分层,有助于进行早期PPD的检测和干预。
3.2.2 基于朴素贝叶斯的算法 朴素贝叶斯[32]发源于古典数学理论,是一种稳定、结构简单且十分高效的分类算法,其原理基于条件独立性假设,即所有预测变量之间相互独立,当面对高维度、多分类的数据集时,朴素贝叶斯可快速对数据集进行分类。JIMÉNEZ-sERRANO等[33]使用西班牙7所综合医院1 397例孕妇的产前资料作为数据集,选取其中11个变量构建模型并用于预测分娩后第1周是否发生PPD,结果在训练集中朴素贝叶斯模型实现了灵敏度、特异度和准确性之间的良好平衡,AUC为0.75,呈现了最佳预测性能。朴素贝叶斯算法简单,能够处理多分类任务,执行速度快且易于解释,但朴素贝叶斯算法在变量分布不平衡时分类效果较差,因此使用朴素贝叶斯算法前需要考虑变量分布的平衡性以避免预测效果不佳问题[34]。
3.2.3 基于sVM的算法 sVM具有强大的学习功能[35],是机器学习中最常用的一种线性与非线性分类方法,其基本原理是利用适当的核函数找到一个超平面,对数据类别进行分隔,使训练集的点与超平面之间存在最大可能的距离,以达到数据分类的目的。ZHANG等[36]通过收集508例孕妇孕期的信息,分别采取两种特征选择方法:专家函询和Filter过滤法,开发了基于sVM的PPD预测模型;结果显示该预测模型筛选出的最重要的3个预测因素是心理适应能力、孕晚期抑郁和月收入水平。两种特征选择方法在模型预测性能的有效性方面没有明显差异,但采用Filter过滤法进行特征选择的sVM模型预测效果更好(灵敏度=0.69,特异度=0.83,AUC=0.78)。除了特征选择方法外,样本量的大小也影响着PPD预测模型的性能,而由于sVM是一种基于结构风险最小化准则的算法,因此当样本量较小时,采用sVM算法可以避免过度拟合。除此之外,使用sVM算法构建预测模型具有较好的泛化能力[37]。
3.2.4 基于人工神经网络 人工神经网络(artificial neural network,ANN)是从信息处理角度理解和抽象了人脑的神经元网络[38],可建立简单模型并按不同的连接方式组成不同的网络。多层感知器(multilayer perceptron,MLP)是一种前馈人工神经网络模型[39],其在单层神经网络的基础上引入了一到多个隐藏层,采取标准反向传播算法(backpropagation algorithm,BP)[40]训练多层感知器,使多层神经元协同工作,并从数据集中进行学习。FATIMA等[41]提出了一种通过社交媒体平台上用户的文本信息预测PPD的新方法,使用“语言探索与字词计数”(linguistic inquiry and word count,LIWC)软件提取社交媒体上生成的语言特征,利用MLP算法并基于语言特征对一般性讨论、PPD和非PPD内容进行分类及PPD人群预测,结果显示,MLP预测模型的准确性为80.36%,精准性为75.11%。MLP能够基于输入特征集导出高级特征,并且已经发现该算法更适用于从海量、复杂的数据中筛选出有价值的信息[39]。
4 PPD预测模型的比较
4.1 基于机器学习算法的PPD预测模型的比较sHIN等[42]通过选取美国疾病控制和预防中心PRAMs 2012—2013年的28 755例孕产妇的孕期数据,采用9种不同的机器学习算法构建PPD预测模型,包括RF、随机梯度提升(gradient boosting model,GBM)、sVM、递归分隔与回归树(RPART)、朴素贝叶斯、k-NN、自适应提升算法(adaptive boosting,AdaBoost算法)、Logistic回归和ANN,并采用了10倍交叉验证进行评估;结果显示:9种预测模型AUC均大于0.5,展现出良好的预测效果,其中RF算法AUC较高,为0.884(灵敏度=0.732,特异度=0.865),其次是sVM,AUC为0.864(灵敏度=0.791,特异度=0.788)。ANDERssON等[43]基于瑞典一项群体队列研究中4 277例妇女的数据(包括人口学数据、临床及心理测量数据),通过机器学习算法建立PPD预测模型,模型包括:岭回归、Lasso回归、GBM、分布式RF、极端随机树(XRT)、朴素贝叶斯和堆叠组合模型(stacked ensembles models),并评估了不同机器学习算法预测模型的性能。所选机器学习算法的分类性能在准确性、阴性预测值、AUC方面没有明显差异。然而,在灵敏度、特异度和阳性预测值方面差异较为明显。XRT提供了高精度、均衡的灵敏度和特异度的预测性能(准确性:73%,灵敏度:72%,特异度:75%,阳性预测值:33%,阴性预测值:94%,AUC:81%)。通过XRT筛选出相对贡献高于0.9的主要影响因素为妊娠期间的抑郁和焦虑。采用不同机器学习算法构建预测模型的选择是个复杂过程,应使用统计软件并通过性能指标判断预测模型的预测准确度,同时也需要结合医疗专业知识和临床实际情况进行判断,考虑模型实施的多方面因素。
4.2 PPD参数化和非参数化预测模型的比较 应用参数化和非参数化机器学习算法构建PPD预测模型均能够有效预测产妇PPD发生风险,并且大部分预测模型的准确度较高,有利于医护人员及时进行医疗决策。传统的参数化模型包括线性回归和逻辑回归,可通过描述结局指标与一个或多个解释性变量之间的关系对预测结果进行分析[44]。参数化模型形式简单、易于理解,具有较好的解释性,通过预测因素的权重可以看到不同预测因素对PPD的影响程度。PPD参数化预测模型以概率的形式输出结果,可以对不同类型的孕产妇进行风险分层,有针对性地进行辅助决策,因此更适用于医护人员临床应用,但使用参数化模型需要考虑数据的分布及共线性问题。
由于妊娠期至产后时间跨度较长、PPD的影响因素众多、数据结构复杂,因此利用传统的参数化建模方法预测PPD的发生可能存在很大的局限性。此时,面对变量的复杂情况,非参数化预测模型更具优势。非参数机器学习算法众多,基于决策树的算法是一种分类精度高、表现形式相对简单的算法[45],而且可以用图形展示,增加了临床适用性,但无法给出明确的公式,且由于对数据的变化非常敏感,导致稳定性相对于参数化模型较差。另一种广泛应用的非参数分类模型是朴素贝叶斯模型,其算法比较简单,执行速度更快,但是需要计算先验概率,如果变量之间存在关联则其预测效果较差。若数据存在非线性问题,可采用sVM算法,其算法相对复杂,数据量大时训练时间较长,因此sVM更适合对小样本量数据提供高效的计算,并避免了过度拟合,从而产生更好的预测结果[46]。相对于Logistic回归、决策树等算法,ANN是一种复杂的非参数化算法,通常需要大量的参数,种类繁多且不易于解释,难以得出医学结论来支持临床决策,但ANN对于大样本临床资料的整合功能有较强优势,诊断的准确性及分类的准确度较高,具有高速运算的能力,可以快速寻找一个复杂问题的优化解。此外,ANN还可以通过影像学资料筛选出有诊断和鉴别意义的特征,因此未来的研究可以通过ANN联合影像学特征对PPD进行预测。
对于PPD预测模型的建立,关键是对于数据的处理、特征分析以及模型的选择和算法的应用。由于研究方法、评估标准有所不同,不同机器学习算法预测模型的预测效果有所差别,因此评估每个模型的效果并选择最佳预测模型显得至关重要。未来的研究应基于研究队列对最终模型进行外部验证,并对模型的临床有效性进行分析。值得注意的是,将机器学习算法应用于PPD预测的多数研究纳入的预测因子涉及社会人口学及心理社会因素,但很少有研究联合生物遗传学因素进行预测。因此,结合PPD生物-心理-社会三个维度的因素进行模型构建至关重要。同时应注意,使用大数据集可降低估计方差,从而提供更好的预测性能,而应用预测因素数量少且不改变预测性能的预测模型意味着可以减轻收集信息的负担,因而此类预测模型更容易实施和推广。总之,随着信息科学技术不断发展,数据不断完善,在未来的研究中可以联合生物-心理-社会三个维度的预测因素,使用机器学习算法开发PPD的综合预测模型作为产后抑郁的精准预测工具。
5 研究展望
现阶段PPD预测模型的研究如火如荼,“二胎”及“三胎”政策背景下,高危孕产妇数量将不断增多,对参数化、非参数化PPD预测模型进行分类与比较对选择合适的模型构建方法至关重要。值得注意的是,笔者在比较参数化与非参数化模型的过程中发现,无论哪种模型,均有其相应的适用范围,在选择合适的模型时也应考虑到模型的实用性。因此,建议在未来研究中构建PPD预测模型时注意以下事项。
首先,预测变量的维度影响着PPD预测模型的稳定性与准确性。一方面,由于PPD影响因素复杂多样,纳入模型的预测因素参差不齐,模型拟合及筛选最优模型存在差异,可能遗漏某些重要影响因素,因此全面、多维度确定纳入的预测因子至关重要。另一方面,采取高维度预测变量会导致模型过于复杂、预测变量缺乏代表性、实际应用中难以获取,将不利于相关预测模型在孕产妇中的推广使用。因此,进行多维预测变量的选择时应考虑变量是否存在严重的信息重叠,采取合适的方法(如正则化技术)进行降维。考虑到妊娠期至产后的时间跨度较长,还应动态监测孕产妇妊娠期至产后的社会环境、心理及相关生物学预测因素,设置更多获取孕产妇资料的测量时间点,深入探讨预测变量之间的作用机制,以期纳入最佳的预测变量。
其次,样本量的准确估计是PPD预测模型可靠性和可重复性的重要保证。无论使用哪种模型,样本量不足时均容易出现过度拟合的情况,即基于小样本量构建的PPD预测模型难以到更大的人群中进行验证。对于PPD预测模型的开发,选取大样本、多中心的数据有利于提高PPD预测模型的预测效果及泛化能力,但也应考虑到研究效率与成本等现实问题,因此样本量的确定应同时兼顾有效性及可行性。在样本量计算方面,RILEY等[47]为如何计算临床预测模型所需的样本量提供了方法学指导,且不建议进行数据拆分,而应采用重采样的方法进行内部验证。除了计算样本量,研究纳入的孕产妇的代表性也需引起重视,而孕产妇群体特征偏差对PPD预测模型的影响有待进一步研究。
最后,模型验证是实施预测的必要环节,即对模型的区分度、校准度进行评价。完整的预测模型应包含对模型的内部验证与外部验证,而目前的大多数PPD预测模型研究仅通过随机拆分数据进行内部验证,这种方法减少了开发队列的样本量,可能降低模型的性能,显示较高的变异度[48]。更好的内部验证方法为k-倍折叠交叉验证以及Bootstrap法,但这两种方法在很多PPD预测模型中常被忽略。同时,内部验证本身并不能保证结果的可推广性,因此还需要大样本量的外部验证,以更好地验证模型的性能[49]。
综上所述,选择合适的模型构建方法至关重要。参数化模型易于解释,侧重于对线性变量的预测,而非参数化模型在非线性变量预测方面具有更好的优势,对于文本及图像数据,应用深度学习算法进行分析可能是更好的选择。因此,模型的选择应结合各种算法的功能及特性,考虑研究目的、变量类型、维度、样本量、预测因素与结局指标之间关系的复杂程度等。在PPD预测方面,研究者更应关注孕产妇PPD发生风险预测模型,注重模型的泛化能力,在考虑模型准确度的同时,也应根据临床的适用性、实际应用的方便性选择合适的模型,避免一味追求统计学的优化,采用了没有必要的复杂模型。
作者贡献:王永剑提出研究方向,进行论文的构思与设计,负责撰写论文;王翼鹏负责检索文献,收集及汇总资料;黄莎、李丛及魏娜负责审查矫正,对论文进行修改;齐伟静、胡洁负责论文的总体质量控制,对文章整体负责;所有作者共同确认了论文的最终稿。
本文无利益冲突。