APP下载

基于机器学习的儿童啃咬行为的预测

2022-04-02王晓燕李晓萌张扬鸽张庆丽彭燕梅穆立娟孟召学陈芳芳涂燕晖

中国妇幼健康研究 2022年3期
关键词:化学物质贝叶斯消费品

王晓燕,李晓萌,陈 虎,张扬鸽,高 捷,张庆丽,彭燕梅,穆立娟,孟召学,王 琳,陈芳芳,涂燕晖

(1.首都儿科研究所附属儿童医院保健科,北京 100020;2.南京未来网络产业创新有限公司,江苏 南京 210000;3.清华大学附属北京市垂杨柳医院儿科,北京 100022;4.北京市石景山区妇幼保健院儿童保健科,北京 100040;5.北京市怀柔区妇幼保健院儿童保健科,北京 101400;6.北京市房山区妇幼保健院儿童保健科,北京 102400;7.北京市通州区妇幼保健院儿童保健科,北京 101100)

儿童应该是消费品质量问题的重点保护对象。随着科学技术的发展,消费品的功能和结构日益复杂,其中各种化学物质包括挥发性的有机溶剂,如苯、二甲苯、乙酸乙酯等,以及可迁移的重金属如铅、镉、砷等可能给人体带来急性中毒、化学灼伤、过敏[1]等损害,也可因长期低剂量暴露增加患病风险[2],甚至影响儿童的行为发育[3]。消费品中的有毒有害物质对于人体的暴露途径一般包括经呼吸道吸入、经皮肤接触和经口摄入3 种。儿童相对于成年人自我防护意识差,更容易发生经手接触、经口啃咬物品的行为,且通常较为隐匿,但却是儿童重金属中毒的重要危险途径[4]。因此,为减少儿童因消费品暴露而导致急性、亚临床、慢性或延迟的不良健康影响,有必要对儿童使用消费品时是否发生啃咬行为进行风险预测,以帮助医生和家长进行评估并采取预防措施。

传统行为心理学的分析是基于统计学展开的,解释性好,但重复和预测性差。深度学习算法预测性能好,但其解释性差。而机器学习(machine learning,ML)正好兼具可解释性和预测性都较好的优势,在心理行为分析领域已得到推广和应用。本研究采用基于机器学习的最大梯度提升算法(extreme gradient boosting,XGBoost)、随机森林(random forest)、决策树(decision tree)、逻辑回归(Logistic regression)、贝叶斯网络(Bayesian network)和支持向量机(support vector machine,SVM)6 种算法构建预测模型,这6 种算法均可以预测儿童使用消费品时是否发生啃咬行为,并且定量给出群体风险因素的贡献值。

1 资料与方法

1.1 研究对象

本研究以2019 年12 月至2020 年11 月在北京市6所医疗机构儿童保健科就诊的1 803 例儿童为研究对象。纳入标准:参加常规体检的儿童;其本人或者监护人能正确回答调查问卷有关问题。排除标准:有重大疾病史、先天性疾病者;监护人不能进行正常交流者。根据儿童使用消费品时是否发生啃咬行为分为有啃咬行为组(n=617)和无啃咬行为组(n=1 186)。本研究方案已获得首都儿科研究所伦理委员会批准(伦理批号SHERLL2019005),所有研究对象的监护人均签署知情同意书。

1.2 研究方法

采取问卷调查儿童主要照顾者关于儿童的社会人口学信息(年龄、性别、民族、居住地、受教育水平等),8 类儿童玩具和文具消费品(软塑料玩具、塑料拼插玩具、塑料玩具、含有涂层玩具、金属玩具、地垫、书写笔和橡皮)的使用行为和习惯,主要照顾者的社会人口学信息,对儿童的陪伴程度,对化学物质知识内容的了解、接受培训和关注程度等。

调查问卷的设计经过儿童保健专业、流行病学专业人员审核,并采取预调查进行校验;调查过程中由经过培训的医务人员作为调查员,对参与调查的家长进行统一问询;采用EpiData 录入软件对数据进行双录入。共发放问卷1 824 份,回收1 824 份,问卷回收率100%。最终用于分析的样本数为1 803 份,问卷有效率为98.8%。

1.3 统计学方法

采用SPSS 20.0 软件进行统计分析,符合正态分布的计量资料如年龄等用均数±标准差(±s)表示,组间比较采用t检验;计数资料以频数和构成比(%)表示,组间比较采用χ2检验。以儿童使用消费品时是否发生啃咬行为作为因变量,以啃咬行为影响因素的单因素分析筛选出的指标为自变量,应用SPSS Modeler18.0 和6 种机器学习算法完成各个影响因素的重要性的量化分析,并采用多因素Logistic 回归分析筛选关联指标,以P<0.05 为差异有统计学意义。

应用Python 3.6 分析,加载sklearn、XGBoost、shap、imblearn 和matpltlib 等第三方模块,完成儿童使用消费品时是否发生啃咬行为的预测。从1 803 例样本中随机无放回抽取20%作为测试集,测试集其中正样本84 个,负样本281 个。余下的1 438 例样本采用Borderline-SMOTE2 进行上采样算法,最终得到正负样本均为1 101 个且比例1:1 的训练集,以提高正样本的查准率,且增强算法模型的泛化能力和效度。6 种机器学习模型进行200 次独立的实验,获得一个定性评估指标ROC 曲线和定量评估指标曲线下面积Carea under curve,AUC、灵敏度、特异度。使用单因素ANOVA 检验比较6 种机器学习算法的性能,确定预测效度最高的算法,以P<0.05 为差异有统计学意义。

2 结果

2.1 基线资料

最终获得有效问卷1 803 份,1 803 例儿童中男925 例(51.3%),女878 例(48.7%),年龄1 个月~12.80 岁,平均年龄(3.89±3.35)岁。

2.2 特征提取

单因素分析显示,儿童的年龄和受教育水平,主要照顾者的身份、年龄、受教育水平、职业、对儿童的陪伴程度、对化学物质知识了解程度、接受化学物质知识内容培训的程度、选购儿童消费品时对化学物质的关注程度,父亲职业和母亲职业共12 个特征与儿童使用消费品时发生啃咬行为有关,P<0.05,见表1。

表1 有啃咬行为组与无啃咬行为组的特征比较[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]

表1 有啃咬行为组与无啃咬行为组的特征比较[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]

特征儿童年龄(岁)儿童受教育水平散居托幼机构小学主要照顾者年龄(岁)主要照顾者父母祖父母保姆其他主要照顾者受教育水平小学及中学大专及本科硕士及以上主要照顾者职业未就业事业单位专业技术人员商业服务业人员技术工种人员合计3.89±3.35有啃咬行为组(n=617)1.96±2.49无啃咬行为组(n=1 186)4.89±3.30 χ2/t 21.171 314.384 P<0.001<0.001 952 443 408 43.24±13.33 504(52.94)63(14.22)50(12.25)43.29±13.77 448(47.06)380(85.78)358(87.75)43.21±13.09 21.171 13.549<0.001 0.004 1 098 670 29 6 342(31.15)261(38.96)13(44.83)1(16.67)756(68.85)409(61.04)16(55.17)5(83.33)7.332 0.026 753 918 132 284(37.72)294(32.03)39(29.55)469(62.28)624(67.97)93(70.45)23.296<0.001 836 290 230 105 342 333(39.83)88(30.34)72(31.30)32(30.48)92(26.90)503(60.17)202(69.66)158(68.70)73(69.52)250(73.10)

续表1

2.3 构建机器模型及预测性能比较

2.3.1 构建6 种机器学习模型的流图

构建6 种机器学习模型的流图见图1。

图1 构建6 种机器学习模型的流图Fig.1 The flow graph to construct 6 machine learning models

2.3.2 基于ROC 曲线的各模型预测性能比较

将XGBoost、随机森林、Logistic 回归、贝叶斯网络和SVM 模型在测试集中进行内部验证。AUC 的算法优劣排序为:XGBoost>随机森林>Logistic 回归>决策树>贝叶斯网络>SVM,见图2。

图2 各模型在测试集的ROC 曲线分析Fig.2 ROC curves of 6 models in the test set

2.3.3 基于定量标准的模型选择

共进行200 次实验,每个算法可以得到200 个混淆矩阵,均值见图3。基于AUC 比较各模型预测能力差异具有统计学意义(F=2 749.701,P<0.001),LSD 多重比较排序:XGBoost>随机森林>Logistic回归>决策树>贝叶斯网络>SVM,见表2。

表2 各模型预测能力比较(±s)Table 2 Comparison of the predictive ability of each model(±s)

表2 各模型预测能力比较(±s)Table 2 Comparison of the predictive ability of each model(±s)

标准AUC准确度灵敏度特异度XGBoost 0.939±0.012 0.891±0.015 0.771±0.012 0.928±0.015 SVM 0.772±0.026 0.796±0.012 0.233±0.015 0.969±0.017随机森林0.935±0.010 0.883±0.015 0.833±0.015 0.898±0.014 Logistic 回归0.921±0.013 0.855±0.019 0.879±0.020 0.847±0.018决策树0.911±0.014 0.866±0.020 0.838±0.021 0.874±0.018贝叶斯网络0.893±0.015 0.780±0.013 0.870±0.015 0.751±0.017

图3 平均混淆矩阵Fig.3 Average confusion matrix

2.4 各模型的主要影响因素分析

2.4.1 基于SPSS Modeler 影响因素分析

SPSS Modeler18.1 结合XGBoost 等机器学习算法可以量化各影响因素重要性。为了进一步考察6种算法集成筛查影响因素的效果,将各算法的量化结果进行均值聚合,得到各影响因素重要性比例的均值,分别为儿童年龄(34.33%)、主要照顾者陪伴程度(20.33%)、主要照顾者对化学物质知识了解程度(20.17%),见表3。

2.4.2 多因素Logistic 回归影响因素分析

Logistic 回归模型结果见表4。综合表3 和表4 结果,最终确定儿童年龄(OR=0.721,95%CI=0.683~0.761)和受教育水平(小学:OR=0.244,95%CI=0.170~0.352;托幼机构:OR=0.171,95%CI=0.124~0.235)、主要照顾者对化学物质知识了解程度(了解一点:OR=0.679,95%CI=0.466~0.990;大部分了解:OR=0.519,95%CI=0.325~0.830;非常熟悉:OR=0.262,95%CI=0.093~0.739)、主要照顾者陪伴儿童的程度(经常陪伴:OR=0.471,95%CI=0.347~0.639;偶尔或基本不陪伴:OR=0.214,95%CI=0.144~0.318)、母亲职业(商业服务业人员:OR=0.479,95%CI=0.234~0.980;事业单位:OR=0.403,95%CI=0.231~0.705;技术工种人员:OR=0.432,95%CI=0.249~0.750)是发生啃咬行为的主要影响因素(P<0.05)。

表3 啃咬行为影响因素的重要性聚合*Table 3 Aggregation of the importance factors influencing object mouthing behaviors

表4 啃咬行为影响因素的Logistic 回归分析Table 4 The Logistic regression analysis of influencing factors of object mouthing behaviors

3 讨论

3.1 机器学习可丰富心理行为研究的途径与手段

传统心理行为学的分析大多是基于统计学展开的,强调对行为的解释,而对行为的预测不够重视。引入以预测为目标的机器学习可以提供新的思路和研究方法。Yarkoni 等[5]认为心理学工作者如果更强调预测,可以有助于理论模型的发展,从长远看很有可能帮助解释行为的成因。其次是传统心理学分析存在“可重复性危机”[6-8]。除了采用更加严谨研究设计和恰当统计方法进行数据分析和解读外,从探索数据规律和趋势,运用机器学习算法为研究的可复制性提供更大可能性[9]。本研究结合儿童的社会人口学信息、玩具和文具消费品的使用情况、化学物质知识普及情况等信息,应用基于机器学习的XGBoost、随机森林、Logistic 回归、贝叶斯网络和SVM 算法构建预测模型,比较对儿童使用消费品时是否发生啃咬行为的预测价值,在AUC、灵敏度和特异度方面表现良好,对儿童行为研究和风险预测有实际的意义。

3.2 XGBoost 的预测效能较优

机器学习是统计学、人工智能和计算机科学交叉的应用领域,选择正确的机器学习算法并不容易。研究者需要结合已获得的数据的数量、类型和质量等方面综合考虑,通过对各算法之间进行比较,选出合适且满足研究需求的算法,最终提高大多数问题的预测准确性[10]。Moon 等人[11]以分类决策树为分析方法,以青少年受欺凌为指标,确定最佳危险因素和保护因素。Sauer 等人[12]通过随机森林算法完成了正念练习者和非正念练习者的分类。Sajjadiani 等人[13]从申请者的工作申请文件中发展可解释变量,包括工作经验、任期历史等,然后使用贝叶斯网络、Logistic 回归、随机森林和K 最近邻等算法建立比较模型,最终确定贝叶斯网络模型预测申请者未来的工作表现和离职意向的准确度最高。有研究显示XGBoost 算法的计算效果甚至可以媲美需要耗费大量计算资源的深度神经网络[14]。本研究结果也提示对于儿童使用消费品时是否发生啃咬行为的预测效能,XGBoost优于随机森林、Logistic 回归、决策树、贝叶斯网络和SVM 模型。

3.3 儿童使用消费品时发生啃咬行为的影响因素

本次调查结果显示不同年龄和受教育水平下,儿童啃咬消费品的行为均有发生。但随着年龄增大、接受集体教育机会增多,啃咬的情况逐渐减少。一项荟萃分析显示,在3 个月至6 岁的儿童中,发生啃咬物品的频率最高的是6~23 个月的婴幼儿[15],与本研究结果相似。因此低年龄仍然是健康教育的重点实施对象。家庭养育环境对儿童早期心理行为发展的影响是多方面的。良好的家庭养育环境有助于儿童早期认知、社会情感、人格发展、和行为能力的发展[16]。本研究中主要照顾者对化学物质知识的了解程度影响儿童使用消费品时是否发生啃咬行为。儿童普遍缺乏自我保护意识,对化学物质的知识知之甚少,因此提升家长的安全意识和知识可间接影响孩子的行为习惯,可降低儿童以及家庭面临的安全风险。主要照顾者每天或经常陪伴及母亲未就业的情况下儿童啃咬行为的发生率反而增高,可能的原因是一方面照顾者监管儿童使用消费品的频率越高,则发现儿童不良行为的概率越大;另一方面,照顾者每天陪伴儿童的时期多为婴幼儿期,而这也同时是儿童发生啃咬物品行为的高峰时期。同样,事业单位、商业服务业人员和技术工种人员的母亲因工作原因缺少时间和精力与孩子在一起,也影响了她们对儿童不良行为的关注。

在后续研究中,可增大样本量并扩增风险因素,例如儿童使用消费品时的异常动作和情绪,主要照顾者的亲子互动行为和心理因素以增强算法模型的预测效度和筛查出其他潜在的高风险因素。

猜你喜欢

化学物质贝叶斯消费品
快速行动并治愈一切:医疗保健是如何演变成消费品的
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
高中化学物质的分类“名不副其实”现象例析
2018年9月份社会消费品零售总额增长9.2%
2018年3月份社会消费品零售总额增长10.1%
2018年4月份社会消费品零售总额增长9.4%
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
高中化学物质的漂白性辨析