基于集成学习的伤情分类技术研究
2022-09-13郝晓硕卢虹冰李俊杰王玉同徐肖攀
郝晓硕,卢虹冰,刘 洋,杜 鹏,刘 健,李俊杰,王玉同,徐肖攀
(空军军医大学:1军事生物医学工程学系军事医学信息技术教研室,2西京医院急诊科,陕西 西安 710032)
在卫勤急救中,往往会出现大批量伤员需要紧急救治后送的情况。伤情分类作为伤员救治的重要组成部分,始终贯穿在救援的全过程之中。检伤分类的意义在于依照伤员的实时伤情对其进行针对性的救护处置,这样不仅可以提高伤员的生还率[1],而且可以提升救治效率与卫勤资源的利用率。国际上有许多检伤分类的标准和方法,常用的方法有简明检伤分类法[2]、院前模糊定性法[1-2]、院前指数、创伤积分法以及格拉斯哥评分[3]等,其中,简明检伤分类法和格拉斯哥评分在国际上运用较为广泛。目前,我国在伤情分类上依据的是新版《战伤救治规则》中的“简易战伤计分对照表”。但不管是哪一种方法,都有自己的特色和弊端,其中一个共同的弊端就是仍然采用人工打分的方式,需要医师进行一对一操作,效率低下,不利于满足大规模伤员的快速检伤分类需求。伤员的伤情分类通常分为四种,包括轻伤、中度伤、重伤、危重伤,分别对应于卫勤急救分类中的常规处置、优先处置、紧急处置和期待处置。因此,检伤分类属于多分类问题。目前在检伤分类这一方面,军事科学院的王丹开发过一个检伤分类系统[1],采取对血压、神志、呼吸打分的方式进行伤情判断。随着机器学习与人工智能在医学领域的应用,如何利用机器学习方法实现智能检伤分类,满足大规模伤员快速精准检伤的需求,成为研究的重点。本项目旨在研发一款智能化伤情分类模型,实现大规模伤员快速、高效、精准的检伤分类,为伤情救治助力。
1 急救数据
选取西京医院的2 666例患者数据,该数据包含轻伤、中度伤、重伤、危重伤四种伤情,其中241例为轻伤,2 231例为中度伤,183例为重伤,11例为危重伤。运用随机划分测试集和训练集的方法划分测试集与训练集。由于数据样本不均衡,先运用综合采样[4]的方法处理训练集数据。
综合采样是综合过采样和欠采样两种采样方式,其中欠采样是通过减少多数类样本使之与少数类平衡,过采样是增加少数类样本使之与多数类平衡,而综合采样是减少多数样本的同时增加少数样本使之平衡,其性能更加优于单个采样方法。
2 多分类策略
2.1 基于“一对一”(one versus one,OVO)策略的多分类预测
图1 一对一策略
2.2 基于“一对多”(one versus all,OVA)策略的多分类预测
基于OVA策略的多分类预测的基本原理,是指在n种类型的样本进行分类时,分别取一种样本作为一类,将剩余的所有类型的样本看作另一类,这样就形成了n个二分类问题。最后将待预测的样本传入这n个二分器中,最终得出的结果便是最终预测结果[4]。在本项目中该模型示意图见图2。
图2 一对多策略
3 基于集成学习的预测模型构建
3.1 基于OVO策略的集成学习预测模型
在本项目基于OVO策略模型构建中,采用了集成学习的策略。集成学习与传统学习方法训练的区别在于学习器数量的不同,集成学习采用多个学习器并且结合它们来解决一个问题,可以集成多种分类器的优点,比基学习器具有更好的泛化能力。最终预测结果则采用相对多数投票的方式进行决策。在本模型中共设计三种模型——随机森林多分类器[5-7]、K最近邻算法[8-10]、支持向量机分类器[11-13],综合它们的最终预测结果,得出结论。
随机森林是一个用随机方式建立的,包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。它训练速度快,实现比较简单,并且对于不平衡的数据集来说,它还可以平衡误差。K最近邻算法是采用测量不同特征值之间的距离方法进行分类,该算法精度高、对异常值不敏感、无数据输入假定,易于理解和实现。支持向量机分类器是根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。该算法分类思想很简单,分类效果较好。
根据OVO模型基本原理可知,伤情类别有4种,每种独立分类器共需要6个二分类器,而scikit-learn单独封装了实现 OVO的类,使得任意二分类算法都可以通过使用这个类解决多分类问题。再运用各种分类器的分类函数,得到每种分类器的预测结果,并进行多分类转换,最后运用相对多数投票法来进行最终结果的决策。
在测试过程中,对于某一伤员的输入数据,分别通过构建的所有分类器进行预测,得到预测结果。最后,再将集成分类器中所有机器学习算法所构建的分类器的预测结果利用投票机制进行决策,形成最终预测结果。其模型原理见图3。
图3 一对一模型示意图
其中投票机制采用相对多数投票法。相对多数投票法的原理在于获胜方获取票数最多即可,而平局则随机选一个。因此,可集成多分类器优势有效选出最终预测结果。
3.2 基于OVA策略的集成学习预测模型
在本项目基于OVA策略模型构建中,同样采用了集成学习的策略。在本模型中共设计三种模型——随机森林多分类器、K最近邻算法、支持向量机分类器,综合他们的最终预测结果,得出结论。
根据OVA模型基本构建原理与分类任务可知,每种分类器需要四个二分类器,而OVA与OVO一样由scikit-learn单独封装了实现OVA的类,使得任意二分类算法同样都可以通过使用这个类解决多分类问题。再运用现有的各种分类器的分类函数,得到每种分类器的预测结果,并进行多分类转换,最后运用相对多数投票法来进行最终结果的决策。
其预测过程与OVO策略相似,在测试过程中,对于某一伤员的输入数据,分别通过构建的所有分类器进行预测,得到预测结果。最后,再将集成分类器中所有机器学习算法所构建的分类器的预测结果利用投票机制进行决策,形成最终预测结果。其模型示意图见图4。
图4 一对多模型示意图
4 结果
运用测试集测试OVO与OVA 模型,选取敏感度、特异度与准确率三个数值来评估模型性能,分别计算模型对于轻伤与其他伤情、中度伤与其他伤情、重伤与其他伤情、危重伤与其他伤情以及四种伤情之间的识别能力(表1)。
表1 基于OVO与OVA策略模型测试结果 (%)
5 讨论
通过对两种模型进行对比,我们可以看出OVO模型测试结果评估比较好,但OVO模型在分类类别过多时需要过多的分类器,训练时间长。OVA模型相对于OVO模型分类器数目不多,但是在样本不均衡的情况下,会造成类别偏差。在伤员救治情况下,准确率是首要的,因此OVO模型更具有实战化优势。
综上所述,智能检伤分类模型可以在大规模伤员急需救治的情况下,实现快速有效的伤员分类,在早期伤员治疗中发挥重要的作用。军事科学院王丹团队的检伤分类技术采用了简易战伤计数法直接打分判定[14],而本研究采用了机器学习集成分类的方法,设计多个模型,实现伤情检测分类,并且在简易战伤计分对照表的基础上加了体温、脉搏两个体征参数,其具有非常高的准确率、敏感度和特异度。在下一步工作中,将根据更多数据训练模型,进一步完善研究,使之尽快有效提升大规模伤员急救能力,力争为伤员急救贡献绵薄之力。