结合功能测试与模拟驾驶的老年人驾驶适性评估
2021-02-22沈永俊TomBrijs
沈永俊 谭 旭 Tom Brijs
(1东南大学交通学院,南京 211189)(2Transportation Research Institute (IMOB), Hasselt University, Hasselt 3500, Belgium)
至2018年底,我国65岁及以上人口已达1.67亿,占总人口的11.9%.随着社会人口老龄化,老年驾驶人的数量与涉及事故数均呈上升趋势[1].预计1999—2030年,涉及老年驾驶人的致命车祸比例将增加155%,占所有驾驶人预计致命车祸增加总数的54%[2].驾驶能力随年老而下降是造成这一风险的主要原因,高龄驾驶已成为愈发严峻的公共安全问题,迫切需要对老年驾驶人是否适合继续驾驶进行评估.道路驾驶测试能够直接衡量驾驶能力,其结果可作为驾驶适性评估的黄金标准[3-4].然而该方法需要耗费大量的人力、物力和时间[5],且对于驾驶能力已受损的老年驾驶人而言具有潜在危险性.因此,建立能够有效替代道路驾驶测试的老年人驾驶适性评估方法具有重要意义.
医学研究将老年人驾驶能力与各项身体功能建立联系,主要包括视觉功能、肢体功能与认知功能等.实际上,高龄驾驶的风险并不在于年龄本身[6],身体功能退化情况在很大程度上决定老年人能否继续安全驾驶[7].视力受损是影响老年人驾驶的最常见感官问题,老年人普遍视力和对比敏感度下降,且更易受到眩光影响[8];在肢体功能上,老年驾驶人动作时间更长,驾驶操作能力下降[9];在认知能力上,驾驶人的注意力、记忆力以及执行功能等通常均随年老而衰退,使得老年驾驶人在遇到复杂驾驶环境和突发情况时难以安全应对.因此,功能测试是驾驶适性评估中的必要环节[10].
美国医学协会综合视觉、动作、认知功能建立了ADReS(Assessment of Driving-Related Skills)[11]测试组以识别潜在不安全老年驾驶人,得到了广泛应用,但其效果具有争议[12];类似测试组还包括DriveAble[13]、DriveSafe/DriveAware[14]、SMCTests[15]等.一些研究基于典型测试组增删了特定功能测试项目,建立了改进的老年人驾驶适性评估方法,通过Logistic回归等统计模型对老年驾驶人实际道路驾驶测试结果进行了预测[16-18].然而,这类方法普遍具有准确度不高、无法兼具较高的灵敏度与特异性等问题.因此,仅凭功能测试难以成功区分安全与不安全的老年驾驶人[10].
结合模拟驾驶是提高驾驶适性评估方法对道路驾驶测试结果预测准确度的合理选择.模拟驾驶实验允许研究人员在受控的环境中检测在实际道路上可能是不实用、不安全或不道德的复杂驾驶行为[19].实验不仅能采集老年驾驶人正常行驶时的纵、横向驾驶绩效参数,还可以通过设计老年驾驶人较难应对的场景,比如交叉口让行、左转、合流变道等[3,10,20],记录其表现.Lee等[5]通过对比老年人自然驾驶和模拟驾驶的表现,证明了驾驶模拟器测量驾驶行为的有效性.Cuenen等[10]分析了老年驾驶人在模拟驾驶实验中的表现与身体各项功能的关系,为训练老年人驾驶能力提出了指导意见.
综上所述,现有的老年人驾驶适性评估方法在测试内容与评价指标上各有差异,只用功能测试建立的评估方法效果普遍不理想,可以借助模拟驾驶进行改善.因此,本文以道路测试结果作为老年人驾驶适性的判断依据,从功能测试与模拟驾驶实验数据中分别提取评价指标,建立将两者相结合的老年人驾驶适性评估方法,从而有效替代道路测试.
1 驾驶适性评估实验
研究对象为92名70岁以上的比利时老年驾驶人,该人群已表现出或被医护人员怀疑具有认知能力下降现象,但仍在继续驾驶;样本平均年龄78.22岁,平均驾龄55.45年,男性占比79.3%.他们依次参与了功能测试、模拟驾驶测试以及仿照比利时官方驾照许可程序进行的道路驾驶测试.
1.1 功能测试
根据视觉、肢体、认知等功能与驾驶能力的关系,选择以下日常老年医学实践中的常用测试.
1) 在视觉功能评估方面,Snellen视力表用于测试驾驶人视力,分值为0~1.2,比利时法定驾驶最低视力要求为0.5;Pelli-Robson图表用于测评老年驾驶人视觉对比敏感度,测试结果取值0~2.25,对比敏感度反映人分辨边界模糊的物体的能力.
2) 在肢体功能评估方面,计时起身行走(timed get-up-and-go)测试用于评估移动能力,记录老年驾驶人从一把椅子上起身,然后行走3 m,再返回坐下的时间(s);功能性伸展(functional reach)测试用于评估身体平衡能力,记录被试者在站立位时维持平衡能前伸的最大距离(cm).
3) 一系列测试被用于评估认知功能的各个方面.在总体认知评估方面,简易精神状态检查(MMSE)是一种简洁而被广泛使用的总体认知功能检测方法,测试得分范围为0~30,得分较低说明认知功能受损.画钟测试(clock drawing test)要求被试者正确画出一个钟表盘面,再画上时针和分针,使时间指到11:10;该测试得分范围为0~7,高分表示表现更佳.
在记忆力评估方面,八词测试(eight word subtest)是一种听觉语言学习能力测验,首先8个单词被口头呈现给被试者,并要求其尽可能多地回忆,重复5次,记录正确回忆的单词数(0~40);在15 min后,被试者再次被要求回忆尽可能多的单词(0~8);最后,被试者被要求在含新增8个单词的16词中,正确判断每个词是否已检测过(0~16);3次结果依次记录为八词测试1、八词测试2和八词测试3.画图测试(rey complexgure test)要求被试者首先按示例临摹图像,随后移除示例凭印象再次绘图,最后在15 min后再凭记忆绘画,3次作画分别打分,分值0~36.数字回忆(WAIS Ⅲ-Digit Span)测试用于评估成年人的工作记忆能力,被试者被要求分别正向和逆序回忆一组数字序列,记录正确回忆的位数.
在注意力评估方面,连线测试(TMT)分为A与B两部分,A部分(TMT-A)要求被试者对图纸上的25个标号点按数字顺序正确连线,B部分(TMT-B)则要求将数字与字母相间按顺序正确连线,分别记录2次完成连线任务的时间(s).有效视野(UFOV)具有3个子测试,分别评估老年驾驶人的视觉处理速度(UFOV1)、注意力分散(UFOV2)和选择性注意力(UFOV3),以ms为单位记录反应时间,取值16.7~500 ms,反应时间越长则表明在测试中表现越差.
在执行功能评估方面,交通标志理解(knowledge of road sign)测试要求老年驾驶人将20个道路标志与交通场景匹配,3 min内匹配正确记2分,超过3 min匹配正确记1分,否则不计分,得分范围为0~40.迷宫测试(porteus maze test)是对视觉空间能力、规划能力和视觉注意力的测试,记录老年驾驶人破解迷宫的最高难度等级,取值为1~11.
1.2 模拟驾驶测试
被试者使用180°环绕投影与视场的STISIM Drive v3全车驾驶模拟器参与实验.模拟场景包括城市道路、乡村公路和高速公路等3种不同的道路环境,其中还包含6个已知对老年驾驶人而言较难应对的特殊事件.所有道路环境分别在交通流量高与低的情况下各呈现一次.驾驶模拟器采集了被试者在城市与乡村道路无事件区域行驶时的平均速度和横向位置标准差(SDLP),采集频率为60 Hz(高速公路环境仅涉及一个特殊事件,不包含正常行驶路段);对于特殊事件而言,记录被试者在其中相应的驾驶表现衡量指标.各项记录数据分别取在2种不同道路复杂程度下的平均值.
对6个特殊事件的具体描述和数据采集内容介绍如下.
1) 合流变道事件要求被试者从高速公路的入口匝道出发,行驶并汇入高速公路主线;记录被试者完成合流变道操作时所行驶的距离(m),以下简称合流变道距离.
2) 停控制交叉口制动事件要求被试者在乡村路段行驶并接近一个停车标志控制的十字路口;记录被试者在交叉口前100 m内的最大减速度(m/s2),以衡量其刹车的突然性.
3) 斑马线制动事件要求被试者在乡村路段行驶,并看到前方斑马线处有行人打算过街;预设碰撞时间(TTC)为3 s时行人开始穿越马路,记录被试者开始制动时到斑马线的距离(m).
5) 行人无前兆意外横穿事件要求被试者在乡村路段上行驶并遭遇前方行人意外横穿马路,必须采取急刹车才能避免与这名行人相撞;记录从行人开始横穿到被试者首次松开油门(10%松开)的时间为检测时间,用于衡量被试者感知和意识到危险的能力;记录从行人开始横穿到被试者首次踩下刹车的时间为反应时间,包含被试者感知、决策和执行的全过程.该场景在低交通量情况下出现.
6) 行人有前兆意外横穿事件的记录内容与行人无前兆意外横穿事件相同,区别在于该事件中行人横穿处有公交站台作为前兆.该场景在高交通量情况下出现.
1.3 道路驾驶测试
道路驾驶测试仿照比利时的官方驾照发放程序进行,被试者在一辆有专业驾驶适性评估员陪同的教练车上参与实验.评估员基于观察对被试者的驾驶表现进行逐项评分,并根据总分将其分类为适合驾驶或不适合驾驶.
2 评价指标选取
上述驾驶适性评估实验共采集到21项功能测试数据、12项模拟驾驶数据;根据道路驾驶测试结果,61名老年驾驶人被认为适合继续驾驶,而其余31位被认为不适合继续驾驶.以此将样本分为2组,通过独立样本T检验初步筛选指标,再进行分层逐步Logistic回归确定评价指标体系.
2.1 指标初步筛选
对实验数据进行Z-score标准化,消除量纲差异.对2组老年驾驶人各项测试数据进行独立样本T检验,筛选出组间均值差异显著(p<0.05)的变量.为评估所选变量均值在组间差异大小,计算其效应量Cohen’sd;根据Cohen提出的标准,d代表小、中、大效应量的3个阈值,分别为0.2、0.5与0.8[21].指标初步筛选与效应量计算的结果如下.
看着老婆那乱改古训蛮不讲理的样子,我只得说,我不是当官了吗?堂堂的县农业局副局长,副科级,月薪2358块。
1) 在视觉与肢体功能评价指标方面,视力(p=0.027,d=-0.49)、对比敏感度(p=0.014,d=-0.55)与功能性伸展(p<0.001,d=-0.78)初步入选.图1(a)展示出该类指标在2组老年驾驶人中的分布特征,表明不适合继续驾驶的老年人视力、分辨边界模糊物体的能力以及身体平衡能力更弱,并且差异显著.
2) 在认知功能评价指标方面,八词测试3(p=0.036,d=-0.47)、TMT-A(p=0.024,d=0.51)、UFOV1(p= 0.047,d=0.44)、UFOV2(p=0.004,d=0.65)、UFOV3(p=0.003,d=0.68)以及交通标志理解等6项指标初步入选.图1(b)展示了该类指标在2组老年驾驶人中的分布特征,表明不适合继续驾驶的老年人记忆力更弱、完成注意力测试花费的时间更长、对交通标志的理解程度不足,并且差异显著.
3) 在模拟驾驶评价指标方面,乡村路段SDLP(p=0.040,d=0.46)、合流变道距离(p=0.020,d=0.52)以及无前兆检测时间(p=0.034,d=0.48)初步入选.图1(c)为该类指标在2组老年驾驶人中的分布特征,表明不适合继续驾驶的老年人在乡村路段行驶时的横向偏移更大、完成合流变道操作的行驶距离更长,在无前兆情况下对行人横穿的检测时间更长,并且差异显著.
(a) 视觉与肢体
(b) 认知能力
(c) 模拟驾驶
如图1所示,以上共有12项实验数据通过初步筛选,2组老年驾驶人在这些测试中的表现差异显著.其中,对比敏感度、功能性伸展、TMT-A、UFOV2、UFOV3、交通标志理解以及合流变道距离等7项指标对组间差异具有中等以上效应;功能性伸展指标接近大效应量水平.
2.2 指标体系确定
为进一步简化老年人驾驶适性评价指标体系和评估方法,并有效结合功能测试与模拟驾驶,参考文献[4, 20]方法,用分层逐步Logistic回归确定评价指标体系.逐步回归是常用的特征选择方法,能够基于模型筛选建模变量;分层则能够在功能测试指标基础上考察模拟驾驶数据是否对模型有显著提升.先将上述9项功能测试数据加入回归模型,再加入上述3项模拟驾驶数据,分别进行以似然比为迭代计算值的向后逐步Logistic回归.
仅用功能测试数据得到的回归结果如表1所示,确定对比敏感度、功能性伸展以及交通标志理解为评价指标.该模型χ2(3)=18.759,具有统计意义(p<0.001),所解释的变异即R2=0.256.
表1 功能测试数据回归结果
结合功能测试与模拟驾驶数据的回归结果如表2所示,除以上3项功能测试指标外,合流变道距离进入评价指标集.该模型χ2(4)=22.612,相比于上一模型(χ2(3)=18.759)有显著提升(χ2(1)=3.853>3.840,p<0.05);所解释的变异为0.302,其中合流变道距离解释了0.046的变异,证明了选择该指标的合理性.
表2 功能测试与模拟驾驶数据回归结果
综上,对比敏感度、功能性伸展、交通标志理解以及合流变道距离等4项指标被确定为老年驾驶人驾驶适性评价指标,分别代表视觉、身体、认知和模拟驾驶等4个方面.
3 驾驶适性评估模型
老年人驾驶适性的评估结果为适合或不适合继续驾驶,可视为二分类问题.尽管Logistic回归可以用于解决该问题,但大多数情况下其效果并不理想[12-17].因此,本文应用了决策树、随机森林和支持向量机等主流机器学习分类模型以预测老年驾驶人道路驾驶测试的结果,并对其进行比选.上述模型各有其优缺点,如表3所示.
表3 分类模型优缺点
3.1 建模方法
以评价指标数据为特征、道路测试结果为标签,分别训练决策树、随机森林与支持向量机模型,评估其泛化能力,建模过程在RStudio中实现.
由于样本中通过道路测试的老年驾驶人数量约为未通过者的2倍(61∶31),在训练集抽样过程中容易造成2类样本数量差异较大.一般而言,数量偏少一类对算法模型目标函数的贡献较低,故许多机器学习算法在不平衡数据集上的总体准确度不高,且对少数类的预测准确度很低.为保障交通安全,驾驶适性评估模型应当对不适合继续驾驶的老年人具有较高的评估准确率.因此,需要对训练集数据进行平衡处理.SMOTE算法是一种合成采样方法,能够随机近似生成少数类样本,以达到平衡训练集的目的;该方法可以通过R语言中的ROSE(random over-sampling examples)程序包实现.
用留出法将70%的数据进行平衡处理后用于训练模型,其余30%的数据留作测试.通过设定不同的随机种子对数据集进行10次划分,并分别对决策树、随机森林以及支持向量机进行训练,各模型的参数(如决策树的剪枝复杂度、随机森林中决策树的数量、支持向量机的误分类惩罚因子等)经过试错标定,以测试集分类准确率的平均值比选模型.
3.2 结果分析
3种模型10次训练的评估结果如表4所示.由表可知,支持向量机在测试集上的平均预测准确率最高(75.05%),且标准差最小(6.80%),泛化能力最强,相比决策树与随机森林优势明显.
表4 模型评估准确度 %
为验证训练数据平衡处理的效果,以原始不平衡数据对支持向量机进行了训练,评估结果如表4所示.对比两者可见,用平衡数据训练的支持向量机预测准确率整体更高,而用原始数据训练的支持向量机表现更为稳定,需对两者进行衡量和取舍.观察表4中第5次数据集划分发现,使用平衡数据和原始数据训练的支持向量机测试准确率相同,可比较分析两者的混淆矩阵,如表5和表6所示.
表5 平衡数据建模混淆矩阵
表6 原始数据建模混淆矩阵
在本次数据集随机划分中测试集仅有15个样本,其中4人不适合继续驾驶.以原始数据训练的模型误判其中3人为适合继续驾驶,而以平衡数据训练的模型对其判断完全正确.数据平衡处理尽管小量增加了预测准确率的波动,但对总体和少数类的预测准确率有所提升.
综上,用平衡数据集训练的支持向量机模型评估效果最佳,其最高准确率为84.6%,模型核函数为高斯函数,高斯核带宽γ=0.25,误分类惩罚因子cost=1.该模型的混淆矩阵如表7所示,能正确识别88.9%的适合继续驾驶的老年驾驶人,以及75%的不适合继续驾驶的老年驾驶人,可以替代道路测试进行老年人驾驶适性评估.
表7 最佳模型混淆矩阵
4 讨论
本文通过独立样本T检验与分层逐步Logistic回归提取出对比敏感度、功能性伸展、交通标志理解以及合流变道距离等4项评价指标,并以此建立老年人驾驶适性评估模型.所选取的指标覆盖视觉、肢体、认知与模拟驾驶等4个方面,结合了功能测试与模拟驾驶;以此建立的模型具有较好的评估效果,验证了Cuenen等[10]的结论.
研究结果证明了视觉能力对驾驶的重要作用[8],尤其突出了对比敏感度在驾驶适性评估中的作用,而没有将视力作为评价指标;对比敏感度测试对于青光眼、黄斑病等的早期发现具有重要实用价值,这些视觉疾病对驾驶能力均有极大负面影响.此外,研究结果还说明功能性伸展所衡量的老年驾驶人身体平衡能力对安全驾驶有重要作用.
对交通标志的认识和理解是驾驶需具备的重要能力,忽视、误解交通标志信息会对个人出行与交通流的安全与效率造成负面影响.合流变道距离是综合性的评价指标,驾驶人从匝道汇入主线需多次观察后视镜、判断变道时机并同时留意前方路况才能安全、有效地完成,对老年驾驶人的注意力选择和集中具有一定要求;该指标将所需的认知能力反映在模拟驾驶操作上,而有效视野(UFOV)、连线测试(TMT)等常用注意力测试[23-24]在本文中未能入选评价指标体系.
模型建立与比选方面,支持向量机总体而言效果最佳,说明其在处理小样本分类问题上有优势;随机森林优于决策树符合集成学习器优于个体学习器的规律.训练与测试数据集的不同划分对预测准确率有较大影响,这与合成采样有关;但总体而言数据平衡的利大于弊,对预测效果提升较大.所构建的老年人驾驶适性评估方法准确率可达84.6%,可以有效替代道路驾驶测试;其评估结果可为老年驾驶人调整驾驶行为(如避免在复杂道路和夜间行车)、针对性提升驾驶能力(如通过认知训练与模拟驾驶训练)以及采用辅助驾驶技术等提供参考意见.然而不同于Logistic回归或决策树等能够明晰特征变量与预测标签之间作用关系或分类规则的模型,支持向量机属于黑箱模型,只对结果起判别作用,但足以解决实际问题.
本研究的样本绝大部分为男性,由于驾驶人的行为特征在两性之间普遍有所不同,因此所提出的预测方法在男性高龄驾驶群体中更为有效.最后,选择比利时的老年驾驶人为研究对象的原因是比利时作为欧洲发达国家之一,相比我国提前几十年进入了老龄化时代,目前面临的老年驾驶人交通安全问题较为严峻,对其展开研究可以为我国将来解决类似的现实问题提供参考.后续将在国内组织实验验证该评估方法对我国老年驾驶人的有效性,建立适用于我国的老年人驾驶适性评估方法;此外,为兼顾交通安全与老年人的出行需求,进一步研究可从面向老年人的公交服务系统、驾驶能力训练方法以及智能辅助驾驶系统设计等方面展开.
5 结论
1) 本文从92名比利时老年驾驶人的功能测试与模拟驾驶数据中提取出适当的评价指标,构建了替代道路驾驶测试的老年人驾驶适性评估方法,其准确率最高可达84.6%.
2) 对比敏感度、功能性伸展、交通标志理解以及合流变道距离可作为老年人驾驶适性评价指标,涵盖了视觉、身体、认知和模拟驾驶等4个方面.其中,模拟驾驶指标具有不可忽视的作用.
3) 支持向量机对老年人驾驶适性的检测效果较决策树与随机森林更好.通过合成采样平衡训练数据中的大小类样本量对于总体和不适合继续驾驶的老年人判断准确率提升很大.
4) 评估结果可为老年驾驶人调整驾驶行为、训练提升驾驶能力、使用辅助驾驶技术等提供参考意见.后续将在国内组织实验,研究针对我国老年驾驶人的驾驶适性评估方法和改善措施.