人工智能自动化硅藻检验的研究进展
2022-11-21朱永正张吉程奇邓恺飞马开军张建华赵建孙俊红黄平秦志强
朱永正,张吉,程奇,邓恺飞,马开军,张建华,赵建,孙俊红,黄平,秦志强
1.司法鉴定科学研究院 上海市法医学重点实验室 司法部司法鉴定重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;2.山西医科大学法医学院,山西 太原 030001;3.贵州医科大学法医学院,贵州 贵阳 550000;4.上海市刑事科学技术研究院,上海 200083;5.广州市刑事科学技术研究所 法医病理学公安部重点实验室,广东 广州 510442
在法医学实践中,水中尸体的检验常涉及生前溺死和死后入水的鉴别以及落水点推断等问题。受机体缺氧和应激反应的影响,人体在溺水过程中会出现剧烈的呼吸运动并随之吸入大量溺液。硅藻作为水中常见的浮游生物,会随溺液入肺,通过肺泡壁-毛细血管屏障进入血液循环,最终分布于全身各主要器官[1-2]。因此,肺、肝、肾、骨髓等组织器官的硅藻检验阳性是诊断溺死的有力依据[3-5],并且还可通过分析组织中硅藻的种属和物种丰度[6]等信息推断溺死水域。鉴于此,部分学者[7]认为硅藻检验是最具价值的实验室溺死诊断方法。
人工智能(artificial intelligence,AI)自动化硅藻检验是在硅藻形态学观察的基础上,应用AI 算法对组织器官中的硅藻进行自动化识别和分类。该技术有望取代传统人工镜下肉眼观察,从而节约大量的人力和物力,且更易于获取准确而客观的诊断结论。本文就传统形态学硅藻检验和AI 自动化硅藻检验近期的研究进展进行综述,希望能够为未来法医学溺死研究提供新的方向。
1 传统形态学硅藻检验
硅藻是一种广泛生活在淡水、海水中的浮游微生物,其细胞壁由上下2 个具有微孔的壳面和中间的环面组成,壳面具有特殊的形态和纹路,根据其形态特征分为中心纲和羽纹纲[8]。由于硅藻的硅质细胞壁具有耐酸特性,因此在组织被消化后仍能够保留其独特花纹的细胞壁[9]。传统形态学硅藻检验方法就是基于这一原理利用光学显微镜或电子显微镜观察硅藻细胞壁进行确认和分析。
利用强酸消化法、酶消化法等组织消化方法去除组织和硅藻中的有机成分是传统形态学硅藻检验的重要步骤。其中,强酸消化法具有消化能力强、成本低、速度快等优点,其主要步骤是在加热条件下应用一定比例的无水乙醇和浓硝酸对有机成分进行消化[10]。在此基础上,有学者[11-12]提出一种新型的组织消化法,即微波消化方法,该方法将强酸消化与微波加热联用,从而达到更为充分、迅速的消化效果。强酸消化法可能会造成硅藻结构破坏,使硅藻上下壳面分离,导致硅藻计数增加[13],同时消化过程会产生二氧化氮(NO2)气体,为实验室安全和环境保护带来挑战。鉴于此,有部分学者尝试应用更为安全、环保的方法对组织进行消化。FUCCI 等[14]使用盐酸-过氧化氢溶液联用法拟替代浓硝酸对组织进行消化,结果表明,该方法在组织消化程度上与浓硝酸相仿,但安全系数明显提高。SIDARI 等[15]应用Solunene-350 组织助溶剂得出了相似的实验结果,但该试剂对海洋硅藻细胞壁破坏较大,不适于此类水域的溺死案件。
相对而言,酶消化法可更为温和、安全地对组织器官进行消化,并最大程度地保留硅藻结构的完整性。TAKEICHI 等[16]将固定及未固定的组织置于含Tris-HCl、SDS 和PK 的溶液体系中,经50 ℃恒温过夜孵育,实现了对组织的完全消化,硅藻的回收率和完整性均远高于强酸消化法。尽管如此,PK 试剂成本昂贵,难以在基层实验室开展[17]。随后,KAKIZAKI等[18]尝试使用木瓜蛋白酶消化组织并提取硅藻,有效降低了试剂成本,但实验步骤较繁琐,仅适用于小样本组织的硅藻检验。
由于组织中硅藻的含量相对较少,对组织中的硅藻进行适当富集处理将有助于提高检出率。目前国内外普遍采用的富集方法是高速离心法,但反复的洗涤和离心环节容易造成硅藻不同程度的破坏和丢失[11]。为减少这一损失,HU 等[13]使用微小孔径的滤膜在真空下抽滤,将硅藻富集于滤膜上,结果显示,该方法可显著提高硅藻的回收率。
传统硅藻检验方法依赖人工在镜下对硅藻进行定性定量分析。目前,光学显微镜被广泛应用于法医学实践,具有上样快、观察方便等优点。结合油镜镜头观察,可对大多数硅藻的种属进行区分[19]。扫描电子显微镜具有极高放大倍数和分辨率,可观察硅藻的三维空间结构和纹理细节,有利于更为精准地对硅藻种属进行分类,但其仍具有仪器设备昂贵、视场窄及检验时间长等缺点[20]。
2 AI 自动化硅藻检验
AI 是一门利用计算机模拟人类各种智能行为的综合学科。近年来,AI 进入“深度学习算法”时代,该算法相较于传统机器学习具有更为复杂而深层次的模型结构,在计算机视觉(computer vision,CV)和自然语言处理(natural language processing,NLP)等领域展现出了卓越的性能[21]。作为深度学习常见算法之一,卷积人工神经网络(convolutional neural network,CNN)可模拟生物视觉认知机制。通过特征提取器逐层对图像中的关键识别信息进行自动化提取并将获取的信息关联到对应的任务目标[22-23],可高效完成目标检测、图像分类及语义切割等图像处理任务。目前,该技术已被广泛应用于医学图像诊断领域[24-27],相关商业软件的问世大幅度地降低了医务人员的工作负担。
在法医学实际检案中,涂片中的硅藻含量相对较少且过于分散,加之个别硅藻体积较小或呈碎片状,有时难以与背景杂质区分,使得观察者往往需要花费大量时间和精力对硅藻进行搜索和辨认。此外,硅藻的识别多依赖于观察者的经验判断,具有一定的主观性,可能出现假阳性或假阴性结果[28]。为了进一步提高硅藻的检出率以及实验结果的准确性、客观性,国内外学者们尝试应用AI 技术实现自动化硅藻检验,并取得了诸多突破性研究成果,为法医学溺死研究开辟了一条新的研究方向。
2.1 自动化硅藻识别
目前主要应用CNN 中两大算法(目标检测算法和图像分类算法)来实现涂片背景中硅藻的自动化标记和识别。其中,目标检测算法是一类解决精细目标类别区分问题的CNN 算法,可对图片中多个目标进行定位区分[29]。根据其运行原理的不同,分为两步检测算法和一步检测算法2 种。两步检测算法需要先获取检测目标的候选区域,随后进行分类、预测,包括R-CNN、Fast R-CNN、Faster R-CNN 等[30-32];一步检测算法则不需要单独寻找候选区域,可同时对目标边界框进行识别,代表性算法包括YOLO、RetinaNet等[33]。目前,已有学者尝试将目标检测算法应用于单一图片硅藻自动化标记的研究中。PEDRAZA 等[34]报道了R-CNN 和YOLO 在光学显微镜下硅藻自动化识别中的应用,在1 000 倍的油镜图片上,YOLO 得到了0.75 的平均精度和0.84 的平均召回率。YU 等[27]尝试使用RetinaNet 算法对低倍率自动扫描电子显微镜图片中的硅藻进行自动捕获识别,通过引入特征金字塔和焦点损失技术进一步提高了识别的准确性,且在速度和准确性之间取得了良好的平衡,最终在阈值0.5的条件下得到0.82 的平均精度和0.88 的平均召回率。
然而由于整张显微图像数据体量过于庞大,导致上述研究多用于单张局部显微图像内硅藻的标记识别,缺少全涂片下硅藻的识别能力。此外,尽管目标检测算法能够对图片中的硅藻进行自动化标记,但不同类型算法的选择将大大影响标记结果的准确性和运行效率。例如,两步检测算法主要依赖于整体网络的多区域性计算,需要生成大量的候选区域框由模型分别进行识别,其算法运行速度也随之减慢;而一步检测算法虽然能够同时对所有边界框进行预测、分类,但仍需在准确率和实时处理速度之间进行权衡,且在近距离和小目标的检测中准确率较低[29]。
图像分类算法是将整张图片用单一类别标签描述图片中最主要的可视内容,通过输出图片的分类标签概率来实现图片的分类,代表性算法有AlexNet、VGG、Inception 和ResNet 等[23,35-36]。将整张显微图像切割成无数小图片,进行“硅藻”和“背景”的二分类,从而实现显微图像中硅藻的自动识别。基于此,ZHOU 等[26]应用全切片图像扫描(whole slide image,WSI)技术结合InceptionV3 模型进行光学显微镜下硅藻的自动识别,与上述研究不同的是,其可在数分钟内完成对整张硅藻涂片的检测,该研究结果显示,经数据扩增及迁移学习训练后的模型在硅藻识别准确率方面高达97.67%,其检测效率也远高于人工肉眼识别。值得一提的是,后续的梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)显示,模型的识别兴趣区几乎全部集中于硅藻的所在位置,甚至是肉眼难以辨认的微小硅藻或硅藻碎片,进一步证实了该团队建立的模型能够高效地对硅藻进行辨认,其结果客观、可信[37]。该研究目前所采用的硅藻提取方法为强酸消化-离心富集法,未来还将采用更为温和的硅藻提取方法(如酶消化法),得到更为完整的硅藻结构,将有助于进一步提高模型的预测准确性。
综上,笔者认为目标检测算法虽然从原理上更适合硅藻的自动化识别,但其难以实现全涂片中硅藻的识别,且仍然需要在速度和准确率的权衡上不断优化。相较而言,分类算法通过预测整张显微图像切割后的小图实现全涂片中硅藻的自动识别,且模型更加简单、成熟,更能满足当前法医学实践的需求。此外,在实际检案中,硅藻检验结果的准确性有时会受样本中的炭末、泥沙等杂质的干扰,因此,算法能否在复杂背景下高效地识别硅藻,仍需后续进一步研究[38]。
2.2 自动化硅藻分类
自动化硅藻分类是在硅藻种属形态学差异的基础上,利用传统机器学习或深度学习图像分类算法对目标硅藻图片进行种属分类。阿尔加维大学早在1998 年发起了硅藻自动化鉴别项目(automatic diatom identification and classification,ADIAC),致力于应用传统机器学习方法进行硅藻的种属分类[39]。通过不同描述符(周长、离心率、形状、灰度直方图、灰度共矩阵、局部二值模式、图像矩、Log-Gabor 滤波器等)提取了关于硅藻形状、纹理、空间-频率等特征,随后将上述特征输入决策树模型进行分类并采用10 倍交叉验证予以内部评估,其分类准确率达到了98.82%[40]。尽管传统机器学习算法对硬件和数据规模要求较低,但其分类性能更多依赖于人工提取的图片特征,该过程耗时、费力且需要专业的硅藻分类知识。
相较而言,依靠强大的图形处理器(graphics processing unit,GPU)矩阵运算能力,深度学习算法以其自身独有的特征提取结构,可直接获取图片中的高维度信息用于模型微参数的调整,该过程完全由计算机单独完成,避免了人为主观经验的干扰,更适于在法医学实践中推广。PEDRAZA 等[41]使用经典AlexNet模型对硅藻进行分类,在拥有80 种硅藻图像的庞大数据集中得到了平均99.51%的分类准确率,优于机器学习分类性能。KLOSTER 等[19]构建了油镜下硅藻种属的数据集并用于训练VGG16 模型,且经迁移学习后模型的F1 分数为0.97,具有很强的二分类性能。上述研究与法医学硅藻检验在样本处理方面明显不同,其涂片背景相对干净,仅适用于水产生物硅藻分类研究。ZHANG 等[42]在前期硅藻自动化识别的基础上,使用InceptionV3 模型首次对法医学实践中涉及的生物样本进行了硅藻种属分类研究,该研究建立了上海市黄浦江和苏州河流域8 种常见淡水藻的种属分类数据集,经过迁移学习和数据扩增处理后,最终取得了95.34%的平均分类准确率。基于该技术建立的硅藻种属数据库不需要专业的水生物分类学知识,对于日后高效建立不同季节水域硅藻数据库提供了巨大帮助。此外,该团队还将所建立的硅藻种属数据库与溺死大鼠肺组织中的硅藻种属丰度进行比对并建立了溺水地点推断的KL(Kullback-Leibler)散度统计学模型,有望成为法医学水中尸体落水点推断的可靠方法。
3 小结
溺死在世界范围内均有较高的发生率。对水中发现的尸体,如何确定是生前溺死还是死后入水以及推断落水点,是一个重要而棘手的法医学问题,也是法医学实践中面临的首要任务。作为水中尸体死因鉴定的主要辅助手段,硅藻形态学检验被广泛应用于国内外法医学实验室。基于显微镜观察的硅藻形态学检验,需要人工肉眼对硅藻进行定性定量分析,其过程费时、费力,易受检验者主观判断影响,结果的客观性、准确性存在一定不足,且专家经验难以传承。近年来,AI 在法医学硅藻检验上的应用,弥补了传统形态学检验的不足。法医学AI 自动化硅藻检验可快速对硅藻进行自动化识别和分类,显著提高了硅藻检验效率和检验结果的准确性、客观性。但是,相关研究尚需不断深入:(1)硅藻检出的召回率和识别精度需进一步提高;(2)复杂背景下硅藻的识别和分类需进一步优化;(3)不同水域的硅藻数据库需进一步丰富,为推断落水点提供数据基础。随着研究的不断深入和完善,AI 自动化硅藻检验有望成为水中尸体硅藻检验的常规方法,为攻克溺死诊断和落水地点推断等法医学难题提供新思路、新方法。