APP下载

人工智能在骨龄评估中的应用

2022-11-06王凤丹次旦旺久金征宇

基础医学与临床 2022年11期
关键词:骨龄准确性评估

王凤丹,次旦旺久,焦 洋,潘 慧,银 武,金征宇

(中国医学科学院 北京协和医学院 北京协和医院 1.放射科,2.普内科, 3.内分泌科,北京 100730;4.西藏自治区人民医院 放射科, 西藏 拉萨 850000)

儿童的生长发育决定了一个地区未来人口的健康状况和社会发展潜能。随着社会的发展,对儿童生长发育进行准确的个体化评估的需求日渐增加。与日历年龄相比,骨龄(bone age,BA)更能准确地反应儿童及青少年生长发育的实际情况[1],因此骨龄被广泛用于预测儿童的身高及初潮年龄、诊断和随访生长发育提前或延迟相关疾病、运动员选材及法医学量刑。检查骨龄仅需拍摄左手正位片,辐射剂量仅0.00012毫西弗(millisie-vert,mSv),对儿童非常安全[2]。

虽然骨龄应用广泛,但实践中这不仅需要培训专业技师摄片、专业医生阅片,更需要整个医疗体系持续投入大量时间、精力及财力。中国幅员辽阔,医疗质量与可及性分布不均,很多地区医疗资源紧缺,更缺乏有骨龄判读经验和资质的医护人员[3]。人工智能(artificial intelligence, AI)不依赖大量时间、精力及财力的持续投入,为以有限医疗资源实现高效准确的骨龄评估提供了可能。

1 传统的骨龄评估方法简介

骨龄的评估方法众多,主要有计数法、图谱法和积分法3种类型[4]。计数法是通过观察骨化中心出现的时间、数目和成熟度判断骨龄,由于误差较大,且需要多部位摄片增加了辐射剂量,目前使用较少。Greulich-Pyle图谱法(简称GP法)是全世界使用最广泛的骨龄判读方法,阅片者比对标准片进行骨龄判断,该图谱基本涵盖了手腕骨发育过程中的所有共性的骨性指征。Tanner-Whitehouse法(简称TW法),根据手腕部20个骨化中心的出现及形态改变进行分级评分,给予各骨化中心以不同的比重。中国人手腕发育标准-CHN法依照TW法制定,纳入14个骨化中心,后经修订为中华05法。积分法结果较为准确,但需要进行专业训练,使用起来较为耗时。即使是经优化的TW3法,一般情况下医生读一张骨龄片至少需要8 min[4]。

无论使用哪种方法评估骨龄,人工读片、分析及推断骨龄均有工作量大、耗时长、一致性欠佳的局限性。不同阅片者的水平和能力不尽相同,故读片的一致性不佳;对同一张骨龄图像,同一个阅片者不同时间的判定结果、不同阅片者之间的判定结果均有较大差异[5]。随着计算机和图像处理技术的发展,AI能提供相对统一、稳定、便捷的骨龄结果,节省培训专业人员所需的费用、时间和精力,提高读片的准确性和一致性,有很好的应用前景。

2 AI骨龄评估的国内外研究进展

2.1 AI及相关概念

AI是计算机科学的一个分支,指表现出与人类智能(如推理和学习)相关的各种功能的能力,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等(图1)。机器学习(machine learning,ML)隶属于AI,指使用计算机作为工具,研究怎样使用计算机模拟或实现人类学习活动。深度学习(deep learning,DL)是机器学习的一个子领域,实质是一种算法思维,其核心是对人脑思维深层次学习的模拟,通过模拟人脑的深层次抽象认知过程,实现计算机对数据的复杂运算和优化。“深度”体现在该算法有多个隐含层,因此在处理图像、声音和文本时,是通过每一层网络结构对数据进行提取处理。常见的深度学习算法有卷积神经网络(convolutional neural network,CNN)、深度信念网络和循环/递归神经网络。

AI.artificial intelligence;ML.machine learning;DL.deep learning;CNN.convolutional neural network

不同的深度学习算法用于不同的任务,适用于医学影像领域的算法是CNN,它是一类包含卷积计算且具有深度结构的前馈神经网络,由一个或多个卷积层组成,对数据中的局部特征进行卷积操作,可以进行监督学习和无监督学习。随着研究的不断进步,在CNN的基础上又产生了各种改进结构和算法,如深度神经残差网络(residual network,ResNet)。

2.2 AI骨龄评估的国外研究进展

开发AI骨龄系统需要训练、验证、测试这3个阶段,用与训练集不同来源数据进行测试,同时不断调整AI各项参数是检验AI普适性的常用手段。近几年来,国外陆续有研究机构尝试开发基于深度学习的AI骨龄评估软件。依据TW法,使用1 391张骨龄片构建的CNN模型与人类专家判读骨龄的平均绝对离差为0.79岁[6]。依据GP(Greulich-Pyle)法,一项研究使用迁移学习分析了4 278张女性儿童和4 047张男性儿童骨龄片,通过组织、骨骼、背景、视准及标记注释5个取样点,所构建的AI骨龄软件的准确率约为90%[7];另一研究纳入大样本(14 036例)骨龄片,结果显示AI与人的判定结果无统计学差异,同时AI相比于人更加稳定[8]。基于首尔峨山医院数据所开发的韩国儿童AI骨龄软件(VUNO Med-BoneAge)[9],GP法骨龄准确率可达93%,并获得了韩国FDA批准。韩国FDA批准的另外2款AI骨龄软件,是依照TW法建立的HH-boneage.io solution和MediAI-BA solution[10]。

北美放射学年会(Radiological Society of North America, RSNA)曾举行了一场骨龄机器学习挑战赛[11],数据库来自斯坦福大学露西尔·帕卡德儿童医院和科罗拉多州儿童医院。有来自世界各地的260个个人或团队报名比赛,最终仅有48个参赛者提交了骨龄算法,但是在这个挑战赛里所涌现的新工具和新方法将促进AI诊断效能的进一步提高。

在国外AI骨龄软件的研究中,研发数据大多来自美国或西欧,对不同地域、种族、社会经济地位人群的研究较为缺乏。测试AI准确性所用的测试集数量较少(200~280例),在AI算法和模型构造上有许多需要改进之处,准确性有待提高。此外,在这些研究中,用于前期训练开发AI的骨龄图像与用于测试AI准确性的骨龄图像均来自于相同的临床中心,但实际上不同临床中心的受检者及病种存在很大差异,骨龄特征也随之变化,用相同来源的骨龄图像进行评估无法体现及验证AI的普适性。

2.3 AI骨龄评估的国内研究进展

国内对AI骨龄评估的研究紧跟国外同行的步伐。有学者将CNN与多核学习算法结合[12],将两个不同数据融合策略的CNN模型联合使用[13],使用回归CNN算法[14],或者对GoogleNet深度学习架构Inception ResNet V2网络进行优化[15]以构建AI骨龄判读模型。一项研究使用北美放射学年会骨龄机器学习挑战赛的骨龄数据,构造了改进的ResNet网络[16],其准确率为男性87.15%,女性85.38%。但这几项研究使用的均是国外公开集骨龄数据,处于构造算法和模型阶段,缺乏大样本中国儿童骨龄数据作为训练集,尚未在中国人群骨龄数据进行验证及测试,离实际应用还有很多临床及技术问题需要解决(图2)。

挑战赛公开集内部分骨龄片图像质量与中国大部分中心骨龄片的图像质量不同,因此用挑战赛公开集训练的AI模型不能直接用于中国

为了开发适合中国儿童的AI骨龄软件,多个团队以中国儿童骨龄片作为训练集进行研发,但训练集和验证集多来自于单个医学中心。一项研究使用ResNet算法深度学习11 858例骨龄片(南方地区单中心)所构建的AI软件[17],其GP法骨龄与金标准之间的平均绝对离差约为0.46岁。另一团队基于9 059个汉族儿童的骨龄资料(南方地区单中心)[18],结合ResNet配准模型和分类模型构建了AI骨龄软件,使用来自北京单中心的有生长发育异常的汉族儿童(745例)以及生活在拉萨地区(海拔3 650 m)的藏族儿童(300例)的骨龄数据进行测试,该AI软件判读GP法骨龄的准确率均可达到85%左右[19-20]。另有团队使用56例来自北方地区的骨龄片[21]测试基于南方地区骨龄数据所开发的AI软件[22],发现AI软件提高了医生使用中华05法进行骨龄诊断的准确性。AI算法有一定的数据依赖性,这些研究提示以单中心大样本骨龄数据训练先进的深度学习算法,所构建的AI软件可在不同的医学中心和不同的民族得到较好的骨龄结果。其他学者对西南地区[23]和北方地区[24]的AI骨龄研究,也表明AI可在数s内得出骨龄结果,辅助临床医生进行更为准确的骨龄评估。

3 问题与展望

前文对中英文文献的回顾发现,有些研究并未详细披露训练AI软件所使用的骨龄数据来源、数量、男女比例和年龄分布,以及详细的模型算法构造。不同的研究使用不同的统计学术语评价AI骨龄软件的准确性,缺乏统一的评估标准。此外,遗传、种族、营养、气候、社会经济等多种因素都会对儿童的生长发育及骨龄产生影响[25]。这些均体现了骨龄评估的复杂性。2021年一项荟萃分析研究对全世界54家AI公司所开发的100个商业化AI产品进行评估[26],发现其算法构建、定价方式及监管策略异质性很大。这100个AI产品中,多达64个并无有效性及准确性检测的文章作为支撑。而36个有正式文章发表的AI产品,文章也是集中在诊断准确性检测上,缺乏对诊治决策、费效比及患者预后等高阶的证据。根据2020年底发布的《中国医学影像AI发展报告》[27],目前在中国有10家AI公司的核心业务包含骨龄,但有成熟产品的只有4家,获得三类器械批准的仅有1家,有正式发表的科研文章作为支撑的产品甚少。

尽管AI在医学领域的应用前景广阔,但技术上需要在算法、算力和系统构架实现真正革新和突破;产品上,需要基于检查部位的多任务模型,需要基于临床工作流的全流程方案;商业上,需要完整的AI产品形态,各方均能接受的定价系统;安全上,需要进一步健全数据安全性和规范化使用法律法规;监管上,需要建立健全临床准入和评价体系[28]。2021年6月欧洲发布相关指南[29],指出在评价影像领域商用AI软件时,要对相关性、准确性和验证、 实用性和流程整合、 监管和法律、费用和服务5个方面进行全面考量,其中最需明确的是该AI要解决什么样的临床问题,其收益和风险是什么,AI算法是否经过第三方的严格检验,AI如何用于临床工作。

国内医务人员对AI的接受度及欢迎度较高,短短几年时间内AI技术几乎在医学影像领域全程嵌入。AI骨龄系统与医学影像存档与通讯系统及放射科信息系统接口对接,可以实现骨龄图像自动抓取、阅片分析及结构化报告(图3),极大提高了影像科医师的工作效率与骨龄判读的准确性。AI技术必然深刻改变影像科医生的工作方式,对骨龄评估产生深远影响。

人工智能骨龄软件作为插件嵌入影像科医生阅片工作站,医生打开一份骨龄检查时,软件会自动抓取图像,并呈现出上图的结构化报告,提供不同评估方法的骨龄结果(右上角红框)供医生选择,整个过程仅需数秒

猜你喜欢

骨龄准确性评估
CT及超声在剖宫产瘢痕部位妊娠中的诊治价值及准确性
两款输液泵的输血安全性评估
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
评估身高需要定期测骨龄吗
产前超声检查和磁共振成像对胎盘植入诊断的准确性评估
核电工程建设管理同行评估实践与思考
第四代评估理论对我国学科评估的启示
骨龄预测身高靠谱吗
长高如赛车 不但比速度还要测骨龄
铜川探索党建工作绩效第三方评估