APP下载

深度学习在辅助生殖技术领域的应用进展

2024-05-19胡希李艳刘洋

实用医学杂志 2024年7期
关键词:整倍体囊胚精子

胡希 李艳 刘洋

昆明医科大学第二附属医院生殖医学科(昆明 650101)

深度学习(deep learning,DL)是人工智能(artificial intelligence, AI)的一个子集,是一种应用前景广泛的方法,它可以自动从样本图像中学习特征表达,并且在特定任务的应用中已经被证明可以匹配甚至超越人类的表现[1],目前已应用于诸多领域,实现了突破性的成就。在医学领域DL 结合临床医师的经验和智慧,改善医疗诊断、治疗和疾病管理的效率和精度,在当下和未来的诊疗工作中扮演着重要的角色。辅助生殖技术(assisted reproductive technology, ART)是当前不孕不育夫妇解决生育问题的主要方法,胚胎质量是决定能否成功妊娠的关键因素之一。传统的胚胎质量评估、卵母细胞及精子的选择是在显微镜下通过人眼观察进行评分[2],存在主观性强、误差明显、耗时长、依赖经验等局限性。因此,胚胎质量评估成为体外受精(in vitrofertilization, IVF)妊娠率进一步提高的限速步骤,随着AI 新领域DL 的迅速发展,其强大的图像大数据处理学习能力,使得胚胎实验室繁重的临床工作过程中实现高准确度、高效率挑选精子、卵子及胚胎有了新的突破方向,进一步优化胚胎学分析、客观地评估胚胎以及预测发育潜能、妊娠结局[3]。本文将综述近5 年DL在ART 领域的研究进展,评价其利弊,阐明未来发展方向。

1 DL 在胚胎质量评估及选择中的应用

1.1 DL 基于显微镜静态图像下的胚胎质量评估及选择传统胚胎优选通常采用静态形态学评分系统,在胚胎发育特定时间点使用高倍显微镜观察并拍摄图片,技术人员按照胚胎评级标准(如伊斯坦布尔共识)为胚胎贴上标签,等级最高者优先移植[4]。然而,胚胎图像质量、人工视觉偏差及个人经验不足均会降低观察者自身及观察者之间的准确性及一致性。MUSHTAQ 等[5]的研究提出一种基于DL 的胚胎成分分割网络(ECS-Net),在公开可用的显微囊胚图像数据集上进行了评估,提供了85.93%的平均Jaccard 指数,表明此网络可准确检测滋养外胚层、透明带、囊胚腔和内细胞团以进行胚胎学分析。CHAVEZBADIOLA 等[6]在已知结果的囊胚图像数据库中应用胚胎排序智能分类算法(embryo ranking intelligent classification algorithm, ERICA),评估其预测整倍体和胚胎排序的能力,结果发现,ERICA 算法的预测囊胚整倍性准确性高达70%,高准确性意味着医生更可靠地选择最有希望的胚胎进行植入,提高患者妊娠率。研究还将ERICA 算法预测整倍体胚胎排序的性能与高级胚胎学家进行了比较。结果表明,ERICA的准确度为78.9%,两位高级胚胎学家的准确度分别是63.1%和70.7%,ERICA 表现更出色。这意味着ERICA 算法可以成为医生的有力工具,提供更客观和准确的胚胎质量评估。ORMANN 等[7]评估了深度卷积神经网络(convolutional neural networks,CNN)使用人工授精后113 h 收集的胚胎的单时间点图像进行训练,并观察到在选择可用的最高质量胚胎方面的准确率高达90%。此外,经过训练的CNN 直接使用一组97 个整倍体胚胎来评估胚胎植入潜力,其表现优于来自5 个不同生殖中心的15 名胚胎学家(75.26%vs.67.35%,P< 0.000 1)。LOEWKE 等[8]以5 923 个移植的囊胚和2 614 个非移植的非整倍体囊胚的静态图像测试,表征DL 模型对囊胚期胚胎的排序,得到了较高的曲线下面积(AUC),在0.6~0.7 之间,表明模型预测能力尚可,同时在整体和每个时间点的基础上均优于手动形态学分级。与手动分级相比,使用该模型将妊娠率提高了5%~12%。FITZ 等[9]评估了胚胎学家在使用和不使用DL 算法的帮助下选择最高质量的第5 天整倍体囊胚方面的表现,14 名胚胎学家完成了两项评估:提供模型预测结果的胚胎学家在73.6%的病例中选择了成功植入的胚胎,而仅使用视觉评估选择的病例为65.5%(P< 0.001);此外,所有胚胎学家均在算法的帮助下提高了选择胚胎的成功率,平均提高了11.1%(范围从1.4%~15.5%)[9]。在一项来自独立验证测试的单中心大型队列回顾性研究中,使用已知妊娠结局的数据集进行DL 模型的建立,比较分析此前构建的基于DL 的无注释胚胎评分系统iDAScore 在冻融周期单囊胚移植(single vitrified-warmed blastocyst embryo transfer, SVBT)后妊娠预测的性能,并与其他依赖注释或形态学评分的胚胎评分系统的性能进行比较,选择接受SVBT 周期的患者(3 018 个周期),该系统AUC 在所有年龄组中都是最高或等于最高,表明模型预测能力最强,虽然仅在最年轻的年龄组中观察到显著差异,但仍然可以得出结论,该DL 模型与更传统的胚胎评估或依赖注释的工具一样好,甚至更好[10]。VERMILYEA 等[11]使用从标准光学显微镜系统获得的第5 天囊胚的单个静态图像,对2011~2018年间来自3个国家的11个试管婴儿中心的8 886 个独立的图像和临床数据,训练了一个基于人工智能的Life Whisperer AI 模型,用于预测是否活胚胎,该模型对活胚胎的敏感性为70.1%,而对非活胚胎的特异性为60.5%,综合准确率为64.3%,使用该模型后,胚胎学家的准确率提高了24.7%(P= 0.047)[11]。

以上研究DL 的应用均表现出显著优势,可以对胚胎形态学分析、排序,并结合妊娠结局的预测,帮助胚胎学家选择最佳胚胎,提高技术人员工作效率,并且不需要昂贵的延时设备或可能影响胚胎发育的侵入性活检。

1.2 DL 基于胚胎延时摄影(time-lapse,TL)动态图像的胚胎评估及选择TL 技术是一种新型胚胎培养与胚胎实时观察技术。与需要将胚胎反复取出培养箱且只能在特定时间点静态观察胚胎的常规培养相比,TL 培养系统既能保证足够稳定的胚胎培养环境,又能提供全面的胚胎发育动态信息,有利于改善胚胎质量,并能选择出更具发育潜能的胚胎,提高IVF 妊娠结局[12]。近年来,为了达到弱化胚胎学家选择的高度主观性、提高选择效率的目的,许多研究将DL 与TL 结合以自动化该过程,取得了不错的进展。

KRAGH 等[13]通过延时成像自动对人类囊胚的形态外观进行分级,训练CNN,以从单个图像帧联合预测内细胞质量(ICM)和滋养外胚层(TE)等级,并在顶部应用递归神经网络以合并来自多个帧的膨胀胚泡的时间信息,该方法达到了高于人类胚胎学家水平的准确性[13]。LEE 等[14]研究人员通过690 组延时视频图像,结合胚胎植入前非整倍体遗传学检测(preimplantation genetic testing for aneuploidy, PGT-A)结果,用于区分整倍体与非整倍体胚胎,最终该DL 模型测试数据集(138 个视频)的AUC 为0.74,表明模型具有较高的预测能力。HUANG 等[15]研究了U-Net 架构从未经编辑的延时图像文件中区分囊胚的细胞区域,以用于选择单个囊胚进行移植,该平台被回顾性地应用于来自101 个移植的单个胚泡的延时文件,这些胚泡通过使用10 h 扩增试验并在队列中的最高扩增排名,前瞻性地选择用于移植。最终,该平台在35 个未经活检的单个囊胚移植中有23 个(65.7%)活产;在66 个单整倍体囊胚移植中,也因其最强劲的扩张而被选中,其中49 个(74.2%)活产。研究团队[14]实现了对延时图像中的囊胚细胞区域的自动分割和识别,表明DL 模型有望提高植入成功率,增加患者成功受孕的机会,并强调了前瞻性选择的重要性,更好地预测囊胚的发展潜力。在预测妊娠结局方面,HUANG 等[16]回顾性分析了胚胎样本的延时数据,使用初始学习率为0.025 的SGD优化器和余弦学习率降低策略来预测活产结局,结果表明此DL 模型在5 倍分层交叉验证中表现出了出色的性能,AUC 达到0.968,表明它能够高度准确地通过延时视频来预测活产。TRAN 等[17]对2014 年1 月至2018 年12 月期间来自4 个不同国家的8 个不同IVF 中心的10 638 个胚胎的延时视频和临床妊娠结局进行回顾性分析,建立的DL模型能够通过延时视频预测临床妊娠,并且在5 倍分层交叉验证中取得了相当高的AUC,达到了0.93,进一步证明了DL 在胚胎优选中的价值。

以上研究表明,DL 模型与延迟成像系统结合,可用于分级囊胚形态、区分整倍体和非整倍体胚胎,自动分割囊胚细胞区域,并预测妊娠结局。这些创新有望提高植入成功率,增加患者成功受孕的机会,减少主观性评估的依赖,对辅助生殖技术领域具有潜在重要价值。

2 DL 结合胚胎图像与临床特征的胚胎优选、妊娠结局预测

与单纯使用显微镜下胚胎图像或延时视频训练DL 模型不同,有的研究将胚胎图像与临床特征如母亲年龄、抗缪勒管激素AMH 等结合,进行多维度的分析,以期建立准确度更高的临床预测模型,预测妊娠结局,优选胚胎。DUVAL 等[18]使用3D-CNN 预测临床妊娠,分别建立了一个胚胎视频数据模型和一个胚胎视频与临床特征提升算法的混合模型,结果表明这个混合模型的性能明显优于仅使用视频模型的性能,AUC 分别为0.727 和0.684(P= 0.015),这意味着该混合模型可以更准确地预测临床妊娠。VICTORIA等[19]的研究旨在探讨CNN、支持向量机(SVM)和多层神经网络(NN)与临床特征参数相结合,是否能提高DL 模型预测非整倍体的准确性。使用699 个囊胚的数据,CNN被训练用于分类整倍体/非整倍体,同时使用SVM和NN 处理患者特征。结果显示,当仅使用CNN评估囊胚图像时,整倍体/非整倍体胚胎的分类准确度为61.2%,在将CNN 的最佳模型与患者临床参数相结合(投票集成)后,准确度分别提高到65.0%(结合AMH)、66.4%(结合母亲年龄)、65.7%(结合母亲年龄与AMH)、66.4%[结合母亲的年龄、AMH 和正常受精(2PN)的胚胎总数]、71.4%(结合母亲的年龄、AMH、2PN 数量以及父亲的精子质量),这表明在将DL 模型与患者临床特征相结合时,模型预测能力取得了显著的提升。

以上研究将DL 模型与临床特征结合,可以进一步提高ART 中妊娠结局的预测准确性。这种综合多维度数据的方法有望进一步改善患者的治疗结果,并提供更全面的临床决策支持。

3 DL 在卵母细胞的评估及选择中的应用

高质量的卵母细胞是体外受精-胚胎移植(in vitro fertilization-embryo transplantation,IVF-ET)成功的重要前提。FIRUZINIA 等[20]开发了一个基于改进U-Net 模型的DL 网络,所提出的模型更准确地分割复杂和不规则的细胞质、透明带(zona pellucida, ZP)和卵黄周间隙(perivitelline space, PVS)结构。LIANG 等[21]使用三维超声(3D-US)建立了一种基于DL 的新型卵泡体积生物标志物,确定了卵泡体积的最佳临界值是0.5 cm3,用于预测成熟卵母细胞数,其性能明显优于常规方法(二维超声直径测量≥ 10 mm)。用于优化HCG 触发时间的前导卵泡体积的截止值确定为3.0 cm3,并且与成熟卵母细胞数量显著相关(P= 0.01),模型的准确性优于二维直径测量(AUC 0.890vs.0.785)。表明该模型不仅可以更准确地预测卵子的成熟程度,还可以进一步优化HCG 扳机触发时机。JIANG 等[22]对两个CNN 模型进行了3 个重复的训练、验证和测试,以确定用于指导胚胎学家执行显微操作程序的关键卵母细胞形态学标志。最终,CNN-卵母细胞胞浆内单精子注射(intracytoplasmic sperm injection, ICSI)模型具有高达98.9%的准确率;CNN-辅助孵化(assisted hatching,AH)模型准确率达到99.41%,表明模型在准确识别极体和最佳ICSI、AH 位置方面表现出色,应用潜力巨大。

以上研究表明,DL 模型训练以自动识别和评估卵母细胞的形态特征,有助于提高工作效率,减少了人为错误,能够对图像进行高度精确的分析,识别微小的形态学特征和细微的变化,从而提高诊断和评估的准确性。

4 DL 在精子的评估及选择中的应用

在我国ART助孕夫妇的不孕因素中,男性因素占36.62%,仅次于输卵管因素[23]。美国CDC 2019年度报告的不孕因素主要为卵巢储备功能下降(28.6%)、男性因素(27.5%)[24]。在处理IVF 人类的精液样本时,精子识别和选择是一项必不可少的任务,直接影响助孕结局。

4.1 DL 在精子识别中的应用LEE 等[25]训练了一个基于U-Net 架构的CNN,用于检测非梗阻性无精子症患者精液和显微外科睾丸精子提取(microTESE)样本中稀有人类精子,对于仅含精子的样本,算法在10 倍放大倍数下实现了91%的阳性预测值(PPV)、95.8%的灵敏度和93.3%的F1 评分;对于掺有大量精子的游离microTESE 样本,算法获得了84.0%的PPV、72.7%的灵敏度和77.9%的F1 评分;对于掺有稀有精子的游离microTESE样本,算法获得了84.4%的PPV、86.1%的灵敏度和85.2%的F1 评分。这些性能指标表示该CNN在不同样本类型下都能够有效地检测稀有人类精子,并且在仅含精子的样本中表现最佳,具有高的PPV、灵敏度和F1 评分。可能有助于提高在显微外科睾丸精子提取手术中非梗阻性无精子症患者的生育机会。

4.2 DL 在精子形态分析中的应用ABBASI 等[26]的研究关注分析精子形态特征的问题,提出深度多任务迁移学习(DMTL),它结合了基于网络的深度迁移学习和多任务学习,分辨形态异常的精子。该算法分析精子头部、顶体和液泡的准确率分别达到了84.00%、80.66%和94.00%,在DL 的应用下,分析精子的准确率显著提高。MARÍN 等[27]的研究采用两种DL 架构(U-Net 和Mask-RCNN)来分割人类精子的不同部分,如头部、顶体和细胞核,结果均取得了出色的成果[27]。RIORDON 等[28]的研究使用了VGG16 深度CNN,经过训练以用于精子分类,利用了两个免费可用的精子头部数据集(HuSHeM 和SCIAN),研究结果显示,这种DL 方法在高准确度下对精子形态进行分类表现出色,强调了人工智能技术有望在准确性、可靠性和吞吐量方面超越人类专家。JAVADI 等[29]研究创建了一个包含大量精子图像的数据集,并设计了深度神经网络,可识别精子头部、顶体和液泡的异常,结果表明,该DL 算法在形态异常检测方面具有高度准确性。VALIUŠKAITĒ 等[30]提出了一种基于区域卷积神经网络(R-CNN)架构的DL 方法,用于评估人类精液视频中的精子头部运动,在VISEM(人类精子的多模态视频数据集)精子样本视频数据集上实现了91.77%(95%CI:91.11%~92.43%)的精子头部检测准确率,精子头部活力预测的平均绝对误差为2.92(95%CI:2.46~3.37),而实际精子头部活力与预测精子头部活力之间的Pearson相关系数为0.969。

这些研究表明,DL 方法在精子形态和特征分析领域取得了显著的进展,具有潜力用于提高精子分析的准确性和效率,甚至有望超越人类专家的表现。这些技术对于生殖健康领域具有重要的应用潜力。

4.3 DL 在评估精子DNA 质量中的应用鉴于精子常规参数对于IVF-ET 助孕结局的评估价值有限,IVF 治疗过程中既往常忽视男性精子质量因素对胚胎发育潜能的影响,近几年精子功能检查指标精子DNA 碎片(sperm DNA fragmentation,SDF)引入临床检查后关于SDF 异常对胚胎发育潜能和IVF 助孕结局的影响多有报道[31]。在IVF 助孕过程中,如何准确评估精子DNA 质量开始受到研究者们的关注。MCCALLUM 等[32]研究展示了一种基于深度CNN 的方法,通过训练模型使用已知DNA 质量的精子图像预测精子的DNA 质量,结果显示,精子图像与DNA 质量之间存在中等程度的相关性,并且能够识别相对于中值而言DNA 完整性较高的精子,这种DL 选择过程与当前手工显微镜精子选择方法兼容,可以为临床医生提供快速的DNA 质量预测和精子选择。NOY 等[33]研究针对ICSI 过程中的DNA 碎裂问题,提出了一种新方法,利用多层次的无染色成像数据和轻量级DL模型来预测精子细胞的DNA 碎裂情况,通过染色和荧光显微镜成像获得DNA 碎裂的实际情况,预测模型基于MobileNetCNN 架构,结合了置信度测量,实验结果显示,对于高置信度预测的细胞,平均绝对误差很低,为0.05,表明这一方法有潜力用于改进胚胎学家在ICSI 中的细胞选择,从而提高受精成功率。

以上研究对于进一步优化ICSI 技术,提高患者的生育成功率,以及改进生殖医学的实践具有重要意义。DL 和图像分析技术为精子选择和质量评估提供了新的工具和方法,有望改善不孕症治疗的效果。

5 展望

近年来,随着计算机硬件水平的提升和算法水平的不断进步,AI 与DL 在医学领域的应用已经取得了显著进展。尽管当前研究已初步证明了DL 在ART 中的潜力,但仍然存在一些关键问题:需要更多前瞻性研究来验证DL 模型应用于临床的决策性能;DL 模型的构建通常需要大量高质量的数据进行训练以获得最佳性能,因此未来的研究方向应该致力于高质量的数据库建立;仅有少量研究将患者的个体化信息如年龄、激素水平等纳入数据集建模,未来研究应考虑纳入以上资料,以优化模型更好地应用于临床。此外,DL 在辅助生殖领域中的应用不是为了取代专业技术人员,而是协助他们做出更准确快速的临床决策,从而改善治疗效果、降低医疗专业人员的工作负担。我们期望DL 模型能够在临床应用中取得更高的可信度和稳定性,以协助胚胎学家做出最佳决策。在充分解决了上述问题后,DL 有望在ART 中发挥更重要的作用,改善ART 治疗计划,提高助孕成功率,提升临床及胚胎实验室工作效率,最终全面提升人口健康和素质,为国家的可持续发展做出贡献。

【Author contributions】HU Xi drafted the paper and wrote the paper according to the research ideas.LI Yan revised the article.LIU Yang critically reviewed the intellectual content of the article and improved the research ideas.All authors read and approved the final manuscript as submitted.

【Conflict of interest】The authors declare no conflict of interest.

猜你喜欢

整倍体囊胚精子
D5囊胚解冻后培养时间对妊娠结局的影响
冻融囊胚的发育天数和质量对妊娠结局的影响
荧光定量PCR技术在胎儿染色体非整倍体快速诊断中的应用
不同指征患者胚胎植入前非整倍体筛查的比较
精子求偶记
端粒酶在整倍体与非整倍体细胞中的表达差异
精子DNA完整性损伤的发生机制及诊断治疗
产前健康教育干预降低胎儿非整倍体染色体疾病的临床研究
一氧化氮在小鼠囊胚发育和孵化中的调控作用
新鲜周期和复苏周期囊胚培养及移植的临床结局分析