乳腺X射线摄影图像测评数据库相关要求的探讨
2021-12-31谷晓芳王颖马兆毅彭亮张宇晶杨鹏飞
谷晓芳,王颖,马兆毅,彭亮,张宇晶,杨鹏飞
1.国家药品监督管理局 医疗器械技术审评中心,北京 100081;2.国家卫生健康委能力建设和继续教育中心,北京 100091
引言
乳腺癌已经超越肺癌成为全球确诊患病率最高的癌症。据估计,2020年全球有230万乳腺癌新发病例和68.5万死亡病例[1]。医学影像诊断是乳腺癌鉴别和早诊的重要手段,进行乳腺钼靶(X射线)筛查,可降低诊断为乳腺癌后10年内的死亡率以及晚期乳腺癌的发生率[2]。相应的乳腺影像人工智能(Artificial Intelligence,AI)辅助决策技术也成为研究机构和企业的重点关注方向。通过对乳腺影像的自动化处理,利用AI技术辅助医师的诊断,可以减轻临床医师的工作负担,提高工作效率和诊断准确性[3]。
1 背景介绍
从20世纪90年代开始,计算机辅助诊断(Computer Aided Diagnosis,CAD)技术被应用于乳腺X射线诊断中,大量辅助工具被开发出来[4]。我国批准了若干应用传统CAD技术的辅助检测软件上市,该类产品通常用于放射科医生完成乳腺X射线图像初步判读之后进行疑似病变区域的识别和标记,不具备辅助诊断的功能。此类算法大多基于传统的CAD算法,没有深度网络,在实际应用中仍有不足[5-6]。
近几年,深度学习逐渐应用到乳腺影像辅助诊断领域,乳腺AI辅助诊断系统的诊断水平大幅提高[7]。有研究结果显示,AI软件对肿块、钙化、非对称和结构扭曲等病灶的检出敏感度高,且稳定性强,有望辅助临床医师减少漏检,在减轻医生工作负担的同时,提升临床对不同征象和BIRADS分类肿块检出的稳定性[6,8-9]。智能辅助决策系统的准确性和效率提高,可在筛查、诊断、确诊、治疗等多个诊疗环节发挥重要作用[10]。
2 国外乳腺X射线数据库介绍
乳腺X影像AI辅助诊断技术的发展依赖于规范的数据库,创建大型公共可用的高质量数据集,对于AI模型的测试和评估非常必要。
目前国际常用的乳腺X射线影像数据库有:乳腺 X 线数字图像数据集[11]、乳腺 X 线影像分析协会数据集[12]、数字乳腺数据集[13]、INbreast 全视野数字乳腺 X 线摄影[14]等。这些数据库仍有不足,例如有些数据是通过胶片扫描获得的,数据精度低,有伪影;有些数据格式不符合DICOM规范;有些数据库数量偏少,只有几百例;亚洲女性致密性腺体数据少等。目前多用于教学和科研和算法的评估仍有很多不足之处[10]。
中国目前没有公共可用的数据集,有部分从事乳腺影像辅助诊断系统研发的公司有自己的乳腺数据集,部分公立医院也建立了医院内部的诊断数据集,但通常不具备大量的已标注数据。这些数据集并没有统一的标准和要求,制定数据集的采集、标注、质控等规范和要求,可以促进AI技术在乳腺疾病辅助诊断领域的应用和发展。
3 乳腺X射线数据库建设的基本要求
构建大型公共可用的测试数据集,除满足数据库通用要求(如数据管理、网络安全与数据安全、可扩展性等)外,还应满足以下专用要求:权威性、科学性、规范性、多样性、封闭性和动态性[15]。数据集构建过程中应考虑伦理和患者隐私保护要求、数据分布要求(患者人群分布、地域分布、流行病学特征分布、病灶特征分布等)、采集过程要求、数据脱敏清洗要求、数据标注和质控要求等。
3.1 伦理要求
数据库使用的X射线摄影图像原始数据的收集应通过伦理委员会的批准,或者属于豁免的临床脱敏数据。包括原始图像、用于统计用途的年龄、月经史、生育史、家族史等流行病学信息,以及其他相关的临床数据和信息资料(如病理结果、诊断报告等)。患者隐私保护、补偿等应当满足相关法规的要求,如有必要应获取患者签订的知情同意书。
3.2 数据分布要求
数据集应具有充分的多样性,以提高数据集的代表性和权威性。应考虑不同人种、不同地域、不同临床机构、不同流行病学特征、不同采集设备的差异。结合乳腺X射线数据临床诊断经验,还应该考虑乳腺腺体密度,病灶类型、BI-RADS分级等因素。为了降低数据集的覆盖偏倚,在数据集的构建过程中需尽可能考虑多维度的要求。
3.2.1 地域分布
国家癌症中心公布的数据显示,2015年中国女性乳腺癌新发病例为30.4万例,不同地域女性乳腺癌发病率存在差异,总体为城市乳腺癌发病率(54.3/10万)高于农村(33.6/10万),不同地区之间女性乳腺癌发病率也存在差异(东部地区>中部地区>西部地区)[16]。在构建数据库时应考虑地理区域分布、城市/农村分布、采集医院等级分布等,设置合理的分布比例,更好地模拟实际发病情况。
3.2.2 临床机构分布
为保证数据来源的多样性,数据分布的科学性和合理性,在选择数据集采集的临床机构时,需考虑覆盖多种场景,如体检、筛查、门诊与住院等,尽可能来源于多家、多地域、多层级的代表性临床机构。
3.2.3 流行病学特征分布
据国家癌症中心数据显示,女性乳腺癌的发病率从30岁左右开始呈上升趋势,乳腺X射线检查主要集中在35岁以上的群体。2015年我国女性45岁起乳腺癌发病率呈上升趋势,且维持在较高水平(图1)。2000年至2014年各年份肿瘤登记地区的女性乳腺癌年龄发病率分析结果显示,各年龄组女性乳腺癌发病率均有所上升,乳腺癌发病高峰年龄主要集中在50~59岁[17]。构建数据集时需重点考虑各年龄段人群入组情况,不同年龄段设置合适的比例,发病高峰年龄段适当增加人群占比。除年龄因素外,还应综合考虑月经史、生育史、家族史等流行病学信息。
图1 2015年所有登记区域内女性乳腺癌年龄别发病率(数据来源国家癌症中心)
3.2.4 乳腺病灶相关特征分布
腺体密度根据BI-RADS标准分为A、B、C、D四种类型,亚洲女性致密型腺体相比于欧美女性占比更多,采集的数据应尽可能满足国内人群的自然分布。乳腺诊断通常依据BI-RADS标准,病灶的BI-RADS 分布要尽可能均衡,良恶性病灶都包含,覆盖肿块、钙化、非对称致密、结构扭曲等病灶类型,同时要收集足够的阴性病例。阳性病例的比例、BI-RADS分级、病灶类型的比例在构建数据库都应作为考虑因素,并有合理的设定依据。
3.3 数据采集及质控要求
3.3.1 采集信息要求
采集信息通常包括患者数据和采集数据两部分。患者数据包括一般资料(年龄、性别、身高、体重、地域等),临床资料(病史、月经史、生育史、哺乳史、家族史等)、影像报告、病理报告等。采集数据包括医院信息、人员信息(采集人员、标注人员、质控人员等信息)和设备相关信息。
3.3.2 采集设备与采集参数要求
采集设备应取得中国境内上市批准,并满足相关标准要求。考虑采集设备的兼容性要求和采集参数的设置要求。同时应考虑不同品牌、不同机型的差异。采集设备应选择具有一定代表性的制造商和型号规格。采集参数的设置应符合临床采集规范。采集特征应考虑采集设备的采集方式(如常规成像、增强成像、DBT成像)、采集协议、采集参数(如CT加载电压、加载电流、加载时间、层厚)、采集精度(如分辨率、采样率)等要求。
3.3.3 采集过程要求
采集过程要求包括人员管理、采集流程、采集质量评估等要求。人员管理应考虑采集人员的工作年限、工作经验、所在机构等要求。同时,应对参与数据采集的人员进行选拔、培训和考核,培训内容主要包括采集设备知识、采集步骤、操作要求、采集参数设置等。制定采集流程操作要求,包括采集步骤、拍摄体位、参数设置要求等。建立采集质量的评估要求,包括评估方法、评估指标和通过标准,例如扫描体位是否规范、扫描范围是否合理、图像是否存在伪影遮挡、数据扫描是否完整等。
3.4 数据脱敏与数据清洗要求
3.4.1 数据脱敏
为保护患者隐私,数据应进行脱敏。图像本身、头文件、附属文件以及数据集的元数据中均不应包含与患者隐私有关的任何信息。患者个人信息、医保信息、活动轨迹、经济社会状况、家庭情况、财务信息等个人隐私不得搜集和显示。
3.4.2 数据清洗
数据清洗的目的是根据图像质量要求,对图像进行检查和确认,去除不合格数据。图像的质量要求一般包括影像数据一致性检查、单个文件的完整性、去除重复数据、最佳影像选取等。数据脱敏和清洗应选择合适的工具,考虑其运行环境,并验证其符合性。制定合适的脱敏/清洗规则,如脱敏类型(如静态、动态)、程度、方法,数据预处理需考虑处理的方法:如滤波、增强、重采样、尺寸裁剪、均一化等。
3.5 数据标注及质控要求
数据标注是数据质控的关键环节,应建立数据标注操作规范,明确标注人员要求、标注设备和环境要求、标注过程要求、标注质量评估要求等。
3.5.1 标注人员
标注医师又分为标注人员、审核人员和仲裁人员。其中,标注医师的资质建议要求为临床医学、医学影像等相关专业,具备一定阅片经验。仲裁人员应有丰富的阅片经验,由比标注人员和审核人员更权威的人员担任。标注医师应接受培训,熟悉统一的标注规则,并且熟练掌握标注软件的操作。
3.5.2 标注设备和环境
应考虑标注的场所、环境条件、标注设备和标注软件等要求。标注场所可考虑真实场所或模拟场所,考虑空间、照明、温度、湿度等影响因素。标注设备应考虑显示器的分辨率要求。自动标注软件应满足网络安全要求、数据保护等要求,使用前需进行软件确认。自动标注结果不得直接使用,应由标注人员审核后方可使用。
3.5.3 标注流程
为提高标注结果的准确性,避免偏倚,标注流程可多轮次多人标注或多轮次分组交叉进行。设置审核环节,由审核人员对检出病灶和分类结果进行审核修改,纠正漏诊、误诊和误判。如果遇到疑难问题或出现分歧时,由仲裁人员进行仲裁,必要时可由专家进行集体讨论确认。主要标注内容包括病灶区域标注、腺体密度分类、病灶类型和特征、象限深度标注以及典型良性钙化和伴随征象标注(图2)。
图2 数据主要标注内容
3.5.4 标注要求
需要根据乳腺X射线阅片规则,对双侧乳腺的4个体位独立观察。由于乳腺结构的特殊性,X射线摄影很难在单一体位将乳腺组织全部包括,因此标准的乳腺X射线摄影数据为每侧乳腺2个体位,对病灶的标注需在2个体位分别进行。同时由于两侧乳腺结构大致对称,需要对双侧乳腺对称观察,如果仅利用单侧图像进行病灶检测,则可能会遗漏小的病灶或将正常腺体组织误诊为病灶。
(1)病灶区域标注。根据乳腺不同病灶的影像特征,进行病灶区域的轮廓标注。
(2)腺体密度分类。乳腺X射线摄影中病灶的检出与乳腺腺体类型密切相关,不同腺体分型会影响乳腺癌检出的敏感性,准确地判断乳腺腺体类型对于临床医生理解图像的诊断结果具有重要意义。参照BI-RADS标准,分为A、B、C、D四种类型。
(3)病灶类型和特征标注。ROI区域的勾画:尽可能贴近病灶边缘轮廓进行勾画,对于无明确边缘的病灶需要尽量勾画出病灶区域。病灶类型:参照BI-RADS标准分为肿块、钙化、结构扭曲和非对称致密。对于肿块病灶需要考虑其大小、形状、边缘、密度等信息;对于钙化病灶,常常单独或者伴随其他征象出现,其中微小乳腺癌接近一半是因为其特殊的钙化征象被乳腺X射线探及,因此分析乳腺钙化特点具有重要的临床价值。非对称致密需要进一步判读其具体的类型,对于判断是否有乳腺癌具有重要的意义。考虑不同腺体类型对病灶标注有影响,例如我国女性的不均匀致密型和致密型乳腺比例较高,容易对肿块、结构扭曲以及非对称致密等病灶造成遮挡,导致病灶检出的假阴性率升高,必要时可以用超声和核磁共振作为补充检查措施。BI-RADS分级:对病灶的形态进行良恶性判断,之后给出病灶的BI-RADS分级。病灶尺寸标注:可由标注软件自动给出病灶的尺寸,最后由标注人员确认。
(4)象限深度标注。结合BI-RADS指南,对病灶的深度与象限进行标注。
(5)典型良性钙化与伴随标注。孤立的典型良性钙化需进行标注;伴随征象如腋窝淋巴结肿大、皮肤回缩、皮肤增厚、乳头回缩等对于临床诊断有一定的参考价值,为保证数据集标注的全面性,伴随征象也需要进行标注。
3.5.5 标注质量评估
应建立标注质量评估要求,包括评估人员、评估方法、评估指标、通过准则等。依据评估标准对数据标注的质量进行评估,例如标注的准确性、规范性等。
3.6 数据集的封闭性和动态性
为保证测评数据集的数据质量,保证算法性能评价的客观性、公正性、公平性,应考虑数据集的封闭性和动态性要求[15]。封闭性:测评数据和测试活动库应封闭管理,样本总量需远大于单次测试样本量;动态性:测评数据库应定期更换一定比例的数据样本,以保证其具备持续的多样性和封闭性;数据更换的频率、比例需有确定依据,并满足规范性要求。
3.7 数据质量管理要求
为保证数据集的质量,数据构建者应对数据集的质量进行评估和风险分析并形成研究资料,作为后续管理和使用的客观依据。数据集建立过程中的设计考虑、采集过程及质控要求、数据脱敏和清洗要求、标注过程及质控要求等均建议形成文档记录,便于后续数据集质量的评估,同时为后续数据集的使用和管理提供方便。
4 总结
AI辅助临床医生对影像进行诊断,对于提高医生的诊断准确率和效率,有积极的作用。乳腺AI产品研发难度高,标注复杂,有许多挑战。目前乳腺AI辅助诊断领域的产品相对较少,仍没有正式批准上市的产品。国外的公开数据库存在诸多问题,迫切需要针对我国实际情况建立规范的乳腺X射线测评数据集,为产品使用人员、监管人员等提供数据支持,从而促进行业持续健康发展。