基于2015版尘肺病诊断标准影像报告及诊断分期的一致性研究

2021-04-13张雅娟曾凤霞陈卫国秦耿耿

实用医学杂志 2021年6期

张雅娟曾凤霞陈卫国秦耿耿

南方医科大学南方医院放射科（广州510515）

肺尘埃沉着病即尘肺病，是特定人群在职业活动过程中持续吸入二氧化硅和其他生产性粉尘或灰尘，在肺内潴留，形成以弥漫性纤维化（瘢痕）为主的肺部疾病［1-3］。尘肺病是目前危害最严重、影响最大的一种职业病［4-5］。目前国内主要采用的是中华人民共和国《GBZ 70-2015 职业性尘肺诊断》诊断标准［6］，这是一套与国际接轨又具有中国特色且较为完善的尘肺病诊断体系，利用小阴影的密集度及肺区的分布范围等指标对尘肺病进行分期，分为Ⅰ、Ⅱ、Ⅲ期，所有标准细则都是以X 线胸片为诊断依据，是粉尘作业工人健康监护的常规方法，对规范解读尘肺病的分期具有重要意义。

在尘肺病的诊断过程中，所谓阅片者内部差异性和阅片者间差异性，是指不同的个人或集体，按照规范的流程和一致的诊断标准进行诊断，仍存在差异性，即使间隔一段时间后同一阅片人或集体对同一胸片的诊断也可能出现不同的结论［7-8］。本研究通过回顾分析不同年资医师采用GBZ70-2015 版评估标准对980 例不同分期的尘肺X 胸片进行分期诊断的一致性，探讨诊断结果的可重复性及原始报告对尘肺分期评估的可靠性，同时通过分析阅片差异性的程度及因素，探索如何降低尘肺影像学分期的差异性，进一步提高尘肺病分期诊断的准确率及一致性，为筛查工作做进一步的指导补充。

1 资料与方法

1.1 一般资料收集广州市第十二人民医院2016-2019年行尘肺筛查的病例共980 例，胸片质量均为三级以上。其中女35例，男945例，年龄23～77岁，平均年龄（43.78±3.57）岁，接尘工龄1～40年，平均时间（20.56 ± 2.50）年。纳入标准：具有尘肺接触史的特定人群；尘肺患者影像诊断达到尘肺分期标准及具有尘肺接触史但没有尘肺患者；标准摄影体位图像；图像质量清晰，符合诊断阅片要求。排除标准：肋骨及胸椎骨折或矫正金属植入术后；肺肿物切除术后∕放化疗后；无尘肺接触史的粟粒性肺结核患者，附加体位图像及质量不符合阅片要求的图像。

1.2 方法

1.2.1 检查设备采用西门子Axiom Aristos 悬吊式直线X 线双平板数字成像系统（DR），拍摄标准胸部正位片，采用自动曝光模式。

1.2.2 分析方法参照《职业性尘肺病的诊断》GBZ70-2015 进行分期（图1）：0 期（图1A）、Ⅰ期（图1B）、Ⅱ期（图1C）、Ⅲ期（图1D）。二分类即将0 期定义为正常组；Ⅰ、Ⅱ、Ⅲ期定义为尘肺组。由3 名不同年资（低、中、高，诊断经验分别大于5、10、15年）的尘肺影像诊断医师独立阅片，评估尘肺病影像学分期。收集3 名医师的初步评估结果，记为R1、R2、R3；提取各病例原始报告中的分类并标记为Report；由3 名医师共同阅片达成一致的分期为相对金标准，记为Major。

1.2.3 阅片方法参照《职业性尘肺病的诊断》GBZ70-2015 进行双盲阅片，由3 名不同年资医师独立阅片，并使用统一表格记录阅片结果（表1），3 名不同年资医师一致的结果即为最终的结论。

图1 《职业性尘肺病的诊断》GBZ70-2015 分期示意图Fig.1 Diagnostic diagram of occupational pneumoconiosis by GBZ70-2015

表1 尘肺读片记录表Tab.1 Pneumoconiosis reading sheet

1.3 统计学方法采用SPSS 20.0 软件进行统计分析，采用Cohen′s kappa 检验评估分类的一致性，包括阅片者与相对金标准间的一致性，原始报告与相对金标准的一致性，采用准确率来评估各阅片者分期的准确率。Kappa 值的评价标准参考Altman指南，Kappa ＜0.4为一致性较差，0.4 ≤Kappa＜0.75 为一致性中等，Kappa ≥0.75 为一致性较好，P＜0.05 为差异有统计学意义。

2 结果

2.1 尘肺DR影像按《职业性尘肺病的诊断》GBZ70-2015标准分期结果各观察者与原始报告（Report）基于《职业性尘肺病的诊断》GBZ70-2015 的尘肺分期结果见表2。与相对金标准（Major）相比，原始报告有88 例低估为正常类，R1 与R3 分别有53 例与23 例高估为尘肺类。

表2 各观察者与原始报告基于《职业性尘肺病的诊断》GBZ70-2015 的尘肺分期Tab.2 Pneumoconiosis staging of observers and original reports based on“diagnosis of Occupational Pneumoconiosis”GBZ70-2015

2.2 各观察者与原始报告对尘肺X 线分期的评估效能评估效能以Major 为相对金标准，各观察者及原始报告的分类准确率见表3，四分类方法中三名医师分类准确率均＞80%，原始报告的分类准确率偏低，为68.77%；二分类方法，3 名医师及原始报告的分类准确率均＞80%。

各观察者分类结果与相对金标准的一致性见表4，四分类方法R1 与相对金标准为一致性较好（kappa=0.745），R2、R3 与相对金标准的一致性几乎完全一致（Kappa= 0.836、0.896），原始报告的一致性中等（Kappa = 0.583）；二分类的方法中R1 与相对金标准一致性中等（Kappa = 0.714），R2、R3与相对金标准的一致性均几乎完全一致（Kappa =0.819、0.897），原始报告的一致性中等（Kappa =0.599），差异均有统计学意义（P＜0.001）。

各观察者及原始报告与相对金标准的不一致结果见表5，四组分类的不一致主要集中在正常∕I期与Ⅰ∕Ⅱ期分类差异上。差异性最大影像特征特主要是Ⅰ期及Ⅱ期的小阴影形态及总体密集度、肺区分布，见表1-6，其中符合率最低的为小阴影形态，主要体现在低、中年资医师在Ⅰ期及Ⅱ期的判定，符合率分别为43.3%、54.1%。

表3 各观察者及原始报告的分类准确率Tab.3 Classification accuracy of each observer and original reports 例（%）

表4 各观察者及原始报告分类与相对金标准（Major）的一致性Tab.4 Consistency of individual observers and original reports classification with relative gold standard（Major）

表5 各观察者及原始报告分类与相对金标准（Major）的不一致率分布Tab.5 Inconsistent rate distribution of each observers and original reports classification with relative gold standard例（%）

2.3 观察者间尘肺分期的一致性分析四分类方法R1-3 的观察者间一致性较好（总体Kappa =0.765），两两一致性均为高度一致性，二分类方法R1-3 的观察者间一致性较好（总体Kappa =0.760），两两一致性近乎完全一致（0.813 ～0.920），差异有统计学意义（P＜0.001）。见表7。

表6 各观察者各期之间差异性较大的影像特征阅片结论符合率Tab.6 The coincidence rate of the conclusion of reading the image features with great differences among the observers in different periods%

表7 观察者间尘肺X 线分期一致性Tab.7 Interobserver consistency in X-ray staging of pneumoconiosis

3 讨论

1916年，南非制定了最早尘肺分类法。1930年国际劳工组织希望达成一个国际分类标准，经过多次会议讨论、修改，在1950年形成了尘肺分类的雏形［9］。1980年国际劳工组织利用X 线影像对尘肺进行分类的这一方法被世界广泛接受［10］。1963年我国出台了第一版《矽肺X 线分期及其诊断标准》，并不断引入一系列国际上通用的专业术语，先后进行了5 次修订。最后一次修订为《职业性尘肺病的诊断》（GBZ70-2015），2016年5月1日正式实施并首次提出将数字化X 线摄影（DR）应用到尘肺诊断中。THOMAS 等［11］将国际上使用的尘肺诊断标准为《国际劳工组织尘肺分类》同中国使用的1986 版《尘肺X 线诊断标准及处理原则》进行阅片比较，中国阅片医师之间的差异与美国阅片医师相似，都在可接受的范围内，因此认为我国出台的尘肺标准同国际版的尘肺诊断标准可相媲美［12-13］。

以往研究表明，尘肺病诊断阅片中阅片医师之间及阅片医师前后阅片均存在差异性［14］。根据相关学者研究证实，不同医师对尘肺病分期标准掌握程度及经验的不同，即专业水平的不同，对尘肺病影像学分期结果具有一定的影响。美国从1970年开始，要求所有的尘肺病影像诊断医师通过国家职业安全与健康研究所（NIOSH）组织的标准化读片考试，并取得阅片资格证书，方可执行尘肺病诊断工作。同时为了保持阅片医师的阅片能力，控制误诊漏诊率，需不断进行培训、测试。尘肺病分期主要体现在对小阴影的形态、总体密集度、小阴影聚集及有无大阴影的正确判定。

本研究主要分析不同年资医师对尘肺病影像学分期诊断的差异，并探讨产生差异的原因。不同年资医师在尘肺分期的结果显示低年资医师与相对金标准的一致性中等，中、高年资医师与相对金标准的一致性较好，而原始报告的准确率偏低，一致性较差。同时数据表明差异性主要集中在有无小阴影、Ⅰ期及Ⅱ期分期，而Ⅲ期分期的一致性较好，与其他研究结果一致。张镏琢等［15］对163 例不同分期的尘肺患者进行小阴影总体密集度、小阴影聚集和大阴影判断，结果显示小阴影大小及有无小阴影聚集的总体一致率为65.85%、87.80%，对大阴影的判断一致率在90%以上，表现为中等或高度一致性，对小阴影大小的判断一致性中等。邢军等［16］对尘肺病医生诊断结果考核分析得出高年资医师的符合率79.3%，大阴影的符合率为91%，中年资医师符合率为67.3%，其诊断符合率及各项指标得出高年资医师均高于中年资医师，这与本研究结果相符。本研究中小阴影的形态差异性最大，符合率较低，特别是Ⅰ期及Ⅱ期在低、中年资医师中符合率分别为43.3%、54.1%，主要是各小阴影之间存在交叉、重叠，不规则小阴影会误判为圆形小阴影，圆形小阴影的边界清、密度均匀，不容易误判为不规则小阴影。因此小阴影的形态、特征、细节的判定的误差在所难免，对小阴影的密集度及肺区分布目前尚缺乏定量指标，小阴影的数量不到肺区面积的三分之二，有时一个肺区达标后，另一个肺区容易强化，这与经验及标准片的掌握有关，以上相关尘肺影像特征细节的判定均影响最终诊断期别的判定。推测可能原因是低年资医师未取得尘肺诊断资格证及个人经验相对不足，对尘肺诊断期别判定低于中、高年资的医师，中高年资医师对分类判断及细节评估的能力较强，且中高年资医师已具有尘肺诊断资格及丰富的工作经验，具有较高的专业水准，诊断结果比较可靠，因此一致性较高。而原始报告一致性较低主要是来源不同层次的医师。低、中、高年资医师对大阴影的判断一致性均较高，三名医师组间一致性较好（总Kappa = 0.765）。在全国职业病医师指定教材《尘肺病》统计一组专家在阅片中的数据显示，经验不足和丰富的医生之间读片差异率可达到75.6%。根据《职业性尘肺病的诊断》（GBZ 70-2015）标准，做出正确诊断分期前提是依据小阴影总体密集度和各肺区的分布的局部细节。为了防止长时间阅片及诊断标准的更新未知悉导致对小阴影的判定发生改变，因此我们推荐在进行集体阅片时应时刻同标准片做对比［17］，同时熟练掌握和运用《职业性尘肺病的诊断》。日常阅片中发现尘肺病患者常伴发慢性阻塞性肺疾病、肺结核，胸膜斑、肺癌等并发症，在慢性阻塞性肺疾病基础上伴有小阴影在胸片上难以显示，肺结核会掩盖大阴影的征象，同时影响对大阴影的判定［18］，同时在这次阅片实验中发现肺癌伴发癌性淋巴管炎的影像征象同尘肺小阴影影像征象类似，影响判断，胸膜斑在X 胸片难以显示，这些均是导致差异性大的相关因素，阅片统计过程中发现尘肺患者接尘工龄与诊断期别高低不存在正相关性，反而期别高接尘工龄短，与工种也存在一定关系。

本研究中还存在一些不足，本研究中设计缺乏组内一致性的评价仅是组间之间的一致性评价，在后续研究中将会加以补充，其次DR 胸片存在小阴影与肺内血管、气管等组织截面的重叠或交叉，特别在两肺中肺区表现尤为显著，影响诊断的准确率。

综上所述，尘肺DR 影像诊断是尘肺筛查的重点，《职业性尘肺病的诊断》（GBZ 70-2015）是目前临床使用最广泛的标准，为尘肺患者早发现、早诊断、早治疗提供重要信息。本研究结果可见，尘肺病诊断分期一致性方面尚具有进一步改进的余地，因此为提高尘肺诊断的一致性，减少误差率，可采取如下措施：临床为了增加阅片医师的诊断准确率可进行尘肺诊断标准的推广和尘肺阅片的训练增加观察者的经验，在阅片过程中结合相关职业病史，或可以结合HRCT，CT 可以纠正或弥补DR 胸片的不足，亦或是利用计算机技术制定人工智能标准［19-20］，开发基于《职业性尘肺病的诊断》（GBZ70-2015）的自动分类工具，减少观察者的差异性，以达到更好的尘肺分期的可重复性和准确性。