大数据分析:利用R语言对乳腺癌HER-2免疫组化进行质量控制
2020-07-18汤永飞胡继昌黄亚冰袁静萍
汤永飞,胡继昌,黄亚冰,袁静萍
R语言作为一种开源的统计分析语言,其提供了丰富的数据统计和字符串处理功能,将其运用于病理科的临床信息分析,将帮助我们更好的服务临床。本实验运用R语言可对乳腺癌中HER-2免疫组化染色进行质量控制,以便进一步提高病理诊断准确率。
1 材料与方法
1.1 研究对象收集武汉大学人民医院病理科2015年6月~2018年3月临床病理信息库中行HER-2免疫组化或FISH检测的所有乳腺癌病例。合计1 192例乳腺癌HER-2免疫组化检测结果与977例FISH检测结果,其中857例同时进行了免疫组化和FISH检测,有24例HER-2(2+)缺少FISH检测记录。由于857例乳腺癌标本均进行FISH的全检测模式,因此入组病例并不具有特定的选择性。
1.2 检测方法及判读标准乳腺癌HER-2免疫组化检测采用罗氏公司BenchMark GX全自动免疫组化染色系统,一抗、二抗、DAB显色系统均由罗氏公司提供。乳腺癌HER-2的FISH检测采用安必平公司HER-2探针。判读标准采用中国乳腺癌检测指南(2013版)。
1.3 统计学方法及过程病理科的检测报告含有大量的文本信息,如何将这些文本信息提取出来,便于统计学分析一直是个问题。文本提取是将文本信息中的所需要的信息进行提取。R语言的stringr包为我们进行文本提取提供了巨大的帮助。
下面简单介绍本实验使用R语言进行文本提取的一个例子(图1)。
图1 乳腺癌HER-2 FISH检测数据库
(1)首先保证Execl表中每例患者的信息一一对应。
library(stringr)
library(dplyr)
fish1=read.csv(“C:UsersasusDesktopfish1.3.csv”)
fish6<-fish1[“诊断意见”]
%>%unlist()%>%substr(1,13)%>%str_split(“”)%>%unlist()%>%grep(pattern=“HER-2基因”,value=T)
......
用上述的方法即可提取出文本所需的字符串。
(2)对提取的信息进行基本的数据分析。
(3)找出异常点:
①异常点1<-subset(HER4,her12==“0”& Freq>=“3”)
#免疫组化HER-2结果为0,出现的频数≥3
②异常点2<-subset(HER4,her12==“3+”& Freq>=“3”)
#免疫组化HER-2结果为3+,出现的频数≥3
③异常点3<-subset(HER,her12==“3+”&癌的分型15==“乳腺黏液癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺黏液癌
④异常点4<-subset(HER,her12==“3+”&癌的分型15==“乳腺浸润性小叶癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺浸润性小叶癌
⑤异常点5<-subset(HER,her12==“3+”&癌的分型15==“乳腺浸润性小管癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺浸润性小管癌
⑥异常点6<-subset(HER,her12==“3+”&癌的分型15==“乳腺浸润性筛状癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺浸润性筛状癌
⑦异常点7<-subset(HER,her12==“3+”&癌的分型15==“乳腺化生性癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺浸润性化生性癌
⑧异常点8<-subset(HER,her12==“3+”&癌的分型15==“乳腺浸润性髓样癌”)
#免疫组化HER-2结果为3+,乳腺癌的组织学分型为乳腺浸润性髓样癌
⑨异常点9<-subset(THER30,her12==“0”&fish6==“HER-2基因扩增”)
#免疫组化HER-2结果为0,FISH结果为HER-2基因扩增
⑩异常点10<-subset(THER30,her12==“1+”&fish6==“HER-2基因扩增”)
#免疫组化HER-2结果为1+,FISH结果为HER-2基因扩增
#免疫组化HER-2结果为3+,FISH结果为HER-2基因无扩增)。
(4)描述异常点:利用ggplot2作图,将失控的点描绘在图形上,进行可视化处理。本文对失控风险进行分级:①当每日检查报告HER-2(0)或HER-2(3+)的频数>3时,认为当日免疫组化HER-2失控的可能性为低风险。②当出现病理组织学与免疫组化不符时,认为当日免疫组化HER-2失控的可能性为中风险。③当出现免疫组化HER-2(0、1+),而FISH检测为阳性时,认为当日免疫组化HER-2失控的可能性为高风险。④当出现免疫组化HER-2(3+),而FISH检测为阴性时,认为当日免疫组化HER-2失控的可能性为极高风险。
2 结果
2.1 乳腺癌中HER-2分布情况免疫组化检测结果的分布情况:HER-2(0)313例,HER-2(1+)313例,HER-2(2+)234例,HER-2(3+)303例。FISH检测结果的分布情况:HER-2基因无扩增661例,HER-2基因扩增295例,HER-2基因扩增不确定20例,HER-2基因是否扩增存在争议1例。综上可得总的HER-2阳性率为29.7%,HER-2阴性率为68.7%,HER-2不确定率为1.6%(图2)。免疫组化HER-2(2+)病例中FISH阳性率为21.4%,免疫组化(3+)与FISH的一致率为98%。
图2 乳腺癌中总的HER-2分布情况
2.2 乳腺癌病理组织分型的FISH分布乳腺浸润性导管癌HER-2阳性率为30.7%,HER-2阴性率为67.2%,不确定率为2.1%。乳腺导管原位癌+微小浸润的阳性率为73.7%,阴性率为26.3%。乳腺浸润性微乳头癌阳性率为53.3%,阴性率为46.7%(图3)。
2.3 失控风险与检测时间的关系基于上述R语言已对HER-2免疫组化结果失控风险进行高、中、低风险分级并结果系统记录的报告时间,从而得出失控风险与检测时间的关系图(图4)。例如,图4中相邻的两日(2017.12.18、2017.12.19)都出现了可能失控的警示(红色亮点),提示这几日可能已失控。在寻找免疫组化HER-2(3+)与乳腺癌组织病理分型异常点的过程中仅发现乳腺浸润性小叶癌存在异常,出现3例HER-2(3+)。
3 讨论
大数据时代的到来,使得各行各业均面临着巨大的机遇与挑战,尤其是医疗卫生领域。R语言帮助我们进行文本处理,起到事半功倍的作用,同时还具有统计学和作图功能,近年来在生物医学领域得到广泛的关注和应用,如利用R语言对门诊用药进行大数据分析指导合理用药[1]、基于R语言的影像组学预测乳腺癌雌激素受体表达的情况[2]等。然而,关于利用R语言对病理信息进行质量控制还鲜有报道。本文运用R语言对HER-2免疫组化染色进行质量控制,以便进一步提高病理诊断准确率。
文献描述HER-2的总阳性率为22.3%~38%[3-4]。本组HER-2总的阳性率为29.7%,与文献报道一致。乳腺癌HER-2基因扩增及其蛋白表达常出现不一致[5],文献报道免疫组化HER-2(3+)与FISH检测的一致率为79%~100%[6-7],免疫组化(2+)的FISH检测阳性率为12%~36%[8-9]。本组免疫组化和FISH检测的一致率为98%,阳性率为21.4%,与文献报道一致。
图3 乳腺癌病理组织分型的FISH分布情况
图4 免疫组化失控风险与时间的关系
乳腺癌病理组织分型的FISH分布情况,可以发现乳腺原位癌+微小浸润的阳性率较高,可能是因为往往伴有微小浸润都是高级原位癌。这些微小浸润可能或多或少保持着高级原位癌的某些特征,从而导致微小浸润的阳性率较高。本实验发现乳腺浸润性小叶癌有3例HER-2阳性,其中1例为多形性浸润性小叶癌,其余为乳腺经典型浸润性小叶癌(阴性率为90%)。本实验发现乳腺浸润性微乳头癌的阳性率为53.3%,要高于其它组织亚型的乳腺癌,与赵伟志和叶晓霞[10]报道的阳性率(18.18%)并不一致,但两项研究的病例都不过20例,仍需积累大样本病例进一步研究。本组1例乳腺化生性癌免疫组化为HER-2(2+),其中浸润性导管癌成分约占60%,鳞状细胞癌成分约占40%,鳞状细胞癌部分为点状扩增。乳腺富于淋巴细胞的浸润性导管癌有3例FISH检测阳性,阳性率为75%,但病例过少,尚不能明确该亚型的阳性率。
罗氏公司BenchMark GX全自动免疫组化染色仪独特的油膜覆盖技术有时候也给我们带来困惑。在我们实际工作中,尤其是夜间运行的免疫组化染色,偶尔会出现全为“阴性”的现象。因此我们在质控中设置当日的免疫组化结果出现3个(0),或3个(3+)时考虑存在失控的低风险,需检查对应设备的运行日志排除失控。
乳腺癌病理组织分型中乳腺小叶癌、乳腺筛状癌、乳腺小管癌、乳腺髓样癌等,90%以上的HER-2为阴性。因此将这些特殊的乳腺癌分型可用于免疫组化的质控,当出现HER-2阳性时,提示免疫组化可能出现了失控中风险。
文献报道免疫组化HER-2(0),FISH检测阳性率为4.1%;免疫组化HER-2(1+),FISH检测阳性率为7.4%[9]。可见免疫组化HER-2(0、1+),而FISH检测阳性出现的可能性很低,可用于质量控制。当出现免疫组化HER-2(0、1+),FISH检测为阳性的情况,提示免疫组化可能失控的风险高。
当出现免疫组化染色HER-2(3+),而FISH检测为阴性时,可能造成医疗事故,导致患者错误的治疗。故提示免疫组化可能失控的风险极高。此时应检查内对照的情况,如无内对照,正常乳腺腺体出现强的免疫组化HER-2(3+)同样提示免疫组化染色过强,已经失控。若相邻的两日都出现了可能失控的警示,提示这几日可能已失控,在实际工作中设备的故障和新抗体的试用容易出现,需要进一步排除。
总之,我们运用R语言,从免疫组化总的阳性率,免疫组化HER-2(2+)的FISH检测,免疫组化与乳腺癌的组织病理分析,免疫组化与FISH检测的一致性四个方面对免疫组化染色进行质量控制,寻找可能的失控点,以便查找原因,杜绝失控。