乳腺癌多基因风险评分、风险预测和精准预防的研究进展
2020-01-06范静依沈洪兵
范静依,沈洪兵
乳腺癌是女性最常见的恶性肿瘤,也是女性主要的癌症死亡原因之一。2018年,全球女性乳腺癌新诊断病例超过210万,占女性恶性肿瘤病例的1/4[1]。在我国,2015年乳腺癌新发人数达27.2万,占女性所有新发恶性肿瘤的15%[2]。因此,阐明乳腺癌发生的危险因素,建立切实有效的防治措施,对预防乳腺癌发生及降低乳腺癌死亡率至关重要。既往研究表明,乳腺癌的发病风险与年龄、初潮或绝经年龄、生育年龄、家族史、乳腺良性病变、不良生活方式等因素相关[3]。针对这些传统的风险因素,欧美研究者们已经开发了多种风险预测模型量化其综合效应,并用于评估个体发生乳腺癌的概率。近年来,随着全基因组关联研究的进展,遗传信息也被纳入到乳腺癌的风险预测模型之中,为乳腺癌高危人群的早期识别及精准预防提供了更多的依据。
1 乳腺癌风险预测的研究现况
1989年,Gail等开发的Gail模型[4](又名乳腺癌风险评估工具,BCRAT)是使用最早、最广泛的乳腺癌风险预测模型之一,主要纳入了激素(初潮年龄,初次活产时的年龄)、病理(既往乳腺活检的数量,非典型增生的个人病史)和一级乳腺癌家族史等信息。后续有研究者考虑到不同种族的影响,在Gail模型的基础上开发了针对非裔美国女性的Care模型[5]和针对西班牙裔美国女性的Hispanic Modification-Banegas模型[6]。随着影像学技术的发展和应用,又有研究者在前期模型的基础上加入了乳房密度这个因素,建立了Chen模型[7]、Barlow模型[8]和Tice模型[9](又名乳腺癌监测联盟模型,BCSC)。此外,家族性乳腺癌研究揭示了早发性乳腺癌/卵巢癌易感基因BRCA1、BRCA2,因此针对有乳腺癌或卵巢癌或两者都有家族史的个人,研究者提出了BRCAPRO模型[10]和BOADICEA模型[11],以预测其携带BRCA1或BRCA2突变的可能性及随时间推移患乳腺癌的风险。2004年出现的Tyrer-Cuzick模型[12](又名国际乳腺癌干预研究模型,IBIS)在此基础上进一步考虑了体重指数、激素替代性治疗、BRCA1/2突变等,全面综合了环境、个人及家族史等因素,已被研究证实具有更好的预测准确度。这些模型经过广泛研究和验证,已被应用于识别乳腺癌高危人群、提供筛查信息、指导遗传咨询和乳腺癌相关研究。
虽然上述部分风险预测模型已考虑纳入高外显性乳腺癌易感基因来表示遗传风险的影响,但是低外显易感基因的效应并未体现。研究表明,在普通人群中,只有5%的乳腺癌病例发现了诸如BRCA1、BRCA2、PALB2、ATM和CHEK2等基因的突变,并且其中只有30%~40%的病例有乳腺癌家族史[13-17]。随着基因组学研究的进展,研究者们逐渐认识到乳腺癌的易感性与多基因相关,并且高频低外显性基因也影响乳腺癌的发病风险。早期的候选基因关联研究策略主要分析与乳腺癌发生发展相关的重要生物学通路基因及其变异位点,如DNA修复通路、雌激素代谢通路、血管生成和细胞周期调控通路等[18-19]。近年来,全基因组关联研究(Genome-wide Association Study, GWAS)凭借大样本、多阶段、全基因组覆盖等优势在阐明诸多疾病及性状的遗传易感性方面取得了重要进展。全球协作肿瘤基因环境研究(The Collaborative Oncologic Gene-environment Study, COGS)和OncoArray联盟等大型研究组织,在长期样本积累的基础上合作开展了多项大规模的乳腺癌全基因组关联研究[20-22],已系统鉴定了近200个与乳腺癌发病相关的遗传变异位点。将这些乳腺癌相关的遗传易感位点纳入预测模型,将有助于提高预测能力,进而推进女性乳腺癌个体化风险预测及防治。
2 乳腺癌多基因风险评分的应用进展
2.1 乳腺癌PRS的构建及早期应用 由于单个或少数基因位点的效应较弱,无法准确预测疾病的遗传风险,因此需要综合多基因多位点信息,多基因风险评分(polygenic risk score, PRS)是目前常用的策略。PRS旨在量化多个基因或位点的累积效应,将数十、数百、数千甚至更多的基因组变异信息浓缩成衡量个体疾病易感性的分值,进而应用于人群风险预测、筛查及干预方案的制定,是实现复杂性疾病精准预防的关键。目前,该方法已经在恶性肿瘤[23-24]、心血管疾病[25-26]等慢性疾病的预防和早诊早治中有了一系列应用,显示出巨大潜力。早在2008年,Gail就试图用当时已发现的7个乳腺癌相关SNP构建PRS以提高乳腺癌风险预测的效能。但研究结果表明7个易感SNP对乳腺癌风险的影响较小,PRS模型的准确度[曲线下面积(AUC)=0.57]并没有优于传统的Gail模型(AUC=0.61)。随后,研究者将这7个SNP纳入到Gail模型中,可将模型的AUC提高至0.63,但对模型的改善较小,预测效能及价值有限[27]。
随着全基因组关联研究的发展及越来越多乳腺癌易感位点的阐明,多基因风险评分的预测效能也在不断提高。2015年,国际乳腺癌研究联盟(Breast Cancer Association Consortium, BCAC)研究人员利用77个已知的乳腺癌易感性SNP建立了乳腺癌风险评分PRS-77,评价了其应用价值。结果表明,PRS最高1%的女性患乳腺癌的风险是中间40%~60%女性的3倍;此外,没有家族史的女性中,PRS最低和最高20%女性的终身乳腺癌风险分别为5.2%和16.6%,而在具有一级亲属乳腺癌家族史的女性中则为8.6%和24.4%,提示PRS-77对于有或无乳腺癌家族史的女性均具有较好的风险分层效能。同时,该风险评分还有利于改善乳腺癌的临床筛查方案。英国推荐一般女性在47岁时开始进行乳房X线检查(该年龄女性乳腺癌的平均10年绝对风险约为2.4%),这种基于年龄“一刀切”的筛查方法未考虑风险的个体差异,同时存在过度诊断的风险[28]。研究者发现,通过PRS-77评估,遗传风险最高10%的女性将在30~40年龄段即达到推荐方案的风险阈值,而处于遗传风险最低10%的女性却终身低于该阈值。因此,遗传风险评分可以更有效地进行高危人群分层,指导乳腺癌筛查[29]。随后,Dite等利用澳大利亚乳腺癌家庭登记系统的数据,将PRS-77和现有的4种临床乳腺癌风险预测模型(Gail模型、BRCAPRO模型、BOADICEA模型和Tyrer-Cuzick模型)相结合,进一步评估其预测价值。结果发现,4种风险预测模型单独的AUC分别为0.66、0.65、0.64和0.57,而与PRS-77结合后,分别提高至0.70、0.69、0.66和0.63,这一结果发现纳入PRS的风险预测模型可使50岁以下女性的乳腺癌预测准确度提高20%以上[30]。2017年8月开始,美国商业基因检测公司Myriad Genetics在MyRisk多基因面板中整合了82个SNP,并利用由此产生的乳腺癌风险分数和Tyrer-Cuzick模型对女性患乳腺癌的5年风险和终身风险进行预测[31]。
2.2 乳腺癌PRS的应用拓展 前期PRS构建主要依据GWAS发现的少数乳腺癌显著易感位点,未能考虑基因组其他遗传变异对于乳腺癌易感性的影响。2018年,Khera等[32]提出了基于全基因组的多基因风险评分(Genome-wide polygenic score,GPS),通过放宽阈值纳入更多的易感位点,从而改善PRS;他们还发现,当以关联性P<5×10-4且连锁不平衡r2<0.2的标准筛选遗传变异时,乳腺癌GPS的预测效能最高,能够鉴定出1.5%的乳腺癌高危人群,其发病风险为一般人群的3倍。
值得注意的是,已发表的大多PRS相关研究主要关注乳腺癌总体人群,但乳腺癌不同亚型往往存在较大的异质性。因此,随着多基因风险评分的进展,有研究者开始尝试对乳腺癌特异亚型进行风险评分的构建,以期为个体预防提供更精准的证据。2019年,BCAC研究人员在前期研究的基础上针对ER特异性乳腺癌进一步优化了PRS的构建。他们首先采用多个显著性标准在总乳腺癌GWAS数据中筛选出预测效能最高的PRS(由305个易感SNPs构成),在此基础上进一步纳入6个独立的ER阳性乳腺癌易感SNPs和位于BRCA2及CHEK2基因上的2个罕见变异。基于这313个SNPs,研究者分别使用总乳腺癌权重、亚型特异性权重、混合权重等方法分别构建PRS。结果表明,对于ER阳性和阴性乳腺癌,基于总乳腺癌权重构建的PRS对肿瘤发生风险的效应(PRS每增加1个标准差的比值比)分别为1.73和1.37;亚型特异性PRS的效应分别是1.74和1.45;混合权重PRS的效应分别是1.74和1.47,表明混合权重PRS(即PRS-313)的预测效能最佳。随后他们将PRS-313在10项前瞻性研究和UK Biobank的独立测试集中进行了验证,发现PRS-313比之前报道的PRS-77的风险预测效果更佳,相较于PRS-313中间40%~60%的女性,最高1%的女性患ER阳性和ER阴性乳腺癌的风险分别增加了3.37倍和1.78倍,而最低1%的女性患ER阳性和ER阴性乳腺癌的风险则分别降低84%和73%。该研究表明PRS可以有效预测不同亚型的乳腺癌风险,进一步指导乳腺癌精准预防方案的制定[33]。
2.3 PRS和环境因素共同预测乳腺癌发病风险 应用PRS和环境危险因素共同构建风险预测模型,可以进一步优化乳腺癌风险预测效能,为乳腺癌的防治提供更多的指导[34-36]。乳腺癌和前列腺癌队列协会(BPC3)的一项研究使用92个乳腺癌相关SNP构成的PRS-92、乳腺癌不可改变的危险因素(家族史、身高和生育史)和可改变的危险因素(BMI、MHT、饮酒和吸烟)构建乳腺癌风险预测模型并进行评价[37]。结果显示,危险因素单独构建的模型AUC为0.588,单独PRS构建的模型AUC为0.623,而将两者结合,整体模型的AUC可提高至0.648。尽管AUC值较低,但是这些模型,尤其是包括PRS在内的模型,可以发现人群中乳腺癌绝对风险的显著分布差异,进而更好的进行高危人群分层。美国预防服务工作组(USPSTF)目前建议年龄为50~74岁的女性每2年进行1次乳腺X线筛查。而该研究发现,上述PRS-92和传统危险因素共同构建的模型可以改善这一筛查建议。例如,该模型的风险预测结果发现有16.1%的女性在40岁时发生乳腺癌的风险即高于50岁女性的平均风险,需考虑提前接受乳腺X线筛查;此外,有32.0%的女性人群年龄达到50岁时,其乳腺癌发病风险尚低于40岁女性的平均风险,因此这些女性从目前的乳腺癌筛查方案中获益较低[37]。基于基因与环境因素共同构建风险预测模型,可以提高模型的预测能力,改善乳腺癌的筛查方案。
3 乳腺癌多基因风险评分面临的挑战
首先,PRS识别的高危人群仅占全部病例的一小部分。如上文提及的BCAC 2019年研究显示,在PRS占最高比例1%、5%、10%和20%的女性中,其发生的乳腺癌病例分别占全人群乳腺癌病例的3.6%、12%、21%和35%[33]。该问题在一定程度上可归因于“遗传度缺失”。已有研究表明,罕见的低频变异有可能解释很大一部分的遗传度[38]。因此,未来的乳腺癌多基因风险评分模型将需要纳入更多类型的易感性变异,包括常见、低频和罕见变异[39]。同时,随着测序技术的发展和成本的下降,基于全基因组测序的分型信息进行PRS构建已成为可能,但其预测效能是否更具有优势还有待进一步评估。
其次,作为一种复杂性疾病,遗传和环境因素共同影响乳腺癌的发生。虽然已有研究考虑到分析乳腺癌风险预测模型中的基因-环境交互作用[40]。但是,与遗传变异不同,环境因素可以在个人的整个生命周期内不断发生变化(尤其是生活方式和饮食习惯)。因此,需要通过前瞻性队列研究设计,对环境因素或相关生物标志物进行多次测量,并开发新的统计方法,以建立具有时间依赖性因素的乳腺癌风险预测模型。
此外,我们还需要考虑不同种族和病理亚型患者中的乳腺癌风险预测模型。目前的乳腺癌PRS基本都是针对欧美人群进行开发和验证,由于不同人群遗传结构的差异,其并不一定适用于亚洲人群。另有研究表明,现有的PRS对ER阳性乳腺癌的预测性较高,但对ER阴性乳腺癌的预测性稍差[33]。因此,我们仍需开展大量的研究来开发适合于亚洲人群的乳腺癌PRS,并提高对ER阴性乳腺癌患者的预测准确性。
最后,我们还应该意识到,PRS旨在评估个体在未来某一时间段内罹患疾病风险的概率,而非诊断个体是否患有疾病。对PRS的错误认识,有可能会带来一系列的伦理和法律问题,引发不良的社会心理,也会阻碍PRS的大规模应用。因此,如何对遗传风险评分进行科学的解读、提高公众对新型风险预测方案的认可度、确定最佳的服务机制和开发新的风险咨询方式也是当前研究者和医务工作者需要考虑的问题。