APP下载

肿瘤二代测序生物信息学分析规范化管理江苏专家共识

2023-11-24江苏省医学会病理学分会江苏省医学会检验学分会江苏省临床检验中心

临床检验杂志 2023年8期
关键词:信息学变异测序

江苏省医学会病理学分会,江苏省医学会检验学分会,江苏省临床检验中心

目前二代测序(next-generation sequencing,NGS)技术已广泛应用于肿瘤精准医疗领域。生物信息学分析是NGS检测过程中至关重要的环节,它能将临床样本经过实验处理及测序后产生的大量序列数据破解为可靠的变异信息,帮助临床全方位找寻致病根源,为疾病的筛查、诊断以及治疗策略的制定提供重要依据。生物信息学分析流程主要通过计算机编程语言将不同的生物信息学分析软件及数据库按流程封装的方式实现自动化的标准输入和输出,然后通过高性能服务器完成从原始测序数据到变异结果的检测与注释;整个过程包括数据清洗、数据比对、比对后数据预处理、变异识别、变异过滤和变异结果报告,以及必要的质量控制点对全过程进行监测从而保证分析结果的准确可靠。传统分子检测技术如常规PCR等,通常是对已知或有限信息的确认,而基于生物信息学分析的测序技术则更多的是对未知结果的探寻和发现,因此如何选择软件及其参数以及数据库信息进行多种变异的检出和注释,如何规范生物信息学分析流程的性能验证,如何建立NGS数据分析的质量控制体系以保证检测结果的准确性等,都是目前NGS实验室面临的巨大挑战。为此,江苏省医学会病理学分会、江苏省医学会检验学分会和江苏省临床检验中心组织省内病理学及分子生物学领域的相关专家共同制定本共识,对人员要求、测序数据要求、生物信息学分析平台的基本要求、生物信息学数据库以及生物信息学分析的基本流程及其性能验证和质量控制等方面提出规范化管理的要求。本共识以肿瘤实体瘤体细胞突变NGS生物信息学分析为主线,覆盖胚系突变和血液系统肿瘤方面的关键要素。

1 生物信息学分析人员的要求

共识1:肿瘤NGS生物信息学分析人员可来自生物信息学、计算机科学、基础医学、临床医学等多个专业,应掌握生物信息学专业知识、数据分析常用工具和编程语言,能够建立、有效运行和评估优化生物信息学分析流程,具备数据分析、处理及质量评估的能力,并定期参加临床实验室基本知识培训和考核,包括实验原理和操作流程、实验室安全、医学伦理、人类遗传资源管理和信息安全等内容,通过相应的岗位能力评估及授权后方可上岗。

2 测序数据的基本要求

目前主流的二代测序仪按其原理和来源主要分为3类:基于可逆末端终止法和边合成边测序技术的Illumina测序仪、基于半导体测序技术的Ion Torrent测序仪和基于联合探针锚定聚合技术的MGI测序仪。实验室应优选经过中国国家药品监督管理局(National Medical Products Administration, NMPA)注册、用途宽广、性能稳定、操作简便的二代测序仪,同时考虑仪器的性能指标、技术参数、临床用途、运行成本等是否能够满足实验室目前的临床实际应用和未来发展需求[1]。

2.1下机数据的质量控制 测序仪原始的下机数据称为原始数据(raw data),在对原始数据分析之前需要进行质量控制。主要流程为通过测序仪配套的质控软件设置相应的质控指标对原始数据进行质量评估,质控合格后才能进入生物信息学分析流程;否则,应查找原因并及时纠正,必要时重新进行湿实验。

共识2:实验室应明确所用测序仪的原始下机数据的质控指标。核心质控指标为测序下机数据量和原始测序数据Q30,还可包括其他指标如簇密度和簇通过率等。质控合格标准应在检测方法建立时确定,至少满足测序仪说明书最低要求,其中测序下机数据量和Q30作为变异检测的重要指标,通常要求有效下机数据比例不低于80%、Q30不低于80%。

2.2数据拆分 数据拆分是利用样本标签信息(barcode/index)将测序仪原始下机数据拆分为单个样本下机数据的过程。数据拆分软件应与测序平台相互匹配,可设置测序仪自动拆分或测序完成后生物信息学分析流程的拆分。数据拆分的关键参数是最大允许的标签碱基错配个数,该阈值应小于所有标签间的最小汉明距离。混合测序时建议使用双端唯一标签标记,避免因标签跳跃造成样本间的交叉污染。

共识3:实验室应根据实验方案设计,确定样本与标签序列的对应关系以及允许的标签碱基错配个数,以保证数据拆分的准确性。通常情况下,标签碱基错配个数应设置为0或1。

3 生物信息学分析平台的基本要求

3.1计算机与服务器的搭建 NGS数据分析需要配备高性能处理速度的计算机服务器,其核心组件包括处理器、内存、存储设备和网络部件。实验室应根据样本规模、样本周转时间、不同检测产品的数据量大小、测序仪通量以及生物信息学分析流程所需计算资源等进行服务器配置,同时还需考虑未来需求增加的可能,定期升级维护以确保数据分析的稳定性。

3.2操作系统与分析软件 NGS生物信息学分析软件及其运行环境主要基于Linux操作系统,常用的分析软件主要包括数据质控软件、序列比对软件、SAM/BAM文件处理软件、变异识别和注释软件等。在生物信息学分析软件及数据分析流程应用于临床检测前应对其进行性能评估,验证分析结果能否达到预期目的。

3.3数据的存储与安全

共识4:实验室应建立NGS全流程的数据存储管理规范,包括文件类型、存储格式、存储时限、存储位置和环境、存储清理和转存、备份周期等,确保数据信息的便捷使用、安全管理与可追溯性。数据的安全管理应严格遵循《中华人民共和国人类遗传资源管理条例》和GB/T 39725—2020《信息安全技术健康医疗数据安全指南》,确保数据的访问、传输、使用和公开等过程处于有效保护和合法利用的状态。

4 生物信息学数据库

NGS相关的生物信息学数据库可根据生物信息学分析流程分为序列比对数据库、突变过滤数据库、突变注释与解读数据库等,或者根据数据库功能分为群体数据库、疾病相关数据库、临床试验数据库、药物数据库等(表1)[2]。实验室应根据临床实际应用的需求和检索目的,综合NGS各流程所需要的数据信息,选择使用合适的公共数据库或自建数据库,并对运行中的数据库进行评估和验证。建议数据库保持至少半年更新一次,保存更新记录以及验证过程与结果的记录。

表1 肿瘤NGS常用生物信息学数据库

5 生物信息学分析的基本流程

共识5:实验室应建立、优化、评估生物信息学分析流程并文件化(图1)。整个流程需要以全自动化的方式进行搭建,完成从拆分测序数据到各个模块自动分析、质控、样本异常监控、结果流转的过程,且每个数据分析模块均应有对应的质控监测方法及标准的输入和输出文件,应通过性能验证确认预先设定好的每个分析参数及相关质控阈值。

注:Q30,碱基质量值(pherd quality score,Q)大于30的比例;SNV,单核苷酸变异(single nucleotide variation);Indel,短片段插入或缺失;CNV,拷贝数变异(copy number variation);Fusion/Rearrangement,融合/重排;MSI,微卫星不稳定(microsatellite instability)。图1 肿瘤NGS生物信息学分析的基本流程(虚线框内)

5.1数据清洗

共识6:经过数据拆分后,不同测序平台的数据均统一为fastq格式,碱基质量值的含义互通,质控指标可共用。为了确保进入生物信息学分析的数据的质量,应对拆分后的数据进行清洗,去除接头序列、低质量序列、低复杂度序列、过短序列等,清洗后得到的数据通过质控后才能进入后续分析。

常用的NGS数据清洗软件有fastp、AdapterRemoval、Trimmomatic和Cutadapt等[3]。不同的数据清洗步骤及软件可能会对后续的数据分析结果产生不同的影响,因此,在进行数据清洗时,应根据具体实验设计和数据质量要求进行调整和优化,以确保最终分析结果的准确性。

5.2数据比对及比对后数据预处理

共识7:根据样本类型(DNA/RNA)使用符合行业标准推荐的软件及其参数进行数据比对。参考基因组推荐采用1000G(phase 2)使用的人类参考基因组序列hs37d5。比对率作为评估样本比对效果的重要指标应纳入质控。

常用DNA比对软件包括BWA、Sentieon和Bowtie2等,RNA比对软件包括STAR、Tophat等[3]。软件参数的选择可参考开源社区、文献专利中公认或主要使用的方法。在进行数据比对时,需根据分析目的对比对工具和参数设置进行调整并进行多次比较和优化,以保证下游分析结果的准确性[4]。

共识8:预处理方式应根据测序文库制备的方法以及比对和变异识别适用的软件来确定,通常包括PCR重复产物的过滤、复杂区域重比对、碱基质量值矫正等。预处理生成的数据通过质控后才能进入后续分析。实验室对于已经生成报告的样本,其比对结果应采用BAM文件格式存储至少2年。

常用的BAM文件排序、去重工具包括Picard、sambamba和SAMtools等,复杂区域重比对和碱基质量值矫正通常可采用GATK软件的IndelRealigner和BQSR模块实现[3-4]。使用特异性分子标签(unique molecular index,UMI)标记DNA片段,在比对后进行PCR去重分析,可有效排除DNA单链损伤、PCR扩增错误、测序错误等环节引入的假突变;通过UMI去重可获得原始DNA分子的一致序列,常用公共软件包括Fgbio、Gencore和smCounter2等[5]。复杂区域重比对,可减少基因组复杂区域比对的偏差,保证Indel检出的准确性。此外,测序仪报告的碱基质量值会因测序系统误差表现不精确,从而影响变异检测的可信度,实验室应结合所使用的变异检测软件及所检测的变异类型进行碱基质量值矫正[1]。

5.3变异识别 生物信息检出变异指的是与参考基因组序列不同的位点,包括单核苷酸变异(SNV)、短片段插入或缺失(Indel)、拷贝数变异(CNV)、融合/重排(Fusion/Rearrangement)、微卫星不稳定(MSI)等。不同的变异类型需使用不同的软件相互配合才能准确地识别出所有变异。同时,实验室应基于NGS检测系统的性能验证结果,确定各种变异类型检测对样本质量(如肿瘤细胞占比、样本均一性等)的最低要求。

5.3.1SNV、Indel检出

共识9:SNV、Indel的检出与软件算法以及参数设置有关,对变异检出有影响的参数均应纳入性能验证范围。

由于外周血cfDNA(circulating free DNA)的浓度低,通常需要提高样本的测序深度来获得更高灵敏度。通过UMI分子标签、对照样本和健康人群基线可以减少实验噪音对低频突变位点的影响。此外,还需要识别来源于克隆性造血的突变,可采用高深度的对照样本对其进行判定。

5.3.2CNV检出

共识10:CNV检测的结果应与荧光原位杂交(fluorescence in situ hybridization, FISH)结果进行一致性比较,并以GCN(基因拷贝数)的方式进行报告。

CNV分析软件包括CNVkit、DECoN、CONTRA、CNVnator和XHMM等[7]。CNV通过评估肿瘤样本相对于对照样本或基线样本的深度变化计算获得[8],可以CNV(扩增倍数)、CN(拷贝数)或GCN(基因拷贝数)三种方式报告检测结果。肿瘤占比或样本均一性不合格的样本不建议做CNV检测;如果评估肿瘤样本占比存在不足,且临床难以再获取满意样本(二次活检或肿瘤脱落细胞)时,实验室可在知情同意后通过生物信息算法模拟评估检测样本中肿瘤占比,辅助CNV的检测。

5.3.3Fusion/Rearrangement检出

共识11:Fusion/Rearrangement的检测准确性与基因结构的复杂性有关,对于基因断裂点处于低复杂度或者重复区域的融合需要进行严格的过滤及IGV(integrative genomics viewer,交互式基因组浏览器)审核。RNA融合检测需要区分选择性剪切的不同形式以及低表达基因的融合。DNA融合检测与RNA融合检测具有各自的局限性,实验室可采用DNA+RNA组合检测方式互相弥补不足以提高检测准确性。

常用的DNA结构变异(structural variation, SV)分析软件包括Lumpy、CREST和Delly等[9],RNA融合分析软件包括STAR-fusion、Arriba、Fumap和FusionCatcher等[10-12]。

(2)能源矿产与黑色金属矿产从业人员居多。2017年河北省持证矿山企业能源矿产从业人员较多,为11.71万人,占矿山企业从业人员总数的62.26%,其中煤矿10.75万人,占能源矿产从业人员总量的91.80%;其次是黑色金属矿产从业人员4.35万人,占矿山企业从业人员总量的23.13%。其中铁矿企业从业人员4.34万人,占黑色金属矿产从业人员总数的99.97%。

5.3.4MSI检出

共识12:MSI可以使用配对样本或人群基线进行分析;对于使用基线的MSI分析,阈值需要根据不同的测序平台进行验证。MSI的探针设计应采取双端设计。生物信息学分析产生的MSI结果应采用多重荧光PCR毛细管电泳法和/或免疫组织化学(immunohistochemistry,IHC)法进行验证。

常用的MSI分析软件包括MSIsensor、mSINGs和MANTIS等[13]。如无对照样本同步分析,则需基于微卫星稳定(Microsatellite stable,MSS)的样本构建参考基线,通过评估肿瘤样本与基线的差异位点来计算MSI。基线会受到所用测序平台以及实验批次的影响,因此基线和阈值均需基于实验室已确认的检测系统及其实验流程进行验证。不同类型的MSI位点和数量会直接影响MSI检测的性能,可在全基因组范围内筛选足够数目且具有明确分类效果的MSI位点。

5.4变异过滤 由于实验与测序过程以及软件算法中可能存在的系统误差,通过生物信息学分析初步识别出的变异通常会包含一些假阳性位点,因此在变异识别后需要对其进行进一步的过滤,除去假阳性,提高检测准确度。实验室应基于内部建立的且经性能验证确认的相应质控标准进行变异过滤。

5.5变异的注释

5.5.1变异命名的标准化 在完成变异识别和过滤后,需对所识别出的SNV、Indel位点进行HGVS(Human Genome Variation Society,人类基因组变异协会)格式转换。实验室需在指定基因组注释体系下进行转换以得到cHGVS以及pHGVS信息。建议从LRG、RefSeq以及HGNC数据库中获得参考转录本的编号,同一个突变注释到多个转录本时应优先选择经典转录本;否则,建议选择非经典转录本上的影响等级最高或文献使用最频繁的转录本[14]。

5.5.2变异基因功能的注释 针对肿瘤体细胞变异,实验室应先进行变异注释,再对变异进行致癌性评级,最终明确变异的临床意义(如疗效预测或预后判断等)[15];对于胚系变异,应先按照ACMG遗传变异分类标准或单个基因(如TP53、CDH1等)胚系变异分类标准进行致病性评级,再明确变异的临床意义。常见的人群、基因功能、癌症和药物相关数据库注释见表1。

5.6生物信息分析软件版本控制

共识13:实验室应建立完善的生物信息分析软件版本控制方案,确保始终使用现行有效的版本进行结果分析;当版本更新时应重新进行性能验证,同时应保存所有与生物信息分析软件版本的使用、更新和验证有关的记录。

生物信息分析软件发生变更时,包括参数调整或版本升级等,应建立测试数据集并使用变更前和变更后的版本分别进行测试,检查运行结果是否存在差异以及差异是否符合预期要求,任何可能影响到准确性的更新都应完成生物信息学分析流程的测试及验证。

6 生物信息学分析流程的性能验证

生物信息学分析流程的性能验证指的是实验室在完成“湿实验”性能验证后,利用内部建立的生物信息学分析流程对已知变异的样本数据进行分析,验证在已建立的质量控制标准下的分析结果是否能满足预期性能指标的要求(如正确度、精密度和检测限等)[1,14];如未能满足,则需要查找原因,进一步优化分析流程,再次进行验证,直到满足为止;其最终目的是确保检测范围内所有变异能够准确检出。

6.1性能验证指标

共识14:性能验证指标应包括但不限于正确度、精密度(重复性和重现性)、分析敏感性(检测限)、分析特异性(干扰)、临床敏感性(基因区域和变异检测范围)、临床特异性(交叉反应)等内容,经分析和验证后应确保该生物信息学分析流程所有使用软件分析得到的结果能满足相应临床检测的预期用途,并确定所有变异类型和影响临床诊疗决策的重要基因的分析参数及检测范围。

6.2性能验证样本 性能验证样本可使用已知变异的临床样本测序数据、参考品测序数据和模拟数据,三类数据样本各有优缺点,可互为补充[1]。

临床样本的样本类型应与常规检测样本一致,且应尽量包含所有预期可检测到的变异类型及频率,所有变异的阴阳性状态均需已知且准确。参考品的样本类型宜尽量模拟临床样本真实情况;实验室可按照特定的突变类型、突变频率、突变数目进行阳性参考品、阴性参考品、不同组织类型以及不同实验参数的样本配置,原则上是能够全面地对生物信息学分析流程的各方面进行准确的性能验证。模拟数据包括从头模拟和测序数据编辑两种方法,后者更适合生物信息学分析流程的性能验证。模拟软件包括BAMSurgeon[16]、Mutationmaker[17]和VarBen[18],其中VarBen包含突变类型最多,包括SNV、Indel、Complex Indel、CNV和SV等。模拟数据的验证可进行阈值的调整以及多个算法模型的优化和选择,通过不同比例的阳性样本进行ROC曲线以及F1值[19]综合评估,选择最佳参数阈值。模拟数据可以帮助软件实现功能验证,但因其难以复现真实样本分析中的随机误差和系统误差,无法完全取代临床样本/参考品的真实测序结果。

7 生物信息学分析过程的质量控制

7.1分析流程的质量控制

共识15:实验室应针对生物信息学分析各环节设置相应质量指标进行质控,对于“失控”的异常数据或结果应查找原因并建立明确的异常处理方案。

在建立生物信息学分析流程的过程中,应针对每个环节设定必要的质量指标及其控制标准(图1和表2)。目前对于不同检测产品或测序分析系统尚无统一化标准,实验室应基于检测方法的特点及临床预期用途针对这些质量指标建立自己的控制范围或阈值并开展定期评估。各环节的质量指标包括:(1)数据清洗:测序数据量、Clean reads Q30、有效序列占比、有效序列长度、接头污染率、GC含量和碱基平衡;(2)数据比对及比对后数据预处理:比对率、中靶率、重复率、插入片段长度、有效测序深度、覆盖均一性、样本污染率和样本损伤;(3)变异过滤:SNV和Indel(位点有效深度、支持变异reads数、突变碱基质量Q30、突变等位基因频率、碱基比对质量值、链偏好性、DNA损伤和氧化损伤等);CNV(样本覆盖均一性和样本质量等);融合/重排[位点深度、SR(split reads,即覆盖了融合断裂点的reads)支持reads数目、碱基比对质量值等];MSI(MSI合格的位点数、MSI不稳定的位点数和MSI不稳定的得分等)。其中最重要质量指标为Clean reads Q30、比对率、有效测序深度和覆盖均一性[1,14]。各指标的阈值设置应通过性能验证进行确认。

表2 肿瘤NGS生物信息学分析流程中涉及的质量指标及控制标准

7.2样本污染质控 样本污染包括非人源的外源物种污染和实验室样本交叉污染。通过计算不同物种对于样本的污染比例,防止非人源物种、病毒和细菌等外源物种污染。对于实验室样本交叉污染,可通过比较配对样本胚系位点的基因频率偏移来计算污染比例,常用的肿瘤样本污染分析软件有GATK ContEst、VerifyBamID和Conpair等[20]。对于样本污染比例超过实验室设置标准的样本,建议重新实验或重新采样。

7.3配对样本胚系及性别质控 配对样本胚系及性别质控用于判断已建流程所分析的数据是否与送检样本保持一致。胚系一致性主要采用对照样本与肿瘤样本胚系位点的一致性进行判定,性别预测则一般采用性染色体上STR(short tandem repeats,短串联重复)区域测序覆盖度的差异进行判定。对于胚系不合格的样本需要进行临床病理核查,比如患者近期是否存在输血、异基因造血干细胞移植、器官移植等可能产生胚系不一致的因素,如果不是可以解释的原因,则需要重新实验或者重新采样。

7.4结果质控

共识16:生物信息学分析流程应具备标准的输入和输出,其中输出的结果文件至少应包含样本的唯一性标识以及突变的基本信息。生物信息分析结果的比较需要在相同的实验、相同的流程或者检测限下才具有可比性。在临床上不能仅依赖生物信息的变异检出作为最终的结果,尤其是结果处于质量指标的灰区范围时,应采取其他方式或方法学进行验证。

各种变异类型在输出结果时至少应包含的信息:(1)SNV、Indel:染色体、物理位置、参考序列碱基、突变碱基、突变频率、支持突变的Reads数、基因名、转录本号和基因区间,以及其他的功能性注释以及人群数据库注释。阳性判断阈值可结合突变频率和支持突变的reads数目进行判定,对于血液肿瘤微小残留病(MRD)监测样本的变异,还需要结合初诊的变异信息来进行判定;(2)CNV:染色体、起始物理位置、染色体臂、基因名、log2比值、基因拷贝数。在肿瘤占比以及样本均一性合格的情况下,可通过基因拷贝数或肿瘤细胞的拷贝数划定基因扩增/缺失的阈值,对于染色体倍增产生的CNV需进行区分和标记;(3)Fusion/Rearrangement:基因名、转录本号、外显子号、断裂点位置、断裂点有效深度、SR支持reads数目、DP(discordant paired-end reads,即非一致成对读序,成对的reads分别比对到融合的5′伴侣基因和3′伴侣基因)支持reads数目和突变频率。对于RNA融合基因检测,需要在管家基因表达合格的前提下进行阳性阈值的判定和计算融合的相对表达量,通常以突变频率以及SR支持reads数划定阳性判断阈值;(4)MSI:MSI位点合格数、MSI不稳定的位点数量、MSI得分(MSI score)和MSI状态(MSI-H或者MSS)。在样本质控合格的情况下,可通过MSI得分进行MSI状态的阈值判定,否则,则不能进行该位点MSI的判定。

执笔:陈劼、杨军、朱卫东、丁颖、解珺丹、张腾腾

整合和审修:赵建华、何军、章宜芬

倡议和终审:许斌

参与本共识修订的人员及单位(按姓氏汉语拼音顺序排列):常志力(南京世和基因生物技术股份有限公司)、陈劼(江苏省中医院)、楚玉星(苏州吉因加生物医学工程有限公司)、邓望龙(江苏先声诊断医学有限公司)、丁颖(江苏省人民医院)、郭凌川(苏州大学附属第一医院)、何军(苏州大学附属第一医院)、孔令印(苏州贝康医疗股份有限公司)、解珺丹(苏州大学附属第一医院)、刘雅红(江苏省临床检验中心)、饶秋(中国人民解放军东部战区总医院)、汪俊军(中国人民解放军东部战区总医院)、夏艳(臻和精准医学检验实验室无锡有限公司)、杨军(南京鼓楼医院)、章宜芬(江苏省中医院)、张腾腾(苏州大学附属第一医院)、赵建华(江苏省临床检验中心)、朱卫东(苏州大学附属第一医院)。

猜你喜欢

信息学变异测序
杰 Sir 带你认识宏基因二代测序(mNGS)
鸡NRF1基因启动子区生物信息学分析
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
变异危机
变异
初论博物馆信息学的形成
变异的蚊子
基因捕获测序诊断血癌
单细胞测序技术研究进展
miRNA-148a在膀胱癌组织中的表达及生物信息学分析