基于噬菌体展示和高通量测序的血清抗体整体质量评估体系研究

2020-07-06赖丹昀胡传圣马明亮陶生策

上海交通大学学报（医学版） 2020年5期

赖丹昀，胡传圣，祁环，马明亮，李华，陶生策

1.上海交通大学系统生物医学研究院，系统生物医学教育部重点实验室，上海200240；2.上海交通大学生物医学工程学院，上海200240

血清作为重要的生物样品，其组成和浓度含有丰富的信息，能反映个体的健康状况，为医学诊断提供依据[1]。血清蛋白质组学是血清研究的一个重要领域，即以血清为研究对象的蛋白质组学，已成为寻找生物标志物的有效手段。在血清的生物标志物领域，除了差异表达蛋白和修饰异常蛋白之外，差异自身抗体的发现也有重要价值[2]。自身抗体，是识别自身抗原的抗体总称，已被用于自身免疫性疾病和肿瘤等疾病标志物研究[3-4]。从血清采集到检测，不可避免地会出现长短不同的时间间隔，血清中各组分往往因为时间滞后、保存条件差异等而出现不可预知的变化，可能导致不同程度的实验错误，严重时可能出现假阴性和假阳性结果[5]。所以有效的血清质控和质量评估是非常必要的。已有的研究中，以全血样品为目标的有血细胞计数法[6]，而以血浆/血清样品为目标的方法则有基于质谱技术的全局性分析[7-8]。但目前还没有有效的方法来判断血清中抗体的整体质量。因此，我们希望建立一种高效的全局性评估策略，以评价血清样品中抗体的质量，这对于血清样品的实验室保存、疾病队列的建立等都有重要的意义。

噬菌体展示技术和高通量测序技术的联合应用已经取得多项成果。噬菌体肽展示文库（phage display peptide library）作为极为重要的资源之一，分为物种特异性肽文库和随机肽文库。2010 年，首个人类蛋白质组噬菌体肽展示文库构建成功，用于寻找疾病自身抗原[9]。随后，利用物种特异性肽文库的研究不断涌现[10-11]。与物种特异性肽文库相比，随机肽文库（如NEB 公司的Ph.D.-12）多样性高达109数量级，与目标蛋白结合时，没有物种特异性肽文库的偏好性[12]。联合Ph.D.-12 噬菌体随机肽展示文库和高通量测序技术，我们已成功地筛选了系统性红斑狼疮的肽生物标志物[13]，建立了高效且高通量的抗体识别表位解析技术[14]。香农熵（Shannon entropy）经常被用于表示组成某群体的个体多样性及丰度[15]，在癌症研究领域，熵可用于计算DNA 拷贝数畸变情况[16];熵还可用于与免疫系统相关数据分析，例如将熵值应用于建立抗体独特型网络[17]。基于随机肽库的多样性和无偏性，我们用香农熵来表示样品各自的肽结合模式，将复杂的个体情况转换为数字形式，并对不同样品进行质量评估，旨在初步建立一套能够快速评价血清样品中抗体整体质量的量化指标。

1 材料与方法

1.1 主要材料

噬菌体随机肽展示文库Ph.D.-12、Q5 DNA 聚合酶（NEB，美国），无IgG 牛血清白蛋白（翊圣，中国），anti-6×His 抗体（Millipore，美国），Protein G 磁珠（Invitrogen，美国），胶回收纯化试剂盒（诺唯赞，中国），96 孔聚苯乙烯板（百赛，中国）。Illumina 测序指定引物由生工生物工程（上海）股份有限公司合成。

1.2 实验方法

1.2.1 血清样品的制备收集上海交通大学医学院附属仁济医院临床体检的50 例健康者血清（临床健康体检报告中各项检测结果均在参考范围内）。本研究得到了上海交通大学医学院附属仁济医院医学伦理委员会的批准，所有参与者或监护人已签署知情同意书。每个样品各取2 μL加入EP 管中混匀，作为标准样品。将标准样品分至20 个EP 管中，每个EP 管5 μL，将EP 管置于不同的温度条件下：以-80 ℃为对照温度；-20 ℃、4 ℃、37 ℃ 3 个温度各设置3 个放置时间，分别为12、24、48 h；另设95 ℃孵育10 min 组。处理完毕后与噬菌体随机肽展示文库Ph.D.-12 进行反应。

1.2.2 血清结合噬菌体的分离根据已发表的噬菌体文库筛选相关报道[13]，对其方法进行了简单修改。取96 孔板，每孔用200 μL 3%无IgG 牛血清白蛋白封闭，放置于4 ℃环境中振荡过夜（12 ～16 h）。封闭完毕后弃封闭液，用TBST 缓冲液200 μL/孔清洗1 遍。向96 孔板中加入TBST 缓冲液90 μL/孔，随后将已经处理好的血清样品依次加入96 孔板中，每孔加入1 μL 血清，每种样品重复3 个复孔。在96 孔板上设置阳性对照（加入1 μL 的anti-6×His 抗体）和空白对照（不加入血清）。最后加入噬菌体随机肽展示文库10 μL/孔，将该体系置于4 ℃环境中振荡过夜（12 ～16 h）。每孔加入10 μL 清洗过的Protein G 磁珠，4 ℃下振荡4 h。使用TBST 缓冲液200 μL/孔清洗后将96 孔板置于磁力架，把磁珠以外的液体除尽，该步骤重复3 次，最后使用去离子水清洗1 次。向96 孔板中加入去离子水20 μL/孔重悬，即为Protein G 磁珠、IgG及其结合的噬菌体三者的复合物（图1）。

图1 噬菌体淘选流程图Fig 1 Work flow of phage screening

1.2.3 高通量测序文库构建根据已发表的噬菌体文库筛选相关报道[13]，对其方法进行了简单修改，具体流程：将上述得到的复合物，95 ℃加热20 min 使噬菌体释放出DNA，冻存于-20 ℃，待用。使用时通过96 孔磁力架固定磁珠，排枪吸取上清液作为第1 轮PCR 的模板。

用2 轮延伸PCR 法构建高通量测序文库，用Q5 热启动DNA 聚合酶进行扩增。引物序列见表1。用于扩增的引物序列中，标记的序列代表由8 个核苷酸组成的编号序列，用于样品的混合。第1 轮PCR 的总体系为25 μL，包括噬菌体DNA（扩增模板）、1×Q5 缓冲液、100 μmol/L dNTP（脱氧核糖核苷三磷酸，deoxy-ribonucleoside triphosphate）、0.25 μmol/L 正向引物（01-S502-23R 至12-S517-23R）、0.25 μmol/L 反向引物（01-N701-18 至11-N714-18）、Q5 聚合酶0.25 μL。PCR 反应条件：98 ℃预变性2 min；98 ℃变性10 s，55 ℃退火30 s，72 ℃延伸30 s，共25 个循环；72 ℃延伸2 min。PCR 结束后配制2.5%琼脂糖凝胶电泳验证产物。按照试剂盒说明书从凝胶中回收产物。第2 轮PCR 的反应体系为25 μL，包括第1 轮PCR扩增后的胶回收产物1 μL 作为扩增模板，1×Q5 缓冲液、0.25 μmol/L Index-S518 正向引物、0.25 μmol/L Index-N718反向引物、100 μmol/L dNTP、Q5 聚合酶0.25 μL。PCR反应条件：98 ℃预变性2 min；98 ℃变性10 s，55 ℃退火30 s，72 ℃延伸30 s，共10 个循环；72 ℃延伸2 min。PCR 结束后配制2.5%琼脂糖凝胶电泳验证产物，并回收产物。在测量浓度后，将核酸产物等量混合在一起。合并的文库在Illumina HiSeq5000 平台上以2×150 配对末端作为测序模式进行测序。

表1 高通量测序相关引物序列Tab 1 Primers for next generation sequencing

Continued Tab

1.2.4 生物信息学分析在噬菌体中插入的片段共103个碱基对，结构见图2。根据高通量文库构建过程中在核酸样品两端扩增引入的标签（表1 中带下划线的序列）将所有读出的多肽归类至每个血清样品中，核酸序列进一步被翻译为氨基酸序列。将一个样品中每条多肽的数量除以该血清样品中所有多肽的数量之和，乘100 000 作为归一化后的数值，减去空白对照组的数值，得到最终一个样品中每条多肽的读数，取读数排名前10 000 的多肽进行后续分析。通过MEME 网站（http://meme-suite.org/tools/meme）对阳性对照组的4 个复孔anti-6×His 抗体的多肽序列进行基序分析，以检测实验的可靠性。每个温度处理条件下样品的阈值都设在0.01 以上，将符合该条件的多肽进行香农熵的计算，公式为H =-∑p （x） ×log[p （x） ]，其中p （x）表示多肽x 的出现概率。

图2 扩增产物二代测序结构图Fig 2 Sequence structure of amplified product for next generation sequencing

1.3 统计学分析

2 结果

2.1 阳性对照的motif 计算验证

为了检测上述淘选实验的可靠性，我们采取具有已知结合表位的抗体anti-6×His 抗体作为阳性对照，阳性对照进行了4 次重复，分散在96 孔板上的不同位置。淘选流程与血清样品一致，经二代测序将富集的噬菌体中的核酸信息转化为多肽信息后，通过在线Motif 模拟工具MEME 进行表位的发现[参数设置：-evt（筛选阈值）为0.001，-nepitopes（epitope 出现次数）为8，-minw（功能域长度最小值）为6，-maxw（功能域长度最大值）为10，其余参数为默认值]。结果显示4 个阳性对照识别的表位均与6×His 匹配，说明本实验操作流程是可靠的（图3）。

2.2 实验可重复性分析

为了验证淘选实验的可重复性，将-80 ℃条件下的2 个血清样品（80S1 和80S2）和阳性对照组的2 个样品（80H1 和80H2）每条多肽的读数经归一化处理后，进行Pearson 相关性分析。最终血清重复实验和anti-6×His 抗体重复实验的Pearson 相关系数r 分别为0.986 和0.976，说明淘选实验的可重复性较好（图4）。

图4 在多肽水平对血清样品及阳性对照的淘选实验可重复性分析Fig 4 Reproducibility of biopanning of serum sample and positive control on peptide level

2.3 极端温度下香农熵的变化

为了研究极端条件下血清的多样性系数，并将此作为所有处理条件的极值，我们选择能使蛋白质变性的条件——95 ℃下孵育10 min。血清样品处理后呈淡黄色沉淀，几乎无残留液体。经过噬菌体淘选、二代测序、数据分析等过程，读数大于0.01 的多肽数量相比-80 ℃保存的样品明显减少，香农熵从3.45 降至3.20，2 组样品间差异有统计学意义（P=0.008）（图5）。虽然95 ℃处理后的样品抗体几乎完全失活，但由于测序数据并不完全相同，减去空白对照后多肽仍有少量剩余，因而香农熵并非完全为零。

图5 95 ℃处理后血清样品中IgG 识别多肽的多样性Fig 5 Diversity of peptides recognized by antibodies in serum treated at 95 ℃

2.3 不同温度对血清香农熵的影响

为了探究血清样品在不同温度条件下香农熵是否发生变化以及这些变化是否能用香农熵进行表征，我们将样品在-20 ℃、4 ℃、37 ℃下分别处理12、24、48 h，并通过噬菌体淘选、二代测序、数据分析等过程，分别将各时间段样品计算得到的香农熵与-80 ℃条件下样品的香农熵进行比较（-80 ℃在X 轴上标示为“0”）。

其中，-20℃下处理不同时间的血清样品，其香农熵较-80℃未出现明显变化。该结果表明，在冻存条件下，血清中抗体所识别的多肽的多样性基本相同，抗体的结合能力保持稳定。在4 ℃条件下处理的血清样品在12 h 后，香农熵呈下降趋势，处理48 h 后从3.45 降至3.39。该结果表明，在4 ℃时，抗体的多样性在12 h 内已发生变化，抗体结合能力在12 h 内开始下降。同样地，样品在37 ℃下放置12 h 后，香农熵也呈现下降趋势，并且其下降幅度比4 ℃更大；处理48 h 后，香农熵已降至3.32。该结果表明，在37 ℃时，抗体的多样性在处理的12 h 内已发生明显变化，抗体结合能力在处理的12 h 内开始较大程度地降低（图6）。结合几个温度条件下的实验结果可见，香农熵能够表征血清抗体的结合能力。

图6 不同温度下血清样品中IgG 识别多肽的多样性变化趋势Fig 6 Diversity trend of peptides recognized by antibodies in serum at different temperatures

3 讨论

优质的临床生物样品是生物标志物发现、鉴定和确认的关键。血液样品加工和处理方式的变化会影响蛋白质丰度和测定的可靠性[5]。对不同类型的血样有不同的质量检查方法，如全血样品各组分的分析方法，主要包括全细胞计数、综合代谢分析，其中代谢分析中对蛋白质和酶类的分析也仅限于已知蛋白质（如血红蛋白、白蛋白、碱性磷酸酶等）[6]。血样中蛋白相关生物标志物以蛋白质为主。蛋白质相关生物标志物主要有2 种：①基于丰度和修饰改变的蛋白质标志物。②基于抗体变化，尤其是自身抗体改变的生物标志物。对前者已有了相关的质控手段[1]，但对后者则严重欠缺。

本文采用高效方便的噬菌体展示技术和高通量测序技术，将不同温度下贮存的血清与噬菌体随机肽展示文库进行反应，通过免疫沉淀法捕捉噬菌体与IgG 的多肽复合物，在高温条件下获取噬菌体内的核酸后扩增进行二代测序，最后转换成每个样品中IgG 识别的多肽信息。经归一化、减去空白对照后，保留出现频率大于0.01 的多肽，以全面评价血清中抗体的结合能力。经多样性分析，在-80 ℃与-20 ℃这2 种相似的冻存状态处理12、24、48 h 后，多肽的多样性没有明显变化，这与已有报道[18]的全血样品蛋白质组的变化情况一致。但当温度分别为4 ℃、37 ℃时，其多样性在12 h 内呈下降趋势，且并随着时间变化逐渐接近极端条件。因此，我们认为香农熵有潜力成为评价血清中抗体质量的指标，以及将噬菌体展示技术与高通量测序技术结合起来用于评价血清质量具备可行性，而且整个血清样品的状态还可通过抗体水平的结合能力来评价。

同时，我们认为现行的评估体系可以得到进一步改进。第一个问题是样品的设计，可以进行更长时间的处理，使多样性的变化趋势更加明显以及处理时间达到多久时样品的香农熵会达到极端值，这将指导后续实验样品的存储和实验队列的建立。第二，数据分析应从更多方面进行。一方面，测序通量大小引起的多肽数目的多少，本次实验选取的1 万条多肽较文献[15]报道的少，因此可以扩大测序通量选择的范围，以扩大香农熵的评估库容量。另一方面，即空白对照的选取。95 ℃处理后，血清的真实状态与空白对照比较接近，但由于二代测序后不同样品的读数并不完全相同，所以在减去空白对照后，95 ℃样品的多肽读数虽然接近于0，但仍可作为多样性分析的输入，香农熵也因此不是0。所以在数据分析中选择阈值也值得进一步探讨。由于血清中有多种IgG，结合的肽序列复杂，不能获得显著的motif，因此与单抗的质检对比缺少了表位这一评估特征。尽管香农熵已被证明具有评价血清中抗体质量的潜力，但血清中含有的抗体比单抗复杂得多，在后续实验改进时，可以扩大其范围，增加其他的参数，从多个方面对血清的抗体质量进行综合评价。

综上所述，我们首次将噬菌体展示技术和高通量测序技术联合起来，利用香农熵对血清中抗体的质量进行表征，建立了一套通用性强，易于扩展，通量高，适用于全血清抗体质量控制的初步评价体系。

参·考·文·献

[1] Geyer PE, Voytik E, Treit PV, et al. Plasma Proteome Profiling to detect and avoid sample-related biases in biomarker studies[J]. EMBO Mol Med, 2019, 11(11): e10427.

[2] Betteridge Z, McHugh N. Myositis-specific autoantibodies: an important tool to support diagnosis of myositis[J]. J Intern Med, 2016, 280(1): 8-23.

[3] McHugh NJ, Tansley SL. Autoantibodies in myositis[J]. Nat Rev Rheumatol, 2018, 14(5): 290-302.

[4] Yang B, Li XY, Ren TY, et al. Autoantibodies as diagnostic biomarkers for lung cancer: a systematic review[J]. Cell Death Discov, 2019, 5: 126.

[5] Hassis ME, Niles RK, Braten MN, et al. Evaluating the effects of preanalytical variables on the stability of the human plasma proteome[J]. Anal Biochem, 2015, 478: 14-22.

[6] Wu DW, Li YM, Wang F. How long can we store blood samples: a systematic review and meta-analysis[J]. EBioMedicine, 2017, 24: 277-285.

[7] Daniels JR, Cao ZJ, Maisha M, et al. Stability of the human plasma proteome to pre-analytical variability as assessed by an aptamer-based approach[J]. J Proteome Res, 2019, 18(10): 3661-3670.

[8] Zimmerman LJ, Li M, Yarbrough WG, et al. Global stability of plasma proteomes for mass spectrometry-based analyses[J]. Mol Cell Proteomics, 2012, 11(6): M111.014340.

[9] Larman HB, Zhao ZM, Laserson U, et al. Autoantigen discovery with a synthetic human peptidome[J]. Nat Biotechnol, 2011, 29(6): 535-541.

[10] Xu GJ, Kula T, Xu QK, et al. Viral immunology. Comprehensive serological profiling of human populations using a synthetic human virome[J]. Science, 2015, 348(6239): aaa0698.

[11] Larman HB, Laserson U, Querol L, et al. PhIP-Seq characterization of autoantibodies from patients with multiple sclerosis, type 1 diabetes and rheumatoid arthritis[J]. J Autoimmun, 2013, 43: 1-9.

[12] Paull ML, Daugherty PS. Mapping serum antibody repertoires using peptide libraries[J]. Curr Opin Chem Eng, 2018, 19: 21-26.

[13] Wu FL, Lai DY, Ding HH, et al. Identification of serum biomarkers for systemic lupus erythematosus using a library of phage displayed random peptides and deep sequencing[J]. Mol Cell Proteomics, 2019, 18(9): 1851- 1863.

[14] Qi H, Ma ML, Hu CS, et al.Antibody binding epitope Mapping (AbMap) of two hundred antibodies in a single run[J]. BioRxiv, 2019, 8: 739342.

[15] Wang L, Whittemore K, Johnston SA, et al. Entropy is a simple measure of the antibody profile and is an indicator of health status: a proof of concept[J]. Sci Rep, 2017, 7(1): 18060.

[16] Kebede D, Aklilu M, Sanders E. The HIV epidemic and the state of its surveillance in Ethiopia[J]. Ethiop Med J, 2000, 38(4): 283-302.

[17] Adjei AA, Kudzi W, Armah H, et al. Prevalence of antibodies to syphilis among blood donors in Accra, Ghana[J]. Jpn J Infect Dis, 2003, 56(4): 165-167.

[18] Rai AJ, Gelfand CA, Haywood BC, et al. HUPO Plasma Proteome Project specimen collection and handling: towards the standardization of parameters for plasma proteome samples[J]. Proteomics, 2005, 5(13): 3262-3277.