APP下载

乳腺癌中长非编码RNA及LncRNA编码多肽的功能

2024-04-23郭艾敏

关键词:多肽靶点测序

郭艾敏, 朱 爽, 张 军

(广东药科大学生命科学与生物制药学院, 广州 510006)

非编码RNA(non-coding RNA, ncRNA)不编码正常蛋白质(长度一般大于80个氨基酸),但具有一定调控功能。人类基因组约80%DNA序列可转录成ncRNA[1]。其中,长非编码RNA(long non-coding RNA, lncRNA)长度超过200 个核苷酸(nucleotide, nt),选择性通过转录、翻译等途径参与正常的细胞功能或疾病的发生发展[2-5]。近年来,一些ncRNAs被发现能编码多肽,长度一般小于或等于50个氨基酸(amino acid, aa)[6]。已知部分lncRNAs编码多肽(long non-coding RNAs encoded peptide,以下简称lncRNA多肽),参与细胞增殖、肌肉生长[7]、肌肉性能调节[8]等细胞活动。2017年,首次在人源肿瘤细胞中发现有明确功能的lncRNA编码多肽[9]。

长期过量接触辐射和激素等致癌因子,易引起机体乳腺上皮细胞增殖失控,形成乳腺癌。2020年,世界卫生组织国际癌症研究机构发布数据,表明乳腺癌已取代肺癌成为全球发病率最高的恶性肿瘤[10]。关于乳腺癌的记录可追溯到公元前3 000-前2 500年[11],乳腺癌治疗记录可追溯到公元前1 600年[12]。18世纪到19世纪,通过乳房切除等外科手术治疗乳腺癌[12]。19世纪30年代到19世纪60年代,针刺活检技术、冷冻切片技术和乳房X光检查等技术用于乳腺癌检查[13-16]。1977年,开始使用他莫昔芬治疗乳腺癌,改变了以往的乳腺癌治疗方式[17]。2022年,3D打印模型的出现[18]及乳腺癌组织中胞内菌在促进癌症转移方面的重要作用的发现[19],拓展了乳腺癌病理和治疗领域的研究体系。

Fig.1 Timeline of major studies and milestones of breast cancer and breast cancer lncRNA from 3000 BC to the present

1 长非编码RNA与lncRNA编码多肽的研究方法

1.1 生物信息学工具与数据库

国内外预测lncRNA编码多肽的生物信息方法主要有2种:分析lncRNA中的开放式阅读框(open reading frame, ORF)以及基于已有lncRNA及其编码序列的机器学习与预测。目前,已开发了大量基于不同特征和机器学习(machine learning, ML)的生物信息学工具,用于系统地预测和分类lncRNA多肽(Table1)。lncRNA编码多肽的ORF预测,翻译起始元素:内部核糖体进入位点(internal ribosome entry site, IRES)预测[20]等技术日益成熟。软件MiPepid可预测lncRNA中的潜在的小ORFs,准确率可达96%,且能在基因组水平分析lncRNA多肽[21]。ORFFinder可分析查找lncRNA中潜在的ORF区,应用ORFfinder从NONCODE数据库收录的人源和小鼠细胞系及组织lncRNA序列中,鉴定出数百个小ORF区[22]。编码电位计算器(coding potential calculator, CPC)是一种基于支持向量机的分类器,可用于评估转录本的蛋白质编码潜力,CPC2运行速度比 CPC快,准确性更高[23]。CPC可预测具有编码功能的lncRNAs,但其预测的lncRNA约有20%~43%不能与编码蛋白质的mRNA区分[24]。在众多生物信息学工具中,lncRNA提取工具FEELnc(flexible extraction of lncRNAs, FEELnc),CPC和编码潜力评估工具(coding potential assessment tool, CPAT)在大多数物种中效果良好,而基于多种方法的编码电位计算工具(a coding potential calculation tool based on multiple features, COME),编码非编码索引工具(coding-non-coding index, CNCI)和lncRNAs风险评分工具(risk score of lncRNAs, lncScore)在分析模式生物时效果更好[25]。分析人类数据时,CPC预测结果的准确性不如CNCI_ve,且准确性最优的是COME_all与基于改进k-mer(指包含在一段序列中的长度为k个碱基的子字符串)方案的长非编码RNA和信使RNA预测工具(predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme, PLEK);分析人和小鼠数据时,FEELncffcl与FEELncallcl的精确度和阴性预测值较好,而CPC的特异性和阳性预测值更好[25]。

许多数据库被开发用于收集、获取lncRNA及lncRNA多肽信息(Table1),例如TCGA、NONCODE、FuncPEP等。癌症基因组图谱(the cancer genome atlas program,TCGA)是研究lncRNA及lncRNA多肽的常用数据库,可获取乳腺癌lncRNA[26-28]相关数据。NONCODE数据库已收录272个乳腺癌lncRNA相关信息。数据库FuncPEP已收录112个经实验验证与功能表征的ncRNA多肽与ncRNA转录本的信息[29]。数据库SPENCER可深入研究癌症患者ncRNA编码的小肽(ncRNA-encoded small peptides, ncPEP),在 29 种不同癌症类型中鉴定出由lncRNA,misc-RNA,sRNA,snRNA和rRNA 5种ncRNA翻译的小肽,其中,19 831 个由lncRNA 翻译,9 688 个由misc-RNAs翻译,3个由sRNA 翻译,2个由snRNA 翻译,2 个由 rRNA 翻译[30]。

1.2 验证LncRNA编码多肽的研究方法

目前,lncRNA多肽的研究仍处于初级阶段,其研究方法主要基于生物信息学技术和高通量测序技术。但不同生物信息学技术预测小开放阅读框的准确度差异较大[21,24],因此需要质谱分析、高通量测序等技术进一步验证。

1.2.1 基于质谱的多肽组学技术 lncRNA多肽组是分子量介于蛋白质和代谢物二者之间、有重要生物学功能的一类化合物。多肽组学(peptidome)主要涵盖多肽组分分离技术、分子量质谱鉴定与序列生物信息分析技术,例如基于液相二级质谱技术能定性定量分析目标生物、器官、组织或细胞样品中的多肽和多肽类化合物。在多肽组研究的生物信息分析过程中,常需要结合转录物组和蛋白质组数据进行检库比对分析。利用液相二级质谱、免疫亲和纯化- 质谱分析等基于质谱的蛋白质组学分析,鉴定出了lncRNA LINC00961编码多肽SPAR,并分析了其作用机制[32]。质谱法灵敏度不如RNA测序,但能直接定量检测肽的产生[33]。

1.2.2 基于高通量测序和转录物组分析的方法 高通量测序与转录物组分析常用于检测lncRNA[34,35]。对人体脂肪组织干细胞lncRNA的转录物组、翻译组等数据进行生物信息分析,发现35个有编码功能的小ORF[36]。单细胞RNA测序(single-cell RNA sequencing, scRNA-seq)、核糖体测序(ribosome sequencing ,Ribo-seq)、mRNA测序(mRNA sequencing ,mRNA-seq)等高通量测序方法,常用于鉴定乳腺癌中差异表达的mRNA和lncRNA[37]。Ribo-seq对蛋白质水平的预测能力高于mRNA-seq[33],但经典的Ribo-seq不能较好的区分产生肽的lncRNA与螯合核糖体(lncRNA结合到核糖体而不翻译)并充当核糖体海绵的lncRNA[38]。基于Ribo-seq分析,相继开发出L-叠氮高丙氨酸介导的RIBOsome分离法(AHA-mediated RIBOsome isolation, AHARIBO)、核糖体分析与贝叶斯预测(ribosome analysis and bayesian prediction, RP-BP)、RiboCode和RiboWave等方法。AHARIBO能检测出编码小肽的lncRNA及与核糖体相关但未翻译的lncRNA[38]。RP-BP能识别基于核糖体谱翻译的ORF,多用于蛋白质组学验证的ORF预测与肽的鉴定[39]。RiboCode能从核糖体分析数据中鉴定出有翻译活性的RNA[40]。在发现具有可靠翻译证据的非规范smORFs方面,RiboCode具有优异的准确性、敏感性和分析效率[40],而RiboWave能够更加准确的鉴定ORF翻译活性、定位翻译起始位点[41]。

Table 1 Bioinformatics tools and databases for lncRNA and lncRNA-encoded peptides

1.2.3 基于生物信息、分子和细胞研究的鉴定方法lncRNA多肽的鉴定常需要多种方法联合分析。例如,通过CNCI、CPAT、CPC2、PhyloCSF等在线工具分析lncRNA HBVPTPAP的编码潜力,实时荧光定量PCR法验证,发现HBVPTPAP编码多肽[42]。用ORFFinder预测GENCODE数据库中人类lncRNAs序列,将筛选结果与GWIPS-viz数据库中核糖体分析数据进行比较,发现583个可能编码多肽的lncRNA,最终用实时荧光定量PCR和蛋白质印迹分析确定LINC00908编码STAT3的一个小调节肽(a small regulatory peptide of STAT3, ASRPS)[43]。利用实时荧光定量PCR发现有编码潜力的lncRNA 1810058I24Rik,通过体外翻译测定证实,其可编码线粒体微肽-47(Mm47)[44]。利用免疫印迹和免疫组织化学染色发现,Linc013026可编码微肽Linc013026-68aa[45]。

2 长非编码RNA与lncRNA编码多肽在乳腺癌中的作用

2.1 LncRNA在乳腺癌发生发展中的调控作用

乳腺癌的发展与lncRNAs的异常表达密切相关[46],不同乳腺癌亚型的lncRNAs有显著的差异表达模式[47]。在乳腺癌lncRNA中,以高表达的癌基因lncRNA为主(Table2)。在三阴性乳腺癌(triple negative breast cancer ,TNBC)中,lncRNAs通过多种途径影响肿瘤发展,例如LINC00096、MALAT1、KDM5B等lncRNA上调相关miRNA 的表达参与调控TNBC肿瘤发展;GAS5、NEF、MIR503HG等lncRNA在TNBC组织中下调,抑制肿瘤细胞增殖、迁移和侵袭[48]。在雌激素受体阳性乳腺癌中,lncRNA RP11-53O19.2和RP11-473L15.3过表达[49],lncRNA HOXA-AS2和MEG3低表达[50]。lncRNA LOC55420280在非侵袭性的管腔型乳腺癌中大量表达,但在TNBC中不表达[51]。

lncRNAs通过编码多肽[43,52]、调控表观遗传[53,54]、调节免疫[55]、调节蛋白质表达[48],等多种途径影响乳腺癌发展。诸如lncRNA LINC02273与在乳腺癌细胞转移性病变中表达量增加的蛋白质异质核核糖核蛋白(heterogeneous nuclear ribonucleoprotein L, hnRNPL)相互作用,增加前梯度2基因(anterior gradient 2, AGR2)的转录,驱动乳腺癌转移[53];lncRNA H19通过H19 / let-7 / Lin28 ceRNA网络抑制乳腺癌细胞中的上皮-间充质转化(epithelial mesenchymal transition, EMT),促进肿瘤细胞自噬[54]。乳腺癌来源的外泌体通过lncRNA SNHG16诱导CD73+γδ1 Treg免疫细胞表达,发挥免疫抑制功能,促进癌细胞转移[55]。此外,lncRNA可作为生物标志物,利用其表达与否及表达水平高低,诊断乳腺癌、预测患病可能性及预后情况。例如,lncRNA ATB可作为乳腺癌早期的无创性诊断标志物[56],lncRNA PVT1能预测乳腺癌的生存和预后情况[57]。

2.2 LncRNA在乳腺癌治疗中的作用

lncRNA通过影响耐药性和内分泌治疗过程等机制影响乳腺癌的治疗。同时,lncRNA作为生物标志物预测患病可能性及预后情况,已成为乳腺癌诊断、治疗和预后评估中的一个热门研究方向。

2.2.1 降低耐药性 lncRNA表达下调有利于降低癌细胞对化疗药物的耐药性,增加癌细胞对化疗药物的敏感性。例如lncRNA lncROPM表达下调,增加乳腺癌干细胞对他莫昔芬、多柔比星、顺铂等化疗药物的敏感性[58]。敲低lncRNA DILA1表达,可抑制乳腺癌细胞生长,增加乳腺癌细胞对他莫昔芬的敏感性[59]。抑制lncRNA LINP1表达可增加乳腺癌细胞对阿霉素和5-氟尿嘧啶的敏感性[60]。敲低lncRNA DDX11-AS1的表达可降低乳腺癌细胞对紫杉醇的耐药性,抑制乳腺癌细胞的增殖和迁移[61]。

2.2.2 潜在治疗靶点和生物标志物 lncRNA作为癌症治疗的靶点,例如lncRNA TROLL-2和TROLL-3在乳腺癌中表达上调,能作为靶点阻止乳腺癌等转移性癌症的发展[62]。lncRNA TMPO-AS1过表达会促进TNBC癌细胞增殖及转移,敲除TMPO-AS1可诱导癌细胞死亡,因此,TMPO-AS1可作为TNBC的潜在治疗靶点[63]。lncRNA HOTAIR在乳腺癌中显著上调,抑制HOTAIR的表达能增加乳腺癌细胞对电离辐射的敏感性,因此,HOTAIR是乳腺癌放射治疗的潜在靶点[64,65]。长非编码RNA SEMA3B-AS1 (long non-coding RNA SEMA3B-AS1, lncRNA SEAS1)通过miR-3940-3p促进TNBC细胞中的p53调节DNA复制抑制蛋白(p53-regulated DNA replication inhibitor protein, KLLN)表达,抑制TNBC细胞的增殖、迁移和侵袭,加速TNBC细胞凋亡,且lncRNA SEAS1的低表达与TNBC患者的预后不良相关,因此lncRNA SEAS1被认为是TNBC的潜在生物标志物[66]。

2.2.3 影响内分泌治疗 乳腺癌内分泌治疗过程与lncRNA的表达和调控密切相关。诸如,lncRNA BDNF-AS过表达激活内分泌抗性乳腺癌和TNBC中的mTOR信号传导机制[67];lncRNA LINC00309与使用芳香化酶抑制剂内分泌治疗乳腺癌患者的无病生存率有关[68]。雌激素受体拮抗剂他莫昔芬抑制乳腺癌中lncRNA HOTAIR表达[69]。雌激素诱导型lncRNA BNAT1调节内分泌抵抗性乳腺癌细胞中雌激素受体信号的传导,抑制内分泌耐药乳腺癌细胞的生长[70]。

2.3 乳腺癌中lncRNA编码的肿瘤特异性多肽功能分析

目前,已有百余个在线数据库和软件可预测lncRNA多肽的潜在活性与生物学功能,诸如AntiCP 2.0、NeuroPIpred和Meta-iAVP等[71]。迄今,数据库SPENCER已收录乳腺癌肿瘤特异性lncRNA多肽919个,其中731个经实验证实。经在线软件AntiCP 2.0[72](https://webs.iiitd.edu.in/raghava/anticp2/ )、PeptideRanker[73](PeptideRanker (ucd.ie))、iACP-FSCM[74](http://camt.pythonanywhere.com/iACP-FSCM)和PreTP-Stack[75](http://bliulab.net/PreTP-Stack)分析,结果显示,它们部分有抗癌、抗炎、细胞穿透等多种生物学活性(Fig.2)。其中,AntiCP 2.0与iACP-FSCM分析结果显示,分别有450个和224个多肽具有抗癌活性(Fig.2A和Fig.2B);PeptideRanker分析结果表明,有179个多肽具有生物活性(Fig.2C);PreTP-Stack分析结果表明,有680个多肽具有抗癌活性,274个多肽有抗血管生成活性,74个多肽有抗菌活性,718个多肽有抗炎活性,13个多肽有抗病毒活性,446个多肽有细胞穿透活性,325个多肽有群体感应活性,121个多肽有聚苯乙烯表面结合活性(Fig.2D)。

Fig.2 lncRNA peptide activity analysis

Fig.3 Schematic diagram of lncRNA-encoded peptides regulating breast cancer progression

2.4 LncRNA编码肽在乳腺癌治疗中的作用

近年来的研究工作显示,lncRNA多肽有望作为乳腺癌治疗的靶点[43,52]。例如,内源性LINC00665编码微肽CIP2A‐BP抑制TNBC细胞的迁移和侵袭,有效改善患者总生存期[52];LINC00908编码内源性多肽ASRPS抑制TNBC血管生成,遏制乳腺癌的发展[43];lncRNA LINC00511编码肽LINC00511-130aa,通过调节wnt/β-catenin通路相关蛋白质,促进乳腺癌细胞增殖和维持其细胞干性(自我更新和分化为成熟细胞的能力称为干性 )[76]。因此,微肽CIP2A-BP 、多肽ASRPS、多肽LINC00511-130aa有望作为治疗乳腺癌的潜在靶点。

Table 2 Human breast cancer lncRNA and its coding peptides in this review

lncRNA多肽可独立于lncRNA在生理病理调控过程中发挥重要作用,与mRNA编码蛋白质相比有以下几个特点。特点一是功能多样性。lncRNA多肽具有表观遗传调控、细胞信号转导调控等多种生物学功能[43,52]。特点二是表达特异性。lncRNA多肽在肿瘤和正常组织中存在明显的差异表达,能作为生物标志物或治疗靶点[52]。特点三是分子量小。多数lncRNA多肽都为小于100 aa的短肽[77]。在乳腺癌中,lncRNA多肽通过抑制癌细胞转移[52]、抑制血管生成[43]等多种机制调控乳腺癌发展。lncRNA多肽在肿瘤和正常组织中存在明显的差异表达,使其有望开发为新的治疗靶点或癌症诊断标志物。此外,其分子量小和表达特异性强等优点,有望用作潜在的治疗分子。

3 问题与展望

lncRNA在不同的细胞和发育阶段中表达数量和丰度受到严格调控[86],它们在乳腺癌发生发展的基础研究与诊断干预研究中具有独特价值。公共数据库已积累数千个乳腺癌lncRNA编码多肽,也有多种干、湿实验分析技术可供选择。然而,现有研究多局限于少数人源乳腺癌病理组织与几种常用乳腺癌细胞株及其荷瘤小鼠中。目前,相关研究工作仍欠缺普及使用多肽组、单细胞组、基因编辑和异源表达、体外重组等多种技术在乳腺癌的多种细胞或病源组织中,鉴定和验证一种或多种lncRNA编码多肽的表达模式、分子功能及生理特性。

在宏观层面,仍有必要高通量分析更多乳腺癌病例中的lncRNA编码多肽,以明确它们表达模式的典型共性特征,以及在乳腺癌不同亚型、不同发病阶段、不同治疗手段等病例中的选择性与个体差异特征。在微观层面,也有必要通过更多此类多肽的lncRNA编码区的融合重组表达、细胞转染和功能表征,分析它们在肿瘤发生发展中的正向或反向作用,促进基于lncRNA编码多肽靶向调控的精准治疗手段或相关预后诊断技术的研发与应用。此外,鉴于已知lncRNA编码多肽通常具有多种生物学活性,它们异源重组制备或化学合成,以及与纳米材料结合改性后,对肿瘤细胞和荷瘤实验动物的干预效应也有一定的理论研究探索价值,在应用层面也有助于理解这些多肽的药理活性和药用价值,促进相关产品的开发与实践。

猜你喜欢

多肽靶点测序
杰 Sir 带你认识宏基因二代测序(mNGS)
维生素D受体或是糖尿病治疗的新靶点
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
肿瘤免疫治疗发现新潜在靶点
高多肽含量苦瓜新品种“多肽3号”的选育
抗HPV18 E6多肽单克隆抗体的制备及鉴定
心力衰竭的分子重构机制及其潜在的治疗靶点
胎盘多肽超剂量应用致严重不良事件1例
基因捕获测序诊断血癌
徐寒梅:创新多肽药物研究与开发