ncRI数据库介绍及数据获取方法
2021-07-20郑帅白利峰韩迪迪许丰硕吕军
郑帅,白利峰,韩迪迪,许丰硕,吕军
数据的有效获取一直是研究人员做科研的最基本保障,由于数据收集的困难,整理过程的繁琐,以及统计分析的方法壁垒都是研究过程中的难题。而公共数据库是由专业团队根据本领域的研究需求建立,为研究人员提供了一个专业性强、质量高、有保障的数据获取平台。SEER数据库(肿瘤)、MIMIC数据库(重症医学)和GBD数据库(全球疾病负担)均是医学生物研究领域已被广泛应用的数据库,而随着公共数据库给缺乏数据的科研人员带来了便利,越来越多的科研都是基于数据库而进行,随着数据库体系的成熟,一些专业性极高的数据库随之建立。本文将对炎症相关的ncRNA数据库的架构及其获取数据的方法进行介绍。
1 数据库简介
ncRI数据库是一个炎症相关的非编码RNA数据库。炎症是多种生理和病理过程的基础。尽管许多类型的炎症病理学方面已广为人知,但它们的生理功能多是未知的[1]。它是机体对有害刺激的一系列复杂的有机反应,是涉及免疫细胞,血管和分子介质的保护性反应,而炎症失调可能会破坏有机组织[2]。多次研究指明炎症被认为是癌症的最初临床表现之一,发现癌症的20%以上是由慢性炎症引起[2,3]。随着诸如miRNA和lncRNA等非编码RNA(ncRNA)的发现,ncRNA已被证明在免疫系统中发挥重要作用,并代表新的潜在靶点免疫疗法[4,5]。已证明IL-2可增强抗肿瘤活性,并已用于治疗恶性黑色素瘤和肾细胞癌[6]。ncRI数据库系统的记录了散布在大量文献中炎症性疾病相关ncRNA的数据,ncRI的当前版本记录了11 166种跨3个物种(人类、小鼠、大鼠)的人工策划条目,其中包括来自2000多篇文章的1976种miRNA(微小RNA)、1377种lncRNA(长链非编码RNA)和107种其他ncRNA。该数据库中的每个条目都包含有关该ncRNA的全面信息[7]。数据库官网首页如图1所示,网址:http://www.jianglab.cn/ncRI/。
图1 ncRI数据库主页
2 数据获取方法
用户从该首页可观察到数据库功能区分为五个板块。模块1红色框是search部分,点击进入后如图2所示,页面出现两个搜索输入框,用户可在ncRNA处输入需搜索的非编码RNA的名称,在Disease处输入选择对应研究的疾病名称。我们以ncRNA mir-155-5p和疾病Neuroinflammation为例,输入后点击下方search按键即可搜索。结果如图3所示,用户可在结果中获取的数据有所研究ncRNA的所属物种,表达方向,通量信息,检测方式,点击PMID(PubMed ID)下方所对应的ID直接文献检索,可点击对应more部分,获取所研究ncRNA的基础信息,如mir-155-5p在miRBase 数据库中对应的ID“为MIMAT0000646”,该实验是在“2014”年得出结果,参考文献为“MicroRNA-155 negatively affects blood drain barrier function during neuroinflammation”,对神经炎症的影响机制为“脑内皮miR-155是BBB功能的负调节剂,可能构成CNS神经炎性疾病的新型治疗靶标”,检测方式为“定量RT-PCR”,这里记录了该相关ncRNA的全部实验信息。
图2 数据搜索页面
图3 数据搜索结果
模块2黄色框为Browse部分,点击进入后如图4所示。用户可根据研究方向在左边选择Human、Mouse、Rat三类物种,数据内容部分包括了ncRNAs和Diseases两种浏览选择方式。用户可双击ncRNAs,即可弹出miRNAs、inRNAS、Other ncRNAs三个数据储存包,根据研究需求双击进入,单击指定RNA进入后会查询到图3相似的数据信息。同样,用户可以从疾病入手查询相关ncRNA,双击Diseases会弹出各大类病种,双击所属病种直到显示精确的疾病名称,点击进入会显示图3相似的数据列表。
图4 Browse部分的数据储存页面
模块3蓝框为下载数据部分,同样数据分为Human Data、Mouse Data、Rat Data三块内容,用户可点击图5红框内的蓝色字体即可下载数据到本地,下载到本地的格式为xlsx表格,如图6所示,可从表格中查询到该RNA的名称、疾病、机制、描述、检测年份、种类、通量、检测方式、物种等多种数据。
图5 数据下载页面
图6 数据库中人类ncRNA数据
模块4绿色框为数据提交区域,如图7所示。ncRI数据库的用户如有新的ncRNA发现,在此区域可以上传数据,ncRNA的物种属性(Species)、ncRNA的名称(ncRNA)、基本的描述(Description)、PMID编号是必须提交的,同时可以上传相关的疾病(Disease)、表达方式(Expression pattern)、检测方式(Detection method)的实验方法包括高通量和低通量、表达部位(condition)包括组织和细胞系、研究成果的发表时间(year)、所参考研究项目的名称、以及其表达或影响机体的机制(mechanism)。填好新ncRNA的相关信息后点击下方submit键,确认提交即可。后期经过数据库工作人员进行验证信息的真实性和准确性才可录入库中。用户可以对数据库补充也是ncRI数据库的一大特点。
图7 新ncRNA提交页面
模块5黑色框是Help区域,如图8所示。Help Center 分为五个部分,分别为Introduction、Search、Browse、Download、Submit.用户可以单击相应名称即可打开,内容阐释了每个部分的功能介绍,以及对应的名词解释。比如我们想要了解Browse部分的功能,点击该图标或者字体即可,如图9所示,数据库对每一部分的标识都做出了解释,用户可以很好的理解和应用数据库。
图8 Help模块操作页面
图9 Browse模块标识
在图1的右下方用户可以看到Total Data、RNA Category、Disease Number 三个小板块。在Total Data 下方图中可知,最新数据在2020年8月更新,数据库中高通量测序的人类RNA总占比为51.5%,低通量测序的人类ncRNA总占比为24.7%;高通量测序的小鼠ncRNA总占比为10.7%,低通量的小鼠ncRNA总占比为7.2%;而高通量测序的大鼠ncRNA占数据库全部的4.4%,低通量测序的大鼠RNA总占比为1.4%。点击RNA Category后下方直方图显示了不同种类的不同ncRNA的样本量大小,其中人类miRNA记录了1115条,人类lncRNA记录了1202条,人类其他ncRNA(other ncRNA)记录了82条;小鼠miRNA记录了647条,小鼠lncRNA记录了59条,小鼠其他ncRNA 记录了26条;大鼠miRNA记录了218条,大鼠lncRNA记录了148条,大鼠其他ncRNA并没有记录。同样点击Disease Number后下方会弹出描述各物种在数据库中记录相关疾病的数量,其中与人类相关的254种,与小鼠相关的115种,与大鼠相关的41种。
3 总结
公共数据库数据量大、质量高、可操作性强是它的优势,大量研究都是基于数据库而进行,它的广泛应用已得到了研究人员的深度认可,越来越多的数据库建立,解决了诸多研究人员缺乏数据研究的困境。Yang等对13个数据库(SEER,MIMIC,CHNS,HRS,Dryad,UK Biobank, BioLINCC,GEPIA,TCGA,TATGET,eICUCRD,GEO,GBD)进行了综合介绍,如WU等基于SEER数据库的研究[8],该研究可帮助临床医生做出更好的临床决策,并为诊断为盲肠癌的患者提供更好的治疗支持。Feng等利用NHANES数据库研究发现肾结石的患病率随体力活动量的增加而降低,1周大约2480 MET-min时达到体力活动的平稳期,当剂量-反应关系呈平稳状态之后,肾结石患病率不随体育锻炼的增加而改变,而过度的体育锻炼与肾结石患病率呈负相关,这项研究可以让人们知道并不是一味的锻炼对身体都是有益的,而应参考科学的指导进行有效锻炼[9]。
ncRI数据库是专属炎症ncRNA的公共数据库,数据库从已发表的论文中收集了在炎症性疾病中经过实验验证的ncRNA,相关出版物是从PubMed数据库中手动整理的,从中检索有关ncRNA及其在炎症性疾病中作用的信息。值得注意的是,用于检测与炎症性疾病相关的ncRNA的实验方法涉及多种实验技术,可概括为高通量方法(如微阵列和RNA-seq)和低通量方法(如qRT-PCR)。高通量方法会引入更多潜在的相关ncRNA,但也会带来假阳性关联。低吞吐量方法显示了更可靠的关系,但提供的关联相对较少。为了平衡数据库的丰富性和可信度,开发者将两个实验数据都保存在数据库中。通过高通量实验和低通量实验,总共获得了7400个条目和3766个条目。最近,炎症被认为是传染性和非传染性疾病(特别是被认为是癌症的标志)的发作,发展和结果的关键标志[2,3]。另外,炎症因子,例如细胞因子和趋化因子,可调节免疫系统的行为并参与免疫治疗。ncRI数据库收集了经过实验验证的ncRNA的数据,并描述了ncRNA在炎症疾病中的重要作用,这将对免疫疗法的研究提供宝贵的数据信息。
炎症是预防感染和促进组织修复的必要过程,而慢性炎症则是多种炎症性疾病(包括炎症性肠病,关节炎,哮喘,糖尿病,肥胖症和癌症)的发病机理和病程。通过诱导,增强抑制免疫或炎性反应来治疗疾病的免疫疗法展现出了一种有前途的癌症治疗方法[10]。ncRNA在免疫系统中发挥重要作用,如出现新的潜在靶点免疫治疗[11,12]。有关与炎症有关的ncRNA的综合资源将极大地增进我们对炎症疾病中ncRNA失调的了解,并促进ncRNA治疗剂的发展。ncRI是一个手动管理的数据库,用于记录实验验证的炎性疾病中的ncRNA,包含了炎症过程有关的ncRNA的全面描述,机制和证据。ncRI的开发和扩展将继续进行,我们希望这个专门为炎症性疾病相关的ncRNA设计的详尽数据库可对免疫疗法的研究有所帮助。