大数据对临床检验诊断专业研究生教学的影响
2024-03-21蔺静张冬青李晓亮
蔺静 张冬青 李晓亮
临床检验诊断的作用是提供检测指标,为临床诊断提供依据,持续创新是这个学科的特点之一[1]。临床检验诊断不仅是分子生物学、生物化学、免疫学、微生物学、临床医学等多学科交叉的专业,同时是将最新科学技术进展应用到临床诊断、疾病检测的学科[2-3]。与此同时,技术的创新又极大改变了临床检验诊断的检测模式。随着生物信息学的发展,大数据(big data)被迅速应用到临床疾病诊断中。如伴随分子生物学和高通量基因测序技术的发展,基因组学、转录组学、蛋白质组学、脂类组学、糖类组学、代谢组学、免疫组学和核糖核酸(ribonucleic acid,RNA)组学等多种“组学”技术正逐步应用到临床检验诊断中,新技术的发展也给临床检验诊断专业的研究生教育注入了新的内容。
1 大数据在临床检验诊断中的应用
大数据是指无法在一定时间内用传统数据库软件对其内容进行抓取、管理和处理的数据集合[4]。二代基因测序(next-generation sequencing,NGS)技术产生的大数据经生物信息学应用程序进行数据分析和解读后,在临床医学上用于妇幼、肿瘤、遗传病等多个领域。NGS 技术在国内医学领域的大规模应用开始于无创产前筛查(non-invasive prenatal testing,NIPT),其通过分析染色体核型对胎儿染色体疾病进行产前诊断。继NIPT 之后,肿瘤成为了NGS 的又一个重要应用领域。肿瘤诊断治疗中常用的检测方法包括肿瘤靶向测序、全外显子测序、全基因组测序、转录组测序。近年来,欧洲医学肿瘤学会(European Society for Medical Oncology,ESMO)推荐对晚期鳞癌以外的非小细胞肺癌、前列腺癌、卵巢癌和胆管癌的肿瘤样本常规使用NGS 检测,并建议临床研究中心开发多基因测序,用于筛选符合临床试验条件的患者和加速药物研发,并前瞻性地获取数据,以进一步指导如何优化NGS 的使用[5]。
另外,基于NGS 的宏基因组测序(metagenomic next-generation sequencing,mNGS)技术由于具有检测范围广、无需预先培养样本、检测通量高等特点,已成为临床微生物病原学诊断和解决临床感染难题的新利器[6-8]。mNGS 通过对临床样本中直接提取的DNA 和/或RNA 进行高通量测序,再经过数据库比对与生物信息学分析,可一次性完成细菌、真菌、病毒和寄生虫等多种病原体检测[8]。mNGS 分别于2018 年和2019年先后被写入《中国成人医院获得性肺炎与呼吸机相关性肺炎诊断和治疗指南》[9]和《宏基因组分析和诊断技术在急危重症感染应用的专家共识》[10]。2021 年又出台了《宏基因组测序病原微生物检测生物信息学分析规范化管理专家共识》,阐述生物信息学分析的规范化管理[11]。由此可见,NGS 技术应用于临床检验诊断有广阔的空间,而大数据的生物信息学分析能力是解读NGS 的核心。
2 生物信息学是临床检验诊断专业研究生使用大数据的工具
2.1 生物信息学是临床检验诊断专业研究生的必修课
临床检验诊断专业研究生是为医院检验科和医学院校培养的具有科研能力的复合型高级临床检验人才[3],在大数据背景下,既往获得的传统的统计学知识已不能满足涉及大数据分析的临床和科研的需求,为了适应临床检验诊断发展的新趋势,迫切需要增加生物信息学的学习以提升和掌握统计数据的能力。
生物信息学是一门随着人类基因组计划(Human Genome Project,HGP)的发展而迅速崛起的交叉学科,主要涉及数学、计算机科学、统计学和生物学等多个学科,其内容包括了生物信息的获取、处理、存储、分析和解释等各个方面,旨在综合运用数学、统计学、计算机科学和生物学的各种工具,阐明和解读大量数据所包含的生物学意义,进而揭示和理解“基因组信息结构的复杂性及遗传语言的根本规律”[12-13]。在生物医学大数据时代,生物信息学研究重点已由单个基因转移到多个基因和“组学”的研究中。生物信息学已经成为生命科学和医学研究领域的强大推动力,当前临床检验诊断学领域需要大量生物信息学方面的人才。
2.2 生物信息学大数据的资源及分析的软件
生物信息学的资源包括生物信息学数据库及在线或者商品化的分析工具,数据库种类非常丰富、几乎涵盖了生命科学的各个领域,可以按照数据特征分为序列、结构、分子相互作用及系统生物学数据库等;按照分子种类分为核酸、蛋白质等数据库;数据量更新速度快;数据应用广泛,使用频率不断增长;数据库内容形式不断优化,美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、瑞士生物信息学研究所(Swiss Institute,SIB)和欧洲生物信息学研究所(European Bioinformatics Institute,EBI)等研究中心提供了大量的生物信息学资源[14],OMIM、CTD、Gencard、SEA、Swiss Target Prediction 等数据库形式和内容更新快,可以通过互联网查询。
生物信息数据分析的软件主要包括大家所熟知的Excel、SAS、SPSS,以及目前非常流行但相对陌生的R语言和Python 语言,了解和掌握生物信息学方法和工具对于进行数据分析至关重要。R 语言为统计分析软件,集图像显示、统计分析为一体;Python 是ABC 语言代替品,其提供高效、高级的数据结构,能够有效简单地面向对象进行编程;将R 语言和Python 加以混合编程能够实现统计运算的良好运行[15]。
2.3 临床检验专业研究生生物信息学的教学现状
目前国内只有少数医学院研究生课程设置了生物信息学的选修课,即使开设也是刚刚起步,授课老师人数较少,师资力量薄弱,教学体系不尽完善,缺乏通用的权威性教材,缺乏完善的教学模式和有效的教学方法。生物信息学是一门多学科交叉的工具类课程,课程需要较好的分子生物学知识作为基础。目前授课内容只有相关软件和数据库的应用,缺乏实践教学与医学临床应用和研究的结合,导致学生不能灵活应用[16]。一些临床检验诊断专业研究生从未接受过生物信息学培训,其计算机和数学基础相对薄弱,从零基础开始学习R 语言、Python 语言等编程语言进行数据分析有一定难度。因此,生物信息学课程采用传统的演示型教学模式不能充分调动学生学习的积极性,造成学生陷入听不懂、不愿听和学不会的恶性循环,学生参与度较低,不能举一反三,融会贯通[17]。
2.4 LBL+CBL+MOOC 的生物信息学教学方法
以培养“具有科研能力的复合型高级临床检验人才”为目标的研究生,无论是否初步接受过生物信息学的培训,在完成基础课程进入临床实践和科研阶段时,都应重视生物信息分析能力的培养。特别是对于完全没有接触过生物信息学的学生,更应采用多种方法来弥补这一短板。在临床检验诊断专业研究生教学中,学生首要的是认识到生物信息学在医学大数据时代的重要性,并在心理上克服畏难情绪。针对这些问题,如何更高效地达成培养目标?笔者采用了集授课、案例教学和网络课程为一体的综合教学方式。
2.4.1 以授课为基础的学习(lecture-based learning,LBL)
LBL 教学法是传统的教学方法,广泛应用于基础与临床医学教育,该传统教学方法以教师授课为主导,通过系统介绍知识,使学生扎实掌握基础并形成完整的知识体系,同时有助于学生记忆[18]。学生可与教师进行面对面交流,提高学习效率,但这种传统教学方法通常以教师为主导,过分强调教师的作用,而未能充分调动学生的主观能动性。因此,需要结合其他教学方式来改进。
2.4.2 以案例为基础的学习(case-based learning,CBL)
CBL 是由以问题为基础的学习(problem-based learning,PBL)发展而来,是以应用案例作为教学基础,教师通过列举有代表性的具体案例组织教学,提出问题,引导学生深入分析并探寻解决问题方案的一种互动式教学方式[18]。CBL 提倡学生自主思考,更好地激发学生兴趣,调动学生的主观能动性,具有较强的实践性。
2.4.3 大规模在线开放课程(massive open online course,MOOC)
MOOC 已经成为21 世纪人们获取知识和技能的新途径,MOOC 的特点主要是学习参与者规模巨大、数据量巨大,主要或所有的教学环节均通过网络实现,课程和教学资源向所有人开放。另外,MOOC 具有很强的互动性,除了视频和文本材料以及在线答疑外,还有各种用户交互性社区,学习者可以自发进行协作、交流并构建学习网络,完成自主学习[19]。MOOC 受到学习者普遍认可的原因主要在于其突破了时空限制,丰富了课程形式,使抽象的知识形象化,在学习的自主性方面具有天然优势[20]。
2.4.4 LBL+CBL+MOOC 教学模式相结合的实践
首先,教师进行理论授课,给学生传授生物信息学的基本理论知识,包括大数据与数据分析的概念、医学人工智能的相关知识、数据分析工具介绍、Python基础、R 语言基础、数据可视化处理等。其次,教师进行案例教学。教师根据学生的知识水平及专业背景,带领学生从公共数据库上下载疾病相关的数据库,案例设计应该与临床医学息息相关,例如:表皮生长因子受体(epidermal growth factor receptor,EGFR),人类表皮生长因子受体-2(Human epidermal growth factor receptor-2,HER2)信号通路在肝癌中发挥重要的作用,虽然采用EGFR/HER2 单克隆抗体或通路抑制剂取得了较好的临床治疗效果,但仍有很多患者对治疗产生耐药,需要深入探讨调控EGFR/HER2 信号通路的机制[21]。另外,由于长链非编码RNAs(long noncoding RNAs,LncRNAs)是肿瘤发生、发展的重要调节因子,因此,教师应选择“筛选调控EGFR/HER2信号通路的LncRNAs”进行案例教学。在案例教学开始之前,教师会要求学生查询相关的文献资料,并指导学生复习数据库的查询使用方法;学生尝试在电脑上操作练习进行数据挖掘和生物信息分析,学生以幻灯形式汇报自主学习的成果,展示解决问题的思路;教师和学生集体参与讨论,最后由老师带领学生同时在电脑上进行操作。为了寻找调控EGFR/HER2 信号通路的LncRNAs,学生检索TANRIC 数据库(https://ibl.mdanderson.org/tanric/_ design/basic/main.html),并得到293 条LncRNAs 与EGFR 在肝癌中正相关,根据相关系数数值大小,选出最相关的10 条LncRNAs在MSigDB C2 经典通路基因集中进行基因集富集分析(gene set enrichment analysis,GSEA),发现MYLKAS1、AC135050.5 和AC118344.1 这3 条LncRNAs 与K-RAS 信号通路活化相关。K-RAS 是EGFR/HER2的重要下游信号通路。接下来,从癌症基因图谱the Cancer Genome Atlas(TCGA)数据库中下载RNA-seq数据,比较肝癌和癌旁组织中上述3 条LncRNAs 的表达差异,只有MYLK-AS1 在肝癌组织中表达上调。从TCGA 数据库下载肝癌患者临床信息,预后分析显示,高表达MYLK-AS1 与肝癌预后差密切相关。通过上述步骤筛选出了激活EGFR/HER2 信号通路的上游调节因子MYLK-AS1[21]。在此过程中,教师是教学组织者、资源提供者、自主学习的指导者,教师恰当地引导,学生参与讨论,教师带领学生从第一步开始动手操作,直到最后完成筛选过程。通过案例学习,学生对所学知识的应用能力得到了很大的提高,同时也增加了对学习的兴趣。学生会产生自己进行筛选分析的愿望,进而对老师所教授的内容产生不满足感,从而转入MOOC 模式的学习。学生转变学习模式,以自己为中心进行学习,充分利用社会资源,根据需求参加线上、线下各种层次的生物信息培训,在互联网中寻找学习资源。学生通过观看网络视频、阅读网络文章进行学习,关注微信平台上生物信息分析的公众号获得信息;阅读生物信息学的相关书籍,系统了解生物信息的知识。学生线上课程学习利用R语言实现各种数据挖掘方法,重点放在学会根据需要下载和安装相应方法的R 程序包,以及根据R 程序包的帮助文档来实现其中的主要函数和功能,而非数据挖掘方法的理论基础[22]。因此,在LBL+CBL 的基础上,学生结合互联网资源进行学习与讨论,开展MOOC 模式的学习,寻找解决问题的办法,并逐步提高利用生物信息学工具进行分析的水平。
总之,教师只有采用多种方式教学,学生采用多种方式不断深入学习,才能利用生物信息学工具解决临床检验诊断中涉及大数据分析的问题,寻找科研切入点开展研究。
2.5 LBL+CBL+MOOC 教学模式的效果评价
LBL+CBL+MOOC 教学模式在临床检验诊断研究生教学中开展较好,对近三年解放军总医院第四医学中心20 名研究生进行问卷调查显示,100%学生提高了对大数据和生物信息学的兴趣;100%学生能熟练检索常用网站数据库并下载数据,提高了利用大数据的能力;90%的学生能独立运用R 软件对网络数据库的大数据进行统计分析。有的学生能利用网络数据库大数据的资源,采用生物信息学工具进行分析,设计课题,完成论文写作。
例如宋松泽等[23]探讨了丙酮酸脱氢酶E1 亚基α1(pyruvate dehydrogenase E1 subunit alpha 1,PDHA1)在肾透明细胞癌中的表达及影响,首先检索癌症数据库TCGA 中的转录组数据,统计分析PDHA1 在肾透明细胞癌和癌旁组织中的表达差异,以及PDHA1 与肿瘤分期、分级和淋巴结转移的关系,并通过Kaplan-Meier 分析绘制生存曲线,判断PDHA1 对肿瘤预后的影响,最后通过基因本体(gene ontology,GO)注释及京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)富集分析探讨PDHA1 发挥抗肿瘤作用的可能信号通路。
3 结语
随着当前大数据在检验医学应用的不断深入,临床检验诊断专业的研究生面对大数据时代新技术的挑战,唯有克服困难,砥砺前行,紧跟大数据时代的步伐,更新思维方式,提升自身综合素质,才能使自己成为能够利用大数据进行临床检验诊断和科学研究的创新型、复合型人才。另外,学生应加强生物信息学的学习,提升使用大数据的能力,有利于将以高通量“组学”项目为代表的高新技术应用于临床检验诊断,有利于利用网络数据库开展科学研究,从而为临床诊治提供更多有价值的线索,不断提高为患者服务的质量。