APP下载

基于R语言的医学统计学教学实践和探索
——以南京邮电大学生物医学工程专业为例

2022-11-05丽,江畅,王

智能计算机与应用 2022年10期
关键词:生物医学样本可视化

郭 丽,江 畅,王 俊

(南京邮电大学 地理与生物信息学院,南京 210023)

0 引言

医学统计学是生物医学工程专业人才培养的重要理论基础课程。随着数理统计学的发展,新概念和新方法不断涌现,并已在生物学和医学领域中得到广泛应用。研究可知,这是一门理论性要求很强的学科,当前生物医学研究问题日益复杂,变量强度关联逐渐增加,高通量测序数据规模则越来越大,致使实现原有计算方法成为亟待解决的研究问题。而基于计算机语言的统计软件正日渐趋于完善和成熟,即使得快速、高效解决这些统计学问题成为可能。

医学统计学是在高等数学和概率论等课程的基础上,在具有一定生物医学背景下开设的专业基础课程。其中包含了对核酸(DNA和RNA)、蛋白序列和结构信息,以及临床治疗信息的获取、整理、存储、分析和解释等内容,用于阐述和揭示生物体在生理病理状态下的分子机制和演化规律。本课程的开设,有助于培养学生对实验设计和统计方法在生物医学大数据中的熟练运用。同时也有助于培养学生分析问题和解决问题的技能,对学生以后从事相关科研和管理工作具有重要的能力提升作用。通过对生物医学大数据的挖掘和筛选,可以为患者提供最优的诊断和治疗方案,还能对未来的生活方式做出前瞻性指导。R语言是大数据研究者常用的编程语言,主要用于数据统计分析、结果可视化、数据深度挖掘等,现已广泛应用于生物医学工程和生物信息学等科研领域。R语言具有比Excel和Spass更强的数据分析和图形可视化能力,是一种更适合在生物医学工程专业本科教学中使用的统计学分析软件。目前,将R语言应用在医学统计学中的教学尝试仍处于初始阶段。因此,如何将R软件融入医学统计学教学,借助其突出的统计分析与可视化优势、再和本专业学生所具有的基础编程能力相结合,还需要更多的研究和探索。

1 R语言应用于医学统计学教学中的必要性

统计学分析是传统生物学、现代分子生物学和医学研究中不可缺少的一部分,通过数据同质性和变异性的数量表现,经过观察、对比、分析,将隐藏在生物问题中的规律性进行剖析并揭示各规律间的必然性,用于指导生物医学科研中的理论和实践。统计理论是建立在抽象的数学假设基础上,运用统计学原理,根据数据特点,选用合理的统计学方法进行分析,最终得到结果可靠的科学结论。在实际医学统计学教学过程中,仍存在一些普遍性问题。首先是在有限的课时要求下,仅用一学期的时间学习这门课,由于过多强调理论讲解,容易忽视学生统计思维和数据分析处理能力的联合培养。其次、在理论课学习过程中、且没有使用软件的前提下,老师对例题进行讲解时,学生容易感到枯燥,手动计算错误率偏高,且费时。

通过调研分析医学统计学学科特点显示,基础理论与实际应用联系紧密,但前者的掌握多处于劣势。只重视实践而轻理论则易导致学生知其然而不知其所以然。如果将R语言引入到医学统计学教学中,就可以有效地缓解这一点,能更直观灵活地分析大数据,且重复性高、可操作性强,既可强化学生的统计思维,又能增强学生动手编程能力。教学实践证明,将R语言应用到医学统计学教学中,可以大大增加课堂教学的信息量,使学生能更加专注于生物医学问题的分析和联系,实现精确计算,并提高课堂教学效率。

R语言具有强大的数据统计和图形展示功能,并且是开源免费下载、且会对版本进行定期更新,同时R语言还包括有众多科研人员后续不断研发的丰富软件包资源。再者,R语言与Rstudio的联合使用,使科研工作者对R语言的运用更是得心应手。最后,R语言具有强大的图形处理能力,除了基础作图外,还可以通过ggplot2软件包等进行图层叠加和个性化设计绘图,更好地将数据结果呈现出来。这些优势使R语言在医学统计学中的运用成为必然,而且将R语言运用到医学统计学的教学实践也是一个合适且值得推荐的方法。

2 围绕R语言实施医学统计学教学案例分析

根据生物医学工程专业教学的特点,结合癌症治疗数据分析,设计以下教学案列。

2.1 生物医学样本描述性统计

由于医学统计学的教学内容有许多抽象的概念,比如样本统计分布、统计检验原理等。这些内容通过课堂讲解往往难以使学生建立比较清晰的认知,致使教学效果欠佳。此时,则可以用R语言的数据模拟和图形可视化来演示此过程。具体实现过程详见如下:

分别设置不同的样本抽样次数(200、400、600、800、1000)来计算样本的均值、中位数、标准差、方差并记录,见表1。同时,生成不同抽取次数的样本分布图(见图1),此外还计算了抽取1000次的样本分布与理论抽样分布之间的关系(见图2)。

表1 不同次数抽样结果比较(正态分布)Tab.1 Comparison of results of different sampling times(normal distribution)

图1 不同次数抽样分布比较(正态分布)Fig.1 Comparison of sampling distribution with different times(normal distribution)

图2 从总样本中随机抽取1000次与理论值比较图Fig.2 Comparison diagram of the values by random sampling 1000 times from the total samples and theoretical values

从这个教学案例中,能够直观地通过R语言分析和可视化过程,形象地将学生难于区分的标准误和标准差概念进行展示。其次,又通过不同抽取样本次数进行数据模拟比较。综上所述,均能锻炼学生对样本进行描述性统计分析的能力。

2.2 癌症病人接受药物治疗前后配对样本t检验的可视化案例

配对样本检验是检验来自同一总体抽取的成对样本间差异是否为零。下面将以某种药物临床治疗前后病人肿瘤尺寸大小数据分析为例进行示例说明配对样本检验。若药物对病人治疗是有效的,就可以判断得知多数病人接受药物治疗后,肿瘤尺寸将显著缩小。具体实现过程详见如下:

#读取癌症病人接受某临床药物治疗前后肿瘤体积数据

#添加显著性水平

通过R语言可视化,可以得到此种药物在治疗病人前后,2组间病人的肿瘤体积已明显缩小(0.0011),说明药物对肿瘤病人的治疗是有效的,参见图3。

图3 配对样本t检验显示某种药物治疗后病人肿瘤体积显著缩小Fig.3 Paired sample t-test shows that the tumor volume of the patients decreased significantly after drug treatment

通过教学案例2,使生物医学工程专业的学生在生物医药数据背景下,进一步熟悉理解配对样本检验的原理,从而加深了对样本配对检验的概念理解和原理掌握。

3 R语言在医学统计学实验教学中的教学思考

在医学统计学教学中,对课程中的核心概念进行R语言演示和可视化的过程,可以帮助学生理解抽象的概念和理论。在此过程中,注意只要求学生通过使用相关R语言程序进行参数调整实现统计分析,不要求学生过多掌握复杂编程和可视化,发挥R语言用于辅助教学的长足优势。此外,在教学过程中,通常不要求学生对统计理论的推导进行掌握,更多的是对这些基本概念的理解和相关统计理论在生物医学领域中的灵活运用,正确使用统计学方法,为科研和医学研究服务。在医学统计学教学过程中,R语言教学对生物医学工程学生的培养,可使其具备扎实的生物医学理论知识和灵活的分析技巧,从而可以为大医疗行业人才培养和输送提供了解决方案。

4 结束语

将R语言与生物医学工程专业的课程教学有机结合,通过具体项目实践,有利于节省时间和精力,不仅充分提升了学习效果,还增加了学生的学习兴趣。学生通过对统计软件的熟练掌握和应用,能够更好地培养统计思维和数据处理能力,进一步加深对生物统计学基础原理和方法的掌握和理解,提升学生综合技能素质与自主学习水平。R语言是编程语言工具,医学统计学是应用基础,R语言在医学统计学中的教学实践和探索还在继续。根据生物医学工程专业学生的学科特点,需要适时根据需求调整更新教学案例和方法,进一步完善R语言教学的方式方法,致力于把学生培养成为具有扎实统计理论和较强医学项目分析能力的高素质人才。

猜你喜欢

生物医学样本可视化
蝾螈的皮肤受伤后可快速愈合
数据可视化设计在美妆类APP中的应用
思维可视化
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
纳米机器人及其发展研究