大数据背景下R语言在医学统计学教学实验中的应用
2021-01-09曹慧芬
曹慧芬
摘要医学统计学是数据收集、整理、分析、解释和展示的一门学科。在大数据背景下,医学统计学课程的建设,除了要加强学生对统计学理论知识的理解,更为重要的是培养学生对实际医学大数据的收集、分析和展示的能力。R语言作为一种重要的程序语言,具有强大的统计分析和数据图形展示能力。本文详细探讨以R语言对开展医学统计学实验设计的优势,加深学生对统计学理论知识的理解以及数据分析能力。
关键词 医学统计学 大数据 R语言
中图分类号:G424文献标识码:ADOI:10.16400/j.cnki.kjdk.2021.25.049
Application of R Language in Medical Statistics Teaching Experiment under the Background of Big Data
CAO Huifen
(School of Medicine, Huaqiao University, Xiamen, Fujian 361021)
AbstractMedical statistics is the discipline of data collection, collation, analysis, interpretation, and presentation. In the context of big data, in addition to traditional statistical theory, the more important is to cultivate students’ ability of collecting, analyzing and presenting the medical big data. As an important programming language, R supports almost all statistical analysis methods and graphic presentation. Here, we discuss the advantages of R language in the design of medical statistics experiment in detailed to improve the understanding of statistical theory and practical data analysis skills of students.
Keywordsmedical statistics; big data; R language
0引言
医学统计学是一门对数据进行收集、整理、分析、解释和展示的一门学科,[1]作为高等院校医学专业的基础必修课程,是医学科研和实践的重要工具。然而,由于统计学理论知识概念相对抽象,逻辑性强,公式烦琐、计算量大,[2]在传统教学中,多数医学统计学课程以理论驱动,教学过程中多侧重强调统计理论知识推导和实验设计,使得许多医学学生对望而生畏,导致学生理论知识不过关,实际动手能力差,无法灵活运用统计学方法解决实际的医学研究问题。[3]
与此同时,在当今大数据时代,精准医疗通过对大数据的挖掘和筛选,除了为病人能够提供最优的诊断和治疗计划,还能对未来生活方式做出正确的引导。因此面对时代的挑战,作为新时代的医生,除了掌握专业医学知识之外,还应具备优秀的编程能力和数据分析能力。[2, 4]与常用的Excel和SPSS相比,在大数据背景下,R语言具有更强的数据分析与图形展示能力,是一种更适合在医学专业本科教學中使用的统计分析软件。[5, 6]目前,将R软件应用到医学统计学教学中的案例仍然比较少,因此,如何将R软件应用于大学医学统计学教学还需要等多的研究和探索。
1 R软件在医学统计学实验教学中的优势
R语言是一种新兴的统计分析与可视化编程语言,近年来发展迅速。在医学统计教学过程中,它具有以下五大优势:
第一,R软件作为免费的开源软件,具有强大的统计分析与数据展示功能,而且还可以通过安装多种软件包(package)进一步强化其统计与数据展示能力。此外,由于其所有代码公开,用户可以根据实际需要,在学习编程技术的基础上,修改源代码实现新的功能,为学生提供一个很好的编程能力学习平台。
第二,R语言语法简单易学,拥有强大的统计分析包系统,在统计分析过程中,即使没有编程基础,也能够完成基本的数据统计分析,相较于传统的Excel,SPSS软件,能够更好的激发学生的统计学习的兴趣。
第三,具有免费的集成开发环境——Rstudio,以一种新颖的方式为R的集成开发提供了大多数需要的特性,界面更加丰富使用,使用更加便捷。在交互学习过程中,降低R语言学习成本,强化学生学习R的兴趣。
第四,具有强大的图形功能,除了基本的画图函数点图plot、柱形图barplot、直方图histogram、饼图pie等,它还拥有软件包ggplot2。ggplot2通过把数据映射到图形,引入图层叠加的概念,在展示数据的同时,还可以加入不同统计方法的应用,用图形的方式展示统计分析结果,具有很强的数据展示能力与统计分析的灵活性。
第五,R软件创造可重复性分析。对于同等类型数据的分析过程,可以简便的移植到不同数据应用中去,实现统计分析方法的重复利用,提高分析效率,节省时间成本。这将更有利于学生系统地学习统计分析方法。
2 R语言在医学统计学教学中的优势
基于R语言,将医学统计学理论与实际数据分析能力有机结合。医学统计学是一门理论性较强的课程。但是在大数据时代,利用计算机语言快速有效的实现数据分析是学生需要掌握的一项基本技能,具有重要的实际应用能力。在教学过程中通过将统计学理论知识与R语言实践有机结合,一方面有利于培养学生的计算机动手能力,另一方面有利于加深学生对统计理论知识的理解以及实际应用能力。R语言具有强大的统计分析方法功能,医学统计学中的各个知识点都可以通过R语言进行实现,并且应用方法简单明了。例如psych包的describe.by函数能够计算常用的描述性指标最小值、最大值、均值、方差、极差、偏度、丰度等,一个函数几乎完成描述性统计学中的所有内容。一个R统计函数往往包含了多个统计学知识点,如果学生对R软件应用函数过度依赖,不理解统计分析过程,会导致其无法正确解释R软件分析结果,从而无法理解实际数据的统计学意义。因此在实验设计上,需巧妙地将统计学理论知识与R实践相结合,并着重强调不同R语言统计分析过程中涉及的统计理论知识,以及函数应用的前提条件,便于学生理解、掌握统计学知识要点。
采用真实的热点医学大数据分析问题,拓展学生统计分析能力。在大数据背景下,医学统计学的核心目的是培养医学学生处理数据的能力,因此在教学过程中,以学生为主,从实际医学数据出发,通过对原始的医学大数据分析案例,让学生逐步掌握不同结构,不同数据量的数据处理技术与思想。[7]在实验过程中针对同一医学数据,提出不同角度的研究问题,并利用R语言的统计分析方法进行一一回答,加深学生对统计理论知识的了解,激发学生的学习主动性,不仅有利于培养学生的统计方法应用能力,还有利于提高学生的对大数据的统计思维能力。
图表绘制,提升统计学教学的趣味性与应用性。医学统计学着重与培养学生的医学数据的整理、分析、推断和展示的能力。在实际统计分析里,科学作图不仅能直观展示出数据的多种描述型特征,还能有效的体现统计分析过程与结果,帮助人们深入了解数据,是数据分析过程中不可或缺的一部分。然而,在多数统计实验教学过程中,图表绘制由于种种原因而被忽视。因此,在传统医学统计学数据分析的基础上,利用R软件强大的图形绘制能力,我们加入医学数据图形绘制实验。在数据的可视化过程中,通过展示不同类型数据不同类型的图形展示结果,有效加深学生对数据以及统计分析方法理论的理解,增加统计学教学的趣味性与实际应用能力,拓展其数据展示技能。
3围绕R语言实施医学统计学教学内容
根据临床学时的特点,结合大数据背景下,提出以下三个实验教学模块:
3.1描述统计分析模块
描述性统计分析是对通过计算数据的集中趋势、分散程度以及频率分布等,了解数据的分布特征,实现数据最基本的认知过程。例如,常用的数据中心描述指标均值、中位数、众数,数据离散程度指标极差、方差、标准差以及数据分布形状指标偏度和丰度等。数据的收集和描述统计是医学统计学中最基本的实践技能,其目的是让学生通过计算机语言R,实现对数据的收集、整理和描述。在教学过程中,围绕R语言,设计不同类型的数据文件,如txt、excel、csv等,实现不同类型数据读取,并应用R中的统计描述函数summary、var、describe.by,计算数据的均值、方差、偏度、丰度等,实现对数据的中心、离散以及分布情况的描述,让学生直观的感受到R语言对数据描述的简便性与有效性。与常用的SPSS方法以及excel软件相比,虽然R语言需要编程过程,但是其对数据操作灵活性高,拓展性强。在课程前期开始此实验教学,可以吸引学生积极主动学习R语言,对R语言的统计分析方法有一个整体认知。
3.2推断统计模块
统计推断是研究通过样本推断总体数量特征的方法,主要包含参数估计和假设检验两大部分。推断统计模块主要是让学生在互联网时代,在熟悉不同的统计方法原理的基础上,能够熟练使用计算机语言R对理论知识进行分析应用与有效计算,真正做到学以致用。结合实际的临床数据,如不同时期的中国不同地区、多种癌症的发病数据,通过对其提出不同角度的问题,实现利用R语言对发病率的点估计与区间估计,对两个地区的发病率的T-检验、对多个地区发病率的方差分析、对不同癌症与不同地区关联分析的卡方检验等。在熟悉数据的基础上,引导学生提出统计问题,并利用R语言实现是实际问题的统计推断方法,T检验、F检验、方差分析aov、卡方检验以及相关性检验cor.test的应用等,增强学生的统计思维能力与动手能力。
3.3数据展示模块
数据展示是实际医学统计分析应用中非常重要的一个环节,直观、有效、漂亮的图表不仅能帮助人们对分析结果的了解,而且还能提高人们对其研究的兴趣程度。大数据时代,实际统计分析结果汇报是一个重要环节,好的图表展示可以做到事半功倍的效果。然而,数据展示环节常常在医学统计学教学中被忽视。R语言有很强的图标展示功能,除了基础画图函数,还有一个很好的独立的绘图系统ggplot2,具有图形映射、图层叠加以及范围控制,坐标系转化、分面等特征,能够高效地将数据映射到图形上,将不同形状的图形作为图层,方便数据的叠加展示,从而有效的展示数据结构與分布特征。本实验在介绍ggplot2基本语法的基础上,并通过ggplot2对模块2中癌症数据的展示,实现快速绘制不同类型的图片,如点图、柱形图、直方图、箱型图等。此外,该实验还将鼓励学生查找自己感兴趣的医学数据,利用ggplot2中geom_point、geom_line、geom_boxplot、geom_bar和geom_histgram等功能不同类型图形的绘制,加深学生对R语言绘图功能的印象,并培养学生自主学习R绘图方法的兴趣。
4 R语言在医学统计学实验教学中的局限性
R软件在生命科学研究中得到广泛应用,但是目前尚未广泛应用于医学统计学实验教学中。虽然它有良好的统计分析与绘图能力优势,但是应用于课堂教学时,仍有以下几点困难需要克服。
首先,虽然R语言是一个容易入门编程语言,但是其基本语法、数据结构和函数编写等,对于没有编程经验的临床学生而言,仍然是需要花时间去练习熟悉,因此需要一定的前期时间投入。
其次,R语言包含了非常丰富的统计分析软件包,应用方法便捷,导致一部分学生对应用软件过分依赖而忽视其统计分析原理。从而造成,当R统计方法说明文档对原始数据指示不明的情况,容易发生统计分析方法的误用情况。
最后,设计相应的R语言统计实验,需要结合统计学课堂内容与R语言的优势,引入实际的临床数据,引导学生用R语言去解决实际的临床统计问题,实验过程难度较大,但是该方法可以发挥R语言的统计方法和图表绘制的能力,更好的培养精准医疗时代的医学接班人。
5总结与展望
R语言由于其强大的统计分析与图形绘制能力,已经逐渐成为生命科学研究中重要的统计计算语言,将R语言应用于医学统计学实验教学中,具有一定的可能性。目前,我们设置的医学统计学实验除了传统的数据描述与统计推断内容的R语言实践过程外,还新增了图形绘制部分,加深学生的数据展示意识,将有效提升大数据时代核心竞争力之一的分析结果汇报能力。在实验过程中,采用实际的医学数据进行统计分析,增加了课程的内容的丰富性与实验教学的创新性,推进了医学统计学教学的进一步发展。
参考文献
[1]傅德印.关于统计学定义的考察与思考.兰州商学院学报,2000(01).
[2]李俊锋.大数据背景下的统计学发展方向分析.中外企业家,2020(05).
[3]李智明.浅谈大数据时代统计学的挑战与机遇.教育教学论坛,2020(13).
[4]何星钢,黄激珊.大数据背景下统计学人才培养模式与课程体系研究.兴义民族师范学院学报,2020(03).
[5]张哲,张豪.浅谈R语言在生物统计学教学中的应用.教育教学论坛,2013(27).
[6]Villanueva, R.A.M. and Z.J. Chen, ggplot2: Elegant Graphics for DataAnalysis,2nd edition. Measurement-InterdisciplinaryResearch and Perspectives, 2019.17(3):p.160-167.
[7]张春晓,陈曦.统计学在大数据时代的发展方向及趋势探讨.现代商业,2018(35).