生物统计学专业生物医学大数据分析能力培养探索
2022-11-28尤东方邵方
杨 晟,尤东方,邵方
(南京医科大学 公共卫生学院,江苏 南京 211166)
引言
生物统计学作为一门应用学科,对学生的培养重点在如何使用生物统计学方法和工具解决实际的生物医学问题,尤其是在本科教育阶段,生物医学大数据分析已成为医学研究与应用的刚性需求。基于现代医学大数据开展真实世界研究及数据挖掘所面临的因果推断、高维数据分析等刚性需求,都依赖于生物医学大数据分析的理论和实操能力。因此,亟待解决生物统计专业生物医学大数据分析能力的培养问题,以满足实际工作需求。目前,生物统计学专业的教学主要集中在统计分析方法的理论基础上,缺乏实践经验的培养。沟通能力和处理实际问题的相关经验,被很多用人单位看作是新员工的关键技能[1-3]。同时,职业道德是生物医学大数据分析能力培养的核心组成部分[1]。目前虽然一些课程采用大作业练习或项目学习,为学生提供了有价值的入门训练,但这些课程练习和项目往往比较陈旧,和实际工作有一定的差别且持续时间较短[4]。我们认为,培养实践技能和解决实际问题的能力,需要足够的时间和经验,这是培养方案应该关注的重点。参考其他应用学科,住院医师模式的出现不仅使得医学培训变得越来越标准化,还确保年轻医生获得了重要的实践经验。因此,对心理学和教育学学生的培养采用了类似的模式[1]。这说明住院医师模式可以为以实践经验为中心的生物医学大数据分析应用能力的培养提供借鉴。基于以上论述,我们提出了以实践经验为中心的生物统计学专业生物医学大数据分析能力的培养方案,借鉴医学住院医师的培养模式,以长期在实际应用环境下的课题项目作为培养重点。专注于获得真实世界实践经验的培养方案,将更好地确保学生就业时具有生物医学大数据分析的全面技能。
一、生物医学大数据分析能力指标体系
医学和心理学的教学已经开始通过核心能力的视角来看待专业教育,为设计能满足学生需求的培养方案提供了大体框架[1]。表1列出了在制订培养方案时,考虑的生物医学大数据分析能力及所涉及的指标体系。
二、生物医学大数据分析课题项目及其生命周期
表1为生物医学大数据分析所必备的能力提供了一个参考框架。这些能力不仅相互依赖,而且在特定的项目过程中会重复使用。传统的课程教学并不能全面、综合地培养这些实践能力。为了培养学生的生物医学大数据分析能力,借鉴住院医师的培养模式,我们认为在实际应用环境下的长期课题项目是一种很好的方式。生物医学大数据分析课题项目的生命周期一般分为八个阶段,包括问题识别、范围确认、数据获取、初步探索、制订计划、分析建模、实际验证和实施维护。下面将对课题项目的各阶段进行详细描述,展示相关能力的综合应用,并通过女性卵巢老化风险预测的现实例子来加以说明。
表1 生物医学大数据分析能力及所涉及的指标体系
(一)问题识别
课题项目启动时,需要对问题的解决方案进行探讨。生物统计师既要就技术上的可行性发表意见,也要承担道德责任,强调其中的局限性和风险性。同时,需要了解数据隐私和共享的法律法规,帮助决策者了解现有数据如何被使用,以及是否可收集其他数据。例如,妇产科的临床医生通过接诊发现,与女性卵巢老化相关的疾病越来越多,但目前的做法只是在病人来医院就诊后才进行治疗。医生们希望在常规检查中主动识别可能有风险的女性,从而减少女性由卵巢老化导致的疾病。
(二)范围确认
课题项目开始进行后,沟通和问题定义的能力对实际工作的范围确认是非常重要的。生物统计师需要评估哪些问题可以用现有数据来回答,并与干系人密切合作,了解他们的需求。此阶段的道德问题包括考虑如何处理和保护敏感数据。例如,召开讨论会议,包括临床医生和生物统计师,了解可用的数据及如何将其投入使用。由于需要处理与个人健康信息有关的数据,决定将所有分析工作限制在医院的安全服务器环境中并进行脱敏处理。主要的干预措施被确定为基于回归模型对女性卵巢老化程度进行风险评估,对高风险女性进行治疗,减轻或减少其相关疾病。
(三)数据获取
在这一阶段的工作中,生物统计师需要应用处理和构造原始数据的技能。例如,合作医院提供了一个数据库和服务器,用于分析个人层面的基础数据及检查报告。来自其他来源的数据被导入环境中,包括人口普查和公共数据库中可获取的相关数据。生物统计师与每个数据源的所有者紧密合作,以确保他们了解数据结构和字段。
(四)初步探索
在这个分析的初始阶段,主要通过汇总统计、可视化和初步建模来探索数据中的趋势和关系。在大多数项目中,此阶段还需要重新处理缺失数据,以及识别标签、潜在变量特征和数据中潜在的偏差与不一致。例如,生物统计师结合使用描述性统计、变量相关和时间序列分析,了解数据中变量间的关系及其局限性。通过数据中的缺失值确定了提取、转换、加载过程中的错误,并通过新的数据提取过程进行纠正。
(五)制订计划
在此阶段,生物统计师需要有效地将初步结果传达给干系人,并和干系人共同制订分析计划,为项目建立起技术路线。例如,根据初步探索数据得到的结果,生物统计师与临床医生合作,以临床中卵巢老化的相关疾病涉及的变量特征为基础,确定检查中应涉及的项目,以及后续分析建模所需要的工具和流程。
(六)分析建模
该阶段所使用的具体技能,将从数据描述转向总结、预测和解释。一般来说,这个阶段涉及生成大量的模型、分析或结果,然后进行分析得出有意义的结论。在建立预测模型时,涉及模型选择过程,平衡不同的性能和指标,以得出一个单一的模型,并将其投入实际应用中。这一阶段还可能涉及成果展示,这不仅要使用沟通表达和数据可视化技能,还需要总结大数据分析的结果并给出解释和有意义的结论。例如,生物统计师基于训练集数据,应用回归模型进行建模。基于均方根误差、赤池信息量准则等指标,折中选择泊松分布对数线性模型,并对涉及的变量特征进行筛选降维,在验证集中进行验证。
(七)实际验证
前一阶段的成果是形成一套最终的分析结果或模型,准备在现实中进行试点或验证。例如,开发了一个为期一年的现场试验,期间每月随机对250名妇产科就诊病人进行相关检查,以确定是否存在卵巢老化的问题,并对发现的相关疾病进行治疗。该试验证实了该模型在识别女性卵巢老化方面的性能。同时,开发相关网页工具可方便病患基于检查结果实时进行风险识别。
(八)实施维护
为了使大数据分析项目产生实际价值,应推动成果的落地实施。进一步推广成果,并持续进行维护和改进。例如,该模型的应用使更多的女性关注卵巢老化问题,主动进行预防并减少相关疾病的恶化。医院妇产科决定投入资源维护,并定期更新和重新评估该模型。
单独来看,课题项目的每个阶段都会需要一系列不同的能力,突出了生物医学大数据分析中全面的技能发展需要。目前许多大数据分析能力的培养,都没有达到培养胜任的、全面的分析师的目的。分析师应当有能力处理他们在实际工作中遇到的各种细微问题,而不是仅仅通过课堂教学的学习,掌握分析方法或工具。实践经验的积累需要时间和正确的引导,因此,长期的生物医学大数据课题项目是合理有效的能力培养途径。
三、生物统计学专业生物医学大数据分析能力培养方案
借鉴住院医师的培养模式,我们认为以实践经验为中心的实际应用环境下的长期大数据分析课题项目,是生物统计学专业生物医学大数据分析能力的有效培养途径。基于此,我们做出了初步探讨,制定了具体的培养方案(见表2)。
表2 生物统计学专业生物医学大数据分析能力培养方案
从以上培养方案可以看出,第一学年,主要进行常规的课程教学,涵盖数学、计算机基础和素质培养。学生对高等数学、线性代数、计算机系统、数据库、演讲与口才、沟通技巧等有了初步的掌握,目的是使学生构建相关理论基础知识,并提升交流表达能力等“软”能力。第二学年,学生除了学习专业的常规专业课程(包括统计学相关专业课程、计算机编程和数据库课程)外,还应开展生物医学大数据分析案例系列讲座。其目的是在常规课程之外,让学生通过案例,直观地对生物医学大数据分析有所了解,明白整个分析流程及所需要掌握的工具和能力,为后续生物医学大数据分析课题项目的开展做铺垫。同时,应开展生物医学大数据分析课题项目的衔接课程,针对后续项目的实施推进做准备,将已经掌握的常规课程内容有针对性地转换为课题项目所需的工具和能力。衔接课程大致可以分为三个部分,分别针对项目前期工作、中期分析工具方法和后期成果展示进行灵活讲授,目的是让学生为后期直接上手开展课题项目打下基础。第三学年,课程应加深相关模型、算法和软件实现的教学,同时开办生物医学大数据分析应用前沿系列讲座。通过这些讲座使学生在提高接受水平的同时,对当前生物医学大数据分析的前沿应用有全面的认知,为学生开展课题项目工作提供与时俱进的指导。生物医学大数据分析课题项目从第三学年开始进行,学生需要与对口医疗机构合作,利用所学知识进行真实环境下的大数据分析课题研究工作。该课题项目持续时间约两年,学生将在实际应用环境下完整经历前文所述项目的八个阶段,全面综合地培养学生的各项能力,积累实践经验。课题项目工作可以根据实际情况,与第四学年的实习和毕业论文(设计)进行合并,避免重复。
为了更好地促进生物医学大数据分析能力的培养,各高校应加强交流,取长补短。鼓励学生有针对性地积极参与国内外各类大数据分析建模竞赛中的与生物医学相关的竞赛任务,比如Kaggle和百度举办的各类大数据分析建模大赛。这样不仅可以开阔学生的视野,还可以横向比较,加强自我认识。
结语
从优秀的生物统计师需要掌握的能力指标体系来看,目前的培养方案存在不足,无法有效满足生物医学大数据分析的实际工作需求,仍需要毕业生通过工作经验来填补。基于此,我们提出了一个培养生物统计学专业学生生物医学大数据分析能力的新方案,借鉴住院医师的培养思路,将实践经验的积累作为培养重点,通过实际应用环境下的长期大数据分析课题项目来实现。希望该培养方案不仅能在生物医学大数据分析能力培养探索道路上迈出新的一步,还能抛砖引玉,带来其他形式的创新实践,旨在培养学生通过生物医学大数据分析能力的训练,获得积极的实际影响。