生成式人工智能赋能Python编程在医学数据分析中的应用研究
2025-03-10查昶玮
摘" 要:随着技术的不断进步,生成式人工智能(Generative AI)在医学数据分析领域的应用前景日益广阔。该文旨在评估其在医学数据分析领域的应用潜能和挑战,并探讨其在实际应用中的优势和局限性。通过例举生成式人工智能,如文心一言在赋能Python编程中处理医学数据的具体实践,揭示其在医学数据分析过程中的一般方法和路径。生成式人工智能凭借其卓越的数据处理和模式识别能力,极大简化数据分析的过程,降低技术难度门槛,并提高分析工作的效率和准确性,为医学数据分析提供新的视角和方法。
关键词:生成式人工智能;Python编程;医学;数据分析;文心一言
中图分类号:TP18" " " 文献标志码:A" " " " " 文章编号:2095-2945(2025)06-0001-05
Abstract: With the continuous advancement of technology, Generative AI has increasingly broad application prospects in the field of medical data analysis. This paper aims to evaluate its application potential and challenges in the field of medical data analysis, and explore its advantages and limitations in practical applications. By citing the specific practice of Generative AI, such as ERNIE Bot(a Chinese AI model), which, in empowering Python programming to process medical data, showcases its general methods and paths in the process of medical data analysis. With its excellent data processing and pattern recognition capabilities, Generative AI greatly simplifies the process of data analysis, reduces the technical difficulty threshold, and improves the efficiency and accuracy of analysis work, providing a new perspective for medical data analysis. and methods.
Keywords: Generative AI; Python programming; medicine; data analysis; ERNIE Bot
随着技术的不断进步,人工智能(AI)正深刻影响并重塑着社会的方方面面。其中,生成式人工智能(Generative AI,以下简称“生成式AI”)作为AI领域的新兴力量,正展现出其巨大的潜力和广泛的应用场景。在此背景下,深入探究生成式AI对医学数据分析的赋能作用,审视医学数据分析与生成式AI的深度融合,对于推动医学数据分析领域的创新突破和持续发展具有重要意义。
1" 生成式人工智能及其在医学领域应用现状概述
1.1" 定义
生成式人工智能(Generative AI)是指基于算法、模型、规则生成文本、图片、声音、视频和代码等内容的技术[1]。其核心在于模拟人类的创造力和想象力,从而生成文本、图像、音频和视频等多种类型的数据。生成式AI系统依靠海量数据,通过预训练大模型等方法,能够产生与训练数据相似又带有创新元素的新内容。
目前,如美国Open AI公司的ChatGPT,以及国内的文心一言、讯飞星火、通义千问、智谱清言和月之暗面Kimi等都是比较有名的生成式AI,这些生成式AI在各自领域内均取得了显著成果并产生了广泛影响力。
1.2" 发展历程
生成式AI的发展历程可以追溯到20世纪50年代,当时科学家们开始探索人工智能领域,试图让计算机具备类似于人类思维的能力。生成式AI经历了早期发展阶段(20世纪50年代至70年代:依赖于规则和模板生成文本和语言);技术积累与突破阶段(20世纪80年代至2010年代:计算机、神经网络、深度学习等技术的发展);实质性发展阶段(2014年至今:生成式对抗网络的提出,大型预训练模型的兴起,应用场景的拓展)这3个阶段。从开始探索如何让计算机模拟人类智能到专家系统的出现,以及卷积神经网络(CNN)、循环神经网络(RNN)等技术的发展,直至2014年生成对抗网络(GAN)模型的提出标志着生成式AI进入实质性发展阶段。再到近年来,随着Transformer架构的提出和大规模预训练模型的发展,生成式AI在语言理解和生成能力上取得了巨大突破。紧接着,生成式AI在制造、医疗、教育、军事和金融等多个领域展现出广泛的应用前景。
1.3" 生成式AI在医学领域的应用现状
目前生成式AI在医疗辅助诊断方面表现出色。如基于深度学习技术,其可以高效分析医学影像资料(如X光、CT、MRI等)、自动识别病灶、测量病变大小、分析组织结构变化以及评估病情进展,从而辅助医生实现早期的疾病诊断和治疗。在诊疗过程中,生成式AI能够有效识别患者的疾病类型和病情程度,并为患者量身定制个性化的治疗方案,从而显著提升医生诊疗水平和工作效率。
在医学教育领域,生成式AI同样表现优秀。通过模拟真实情境,使医学生和医生能够在没有真实患者风险的情况下进行大量练习,给予医学人员更多的机会去探索、尝试,即使犯错也无需担忧可能带来的负面后果,从而帮助医学生和医生提高诊断技能、治疗计划和沟通技巧。同时,其还可以根据不同学习者的学习进度和掌握情况,生成个性化的学习材料,实施更高效的学习培训。值得一提的是生成式AI具有强大的学习能力,能及时更新医学研究成果,确保学习者可以获得最前沿的信息。
在药物研发领域,生成式AI通过对大量数据的分析和综合,能够快速识别潜在的有效化合物。这种技术能够处理和分析超出人类能力范围的数据量,提供基于数据驱动的见解,从而加速药物再利用的过程。
在医疗记录管理方面,生成式AI通过自然语言处理技术,能够自动提取和整理患者信息,高效完成电子健康记录(EHR),从而快速提高医生的工作效率。
同时,生成式AI还在心理健康领域、个性化治疗、健康监测与预防和手术辅助等众多领域都发挥着重要的作用。
这些应用不仅有效提升了医疗服务的效率与品质,同时也促进了医疗行业的智能化发展。当然,任何新技术的应用,都会带来一系列机遇与挑战并存的局面。同样,生成式AI在医学领域的应用也面临一些挑战,如存在缺乏统一评估、数据隐私保护、结果可控性和算法可解释性等方面的挑战。相信,随着技术的不断进步,生成式AI在医学领域的应用前景将更加广阔。
2" 生成式AI赋能医学数据分析概述
2.1" 医学数据分析的重要性
医学数据分析在医学研究和临床实践中发挥着至关重要的作用,通过医学数据分析,可以帮助医生更准确地诊断疾病,提供个性化的医疗服务,同时还有助于医学科研深入发展,促进临床决策,提升医疗服务质量。另外,进行医学数据分析,还能够加速新疗法的发现和验证过程,从而为患者带来更加先进和有效的治疗方案。还有,医学数据分析在助力提升疾病预防与控制的效果及更合理地分配有限的医疗资源等方面也发挥着至关重要的作用。
2.2" 医学数据分析面临的挑战
由于医学数据分析涉及海量、复杂且敏感的医疗数据,其在实施过程中面临着多方面的挑战。主要包括医学数据的质量与完整性、医学数据的安全和隐私、医学数据分析过程的严谨性和科学性、医学数据分析人员的专业知识和技术能力等,这些方面共同构成了医学数据分析复杂而多维的挑战体系。
2.3" 生成式AI赋能医学数据分析优势
生成式AI凭借其强大的数据处理和模式识别能力,能够自动化地进行数据清洗、特征提取和规律发现,极大地提高了数据分析的效率与准确性。这不仅加速了医学研究的进程,还为科研人员提供了更多洞察疾病机制、评估治疗效果的新视角,对于推动医学科学的发展具有重要意义。
2.4" 生成式AI赋能医学数据分析实际应用价值
随着医学大数据时代的到来,生成式AI在医学数据分析中展现巨大价值。它能够在巨量的影像、化验及诊断数据中迅速、准确且细致地检索到所需信息,并以此辅助或提升临床诊断的准确性和效率。同时,生成式AI能够生成数据弥补数据缺失,确保研究可靠性。这些应用提升了医学研究精准度,促进了科研成果转化,为患者带来个性化和高效治疗方案。有理由相信,随着技术的不断进步和创新,生成式AI在医学数据分析中的实际应用价值将越发凸显。
3" 生成式人工智能赋能Python编程,开展医学数据分析实践
3.1" Python概述
当下,市面上流行的编程语言种类繁多,如Python、JavaScript、Java和C#等,每种语言都有其独特的特点和优势。目前,在众多编程语言之中,Python脱颖而出,成为了一种极为流行且易于上手的语言。近年来,它凭借易于阅读、语法简单易学、在诸多专业领域的信息化应用方面有丰富的资源[2],以及拥有广泛的库支持而深受欢迎。
Python程序可至其官网(https://www.python.org)下载,目前Python较新版本为3.12。Python IDLE提供了一个交互式的Python解释器和一个基于文本的代码编辑器,用户可以用来编写、执行和调试Python代码。
3.2" 医学数据与问题
研究石杉碱甲治疗增龄相关记忆障碍的效果,选取15例增龄相关记忆障碍患者,年龄60~80岁,平均72岁,男性9例,女性6例,小学以上受教育程度,缓慢发生部分记忆减退3 a以上,并按统一标准入选。其治疗前后长期记忆功能评分(包括“1—100背数评分”“100—1背数评分”和“1—19累加评分”3个定量指标),见表1。假定资料满足参数检验的前提条件,试分析治疗前后各项长期记忆功能评分差异是否有统计学意义[3]。
3.3" 生成式AI赋能医学数据分析
在本例中,采用传统分析法时,胡纯严和胡良平的做法是首先对数据结构进行深入分析,随后基于分析结果创建SAS数据集,最后利用SAS工具进行统计分析。整个过程涉及广泛的专业知识,对医学研究人员而言,复杂且耗时。这不仅是一个技术挑战,更是一个对数据敏感度和分析能力的考验。(经胡纯严和胡良平分析显示:3个定量指标差量组成的均值向量与假定的均值向量[0,0,0]’之间差异有统计学意义[3]。)
随着生成式AI的崛起,为医学研究人员提供了新机遇,医学研究人员通过自然语言与其交流,即可快速获得所需编程代码,实现预期功能。这一功能极大地减轻了医学研究人员的负担,使其能够更专注于核心业务逻辑的实现。实践中,生成式AI在理解开发者需求、自动生成代码、简化编码流程、降低编程复杂度,以及提高代码质量等方面展现出巨大的潜力和价值。
在本例中,研究人员可以通过与生成式AI进行对话,获得分析所需的Python代码,在Python IDLE中调试运行,即可快速得到分析结果。
下面以国内较著名生成式AI——文心一言(文心一言,网址为https://yiyan.baidu.com/,是百度公司研发的知识增强大语言模型,注册后即可免费使用)来例举生成式AI赋能医学数据分析的方法和路径。
总体思路:①对话提出需求;②文心一言生成Python代码;③Python IDLE调试代码;④得到结果。
输入对话内容:请分析cp文件,试分析治疗前后各项长期记忆功能评分差异是否有统计学意义。请编写python代码进行分析,给出是否有统计学意义的结论。提示:cp.xlsx文件Sheet1表中第三行开始是列名。(关于对话内容的解释:为了便于文心一言更好地分析理解问题,本例中将“表1”的数据存于cp.xlsx文件的Sheet1表中,在与文心一言进行对话时一并上传该文件。如不上传文件,则在对话中还将给予文心一言更多必要的提示。)
根据对话,文心一言首先给出提示:“为了分析cp.xlsx文件中3组数据(1—100背数评分、100—1背数评分、1—19累加评分)在治疗前后的长期记忆功能评分差异是否具有统计学意义,我们可以使用Python的pandas库来读取数据,并使用scipy.stats库中的统计测试(如配对样本t检验)来检验差异。由于这里涉及的是患者治疗前后数据的对比,因此配对样本t检验是合适的。首先,我们需要安装必要的库(如果尚未安装):pip install pandas numpy scipy。”
紧接着给出Python代码,并同时提供了“解释”:“这段代码首先导入了必要的库,然后读取了Excel文件中的数据,跳过了前两行非数据部分,并重新设置了列名以匹配数据。之后,使用scipy.stats中的ttest_rel函数对3组评分数据分别进行了配对样本t检验,并输出了统计量和p值。最后,根据p值的大小判断差异是否具有统计学意义,并打印了相应的结论。”
根据文心一言的提示,由于本例代码要使用Python的pandas库来读取和处理数据,使用scipy库来进行统计检验。如事先没有安装该库,则需要先安装。文心一言给出了安装命令:pip install pandas numpy scipy。(Python库的安装可在CMD命令窗口完成。)
在确保相应的Python库安装成功后,可在Python IDLE解释器中进行代码调试。复制文心一言生成的Python代码,运行后得到答案:(3组数据)差异有统计学意义。此结论与胡纯严和胡良平用传统分析法给出的结论一致。如图1所示。
过上例表明,生成式AI极大地简化了医学数据分析的流程,降低了其复杂性与准入门槛,使得即便不具备深厚技术背景的研究者也能轻松获取精确的实验结论。
4" 讨论
4.1" 生成式AI在医学数据分析中的优势与局限性
4.1.1" 优势
在医学数据分析中,生成式AI在多个方面展现了显著的优势,具体表现在,①提高效率:通过上例医学数据分析实例,发现利用生成式AI,如文心一言,可以快速生成针对特定数据分析需求的Python代码,极大地提高了数据分析的效率。②降低难度:对于非编程专业的医学研究人员来说,文心一言提供了一个友好的接口,研究人员能够通过简单的对话方式获得所需的代码,降低了数据分析的门槛。③加快进度:对于急需快速知道实验答案的研究者来讲,生成式AI可谓一把利器,简化了数据分析过程,使得医学研究人员能够摆脱繁琐的计算,将更多精力专注于实验设计,从而加速医学研究的进度。④处理不完整数据:在某些任务中,输入数据可能存在不完整或缺失的信息,生成式AI能够通过学习概率分布来生成可能的完整数据[4],从而填补这些空白。这种能力使得生成式AI在处理具有不确定性和不完整性的实际问题时表现出色。
可见,生成式AI的引入,不仅为医学数据分析带来了新的技术工具和方法,也为促进医学研究的创新和发展注入了新的活力。生成式AI,如文心一言,有望在未来成为医学研究的重要工具。
4.1.2" 局限性
在实践层面,使用生成式AI,如文心一言在赋能医学数据分析中,也发现了其一定的局限性。具体表现在,①理解局限:生成式AI对于自然语言的智能理解以及对文件的分析上还有所欠缺。如在处理例题的过程中,刚开始经多次尝试,均无法获得有用的python代码。后在与其多次对话过程中,发现原来文心一言对于excel列名的识别不佳。所以,在处理一些较为复杂的问题时,与文心一言进行对话过程中要提供必要的且更为清晰的提示语,这样能够更好地帮助其理解问题,从而给出更加精准的“回答”。②过程缺失:鉴于生成式人工智能技术的固有特性和工作原理,生成式AI提供的答案往往缺少详细的解释过程。在医学领域,理解数据分析的过程和结果同样重要。例如,目前的生成式AI技术,如文心一言,无法像传统的医学数据分析那样给出详尽完整的分析过程。其在借助编程的过程中,往往依赖于程序中的函数、库等技术,使得只有“结论”,却没有“过程”。限于技术层面的局限,可能导致研究人员对得出的结论,无法进行验证,从而产生质疑或不确定。③黑盒风险:由于生成式AI为不透明的“黑盒”人工智能,其给出的答案还可能存在错误或偏见,并且有可能完全不被发现[5]。④伦理困境:隐私与伦理问题也是制约生成式AI在医学数据分析中应用的重要因素。医疗信息具有较高的隐私性与敏感性,若医疗数据信息被非法泄露,不仅会对患者的财产、健康造成威胁,严重时会危及到社会秩序安全[6]。因此在利用生成式AI进行分析前,必须确保数据的合规处理与匿名化,避免信息泄露。这一过程中,如何平衡数据利用与隐私保护,是当前技术实施中的一个难点。
综上所述,尽管生成式AI,如文心一言在赋能医学数据分析方面展现出潜力,但由于医学领域的专业知识深厚且复杂,涉及大量专业术语和特定上下文环境,生成式AI赋能Python编程助力医学数据分析实践中仍面临一定的挑战。
4.2" 生成式工人智能与传统数据分析方法的比较
4.2.1" 方法与技术
传统数据分析方法通常依赖于统计学模型,如回归分析、假设检验等,或借助于Excel、SQL等工具,或使用SPSS、SAS等统计软件进行统计分析,要求研究人员具备扎实的专业知识和技能,专业性较强。而生成式AI则在生成模型的支持下,依赖深度学习、神经网络等先进技术,使用诸如Python等现代编程语言和框架,擅长自然语言处理、文本生成和理解,其使用门槛相对较低,使得非专业的研究者也能轻松上手,快速得到数据分析结果。
4.2.2" 数据处理能力
传统数据分析受限于传统工具的处理方式和能力,比较耗时耗力且数据量处理有限。而生成式AI则能够自动从数据中学习特征,高效地处理海量数据,迅速提取有价值的信息,提供更加准确和全面的分析结果。值得一提的是,生成式AI则还能够处理除文本以外的图像、音频和视频数据信息,这使得其在医学数据分析领域具有巨大的应用潜力。
4.2.3" 数据隐私与安全
传统数据分析由于数据量较小且通常已经过处理,隐私问题相对较少。而生成式AI则处于相对开放的环境中,需要特别注意数据隐私和安全问题。
4.2.4" 解释性和透明度
传统数据分析由于模型较为简单,解释性较好,更容易理解和验证分析结果。而生成式AI往往使用黑盒模型,其内部的工作机制对于外部观察者来说是不可见或难以理解的,因此其解释性和透明度较低,需要额外的技术来增加模型的可解释性。
综上所述,生成式AI则以其强大的数据处理能力、较低的使用门槛以及对非结构化数据的良好适应性,展现出巨大的潜力和广泛的应用前景。
5" 结论与展望
5.1" 结论
本文通过探讨生成式AI在医学数据分析中的应用,展示了其强大的赋能作用。以Python编程为桥梁,生成式AI,如文心一言等模型能够显著简化数据分析流程,降低技术门槛,提高分析效率与准确性。通过具体案例分析,验证了生成式AI在进行医学数据分析中的有效性和便捷性,为医学研究和临床实践提供了新的思路和方法。同时,生成式AI在医学数据分析中的应用仍存在一定局限性,如自然语言理解的准确性、解释过程的详尽性、隐私与伦理问题等,这需要在未来发展中不断完善和解决。
5.2" 展望
展望未来,随着生成式AI技术的持续突破与应用场景的不断拓宽,其在医学数据分析领域的应用前景将愈发广阔。未来,医学、计算机科学、统计学等学科将进一步加强合作,共同推动生成式AI在医学数据分析中的深入应用,同时随着与深度学习、强化学习等更多先进技术相融合,将开发出更加智能、高效的数据分析工具。另外,随着数据保护法规的不断完善与技术手段的持续进步,生成式AI在医学数据分析中的应用将更加注重隐私保护与伦理规范,确保患者数据的安全与合规使用。
总之,生成式AI赋能Python编程助力医学数据分析的实践研究不仅为医学领域带来了新的技术工具和方法,也为推动医学研究和临床实践的发展注入了新的活力。有理由相信,在未来的发展中,生成式AI将在医学领域发挥更加重要的作用,其未来发展值得期待,并将深刻改变医学研究与临床实践的未来面貌。
参考文献:
[1] 毕文轩.生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角[J].比较法研究,2023(3):155-172.
[2] 陈浩强,梁振,刘方,等.新工科背景下的Python程序设计教学微改革[J].电脑知识与技术,2024,20(17):141-144.
[3] 胡纯严,胡良平.合理进行均值比较——单组和配对设计定量资料多元方差分析[J].四川精神卫生,2023,36(S1):25-29.
[4] 苏莉雯,吴杨.生成式人工智能在口腔医学的应用潜力与挑战[J].口腔医学研究,2024,40(1):11-17.
[5] 宁春辉,孔萌,张家林,等.生物医学数据分析方法综述[J].数学建模及其应用,2022,11(1):1-15.
[6] 马存宁.医院医疗数据隐私保护与安全共享[J].网络安全技术与应用,2024(4):130-132.
作者简介:查昶玮(2004-),男。研究方向为信息技术与医学融合。