医疗大模型需要全标准评价体系

2023-12-27闵栋

财经 2023年26期

闵栋

在人工智能的引领下，新一轮科技革命和产业变革已经展开。

当2016年IBM的人工智能（AI）“沃森”学习海量医学论文后，在人类医生们对一名病人束手无策的情况下，10分钟内判断出病人得的是罕见白血病，并给出了治疗方案，人工智能给医疗领域带来的就不仅是冲击，还有无限可能的未来。

AI“思考”出针对每一个病人的单独的结论，是基于它运转的规则不是事先输入的程序，而是依托庞大的后台数据库。在人工智能领域，这被称为“深度学习”。作为AI领域的重要技术，深度学习是从数据中学习，而大模型则是通过使用大量的模型来训练数据，可以说是深度学习模型。

2023年风靡全球的ChatGPT，就是大模型的经典范例，其已应用于多个医疗场景，在病历书写、报告生成、病例归纳、辅助诊疗等医疗服务领域已有应用，未来将进一步支持病历记录、医疗咨询、患者管理、学术交流等医疗场景，为患者、医生和研究人员提供高效、智能的解决方案。

医疗大模型差异化，满足用户需求

截至目前，在医疗领域的国产大模型数量不少于40个。

就技术而言，大模型本质基本相同，通过对大量数据的学习和分析，提取出隐藏在数据中的规律和特征，如医疗大模型重点支持医学图像识别和分析、医疗数据分析和预测，实现更准确、高效的医疗诊断和治疗。

大模型因侧重点不一样，如开源或闭源，后续发展各有特色。互联网巨头腾讯、百度、京东等的大模型开发，涵盖药物研发、智慧诊疗、医疗设备运维、医院管理等多个领域。其中，京东健康正式发布面向医疗健康行业的大模型“京医千询”，以京东言犀通用大模型为基础，开发覆盖全流程医疗需求、实现智能决策、支持多模态的医疗大模型；华为云与广州金域医学正式签署盘古大模型战略合作协议，双方将合力打造医检行业AI大模型，驱动医学检验全链条多场景的智能化；医联自主研发的基于Transformer架构的医疗大语言模型——MedGPT，能够支持循序渐进多轮问诊，引导患者收集足够的诊断决策因素，保证后续诊断有效，在与三甲主治医生诊断相比中，已达到96%的一致性。

从技术实现方面来看，一类是直接开发形成的医疗大模型，如医联的MedGPT、深睿医疗的Deepwise MetAI等；另一类是基于通用大模型而进一步训练形成垂类行业大模型，如华为云盘古大模型、京东健康“京医千询”、科大讯飞的“星火认知”等。各大模型应用根据自身既有业务基础进一步深化应用场景，呈现出差异化发展特点。

由于是产业发展早期，国内大模型产业对标ChatGPT同步发展，目前处于跟进复刻的阶段，创新性总体偏弱。当国内大模型技术积累达到一定阶段，不同应用定位的模型优势将会在产业中显现出来，呈现出差异化。

国外多数公司采用直接在基础模型开发具备多样性的应用，相对聚焦且贴合行业痛点，可以有效规避通用大模型的同质化。现阶段通用大模型虽在同质化发展，但已显现出垂直领域大模型在应用端的差异化创新突破。

差异化发展是大模型商业落地的主要途径。用户对于大模型产品的需求侧重点各有不同，如需求强弱、单一或综合功能要求等，会根据最切实的需要来适配大模型产品。同时，大模型数据分析、代码编写等能力对于用户自身素质也有一定门槛。因此，大模型提供者落地的主要场景不同，角色定位各有差异。各大互联网公司在用户端各有固定场景，如腾讯在社交、百度在搜索、京东在购物等。

大模型要交一份“考卷”

让大模型成为一个好用的工具，在交付用户之前，还要通过一个考试。当前模型应用效果测评方式多样，工具化、智能化的综合评价体系已具备雏形。

大模型是由海量数据和算法组成的复杂系统，在训练和推理过程中会考虑很多因素。通过大模型测评能够更好了解模型的性能和特点，评估使用价值和意义，明确局限性和潜在风险等，公平、客观、直观地感知大模型真正的效果，支持用户选择合适的大模型。

模型测评基准是通用人工智能的基石，需要同步探索构建测试集和测试方法。国内围绕大模型测试集，各类机构纷纷入场，如真格基金构建了大模型测试集Z-Bench；清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。依托多种评测数据集，进一步形成针对不同维度的测评方法。

由于大模型发展太快，国际上对于大模型测评目前尚无绝对标准。《麻省理工科技评论》的一个评测相对全面，从研发、商业化能力、外界态度以及发展趋势等方面检测大模型的全面能力。其评测使用的测试集包含600道题目，覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类，126个二级分类，290个三级标签，并针对问题的丰富性和多样性做了优化。

另外，国际数据公司IDC的测评，是将大模型分为三层，服务生态、产品技术以及行业应用，对每一层的能力都提供测评，主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业，以及配套服务和大模型生态等，具体包括36项细分维度的评估标准。

在医疗健康大模型评测方法演進中，谷歌和DeepMind进行了较为全面的实践。2023年7月12日，谷歌和DeepMind的科研人员在《自然》杂志上发表了研究，通过MultiMedQA（美国医师执照试题）评估基准，评估大语言模型在编码临床知识方面的表现，并详解了谷歌医疗大模型Med-PaLM的进化过程。

国内大模型产业对标ChatGPT同步发展，目前处于跟进复刻的阶段，创新性总体偏弱。图/视觉中国

首先，构建了全新的美国医师执照试题评估基准，专门用于评估大语言模型在编码临床知识方面的表现。该基准结合了六个现有医疗问答数据集（MedQA、MedMCQA、PubMedQA、LiveQA、MedicationQA和MMLU），涵盖临床知识、医学研究和患者问答等多个方面，以及一个全新的在线搜索医疗问题库数据集HealthSearchQA，旨在从多方面把AI培养成一名合格的医生。其次，依托MultiMedQA，形成基于人类评估的框架模型，包括事实、理解、推理，以及可能的偏见等多个维度。

谷歌大型语言模型PaLM（Pathways Language Model）及其变体Flan-PaLM评估显示，Flan-PaLM在MedQA的多项选择题上表现出色，准确率为67.6%，比之前的技术水平高出17%以上，但它对病人医疗问题的回答却暴露出关键的差距。然而，经过指令提示调整产生的Med-PaLM，一组临床医生对其回答的评分为92.6%，与现实中临床医生的水平（92.9%）相当。

在上述谷歌评测中，安全性、公平性和偏见方面的评估内容尚不完全。随着模型规模的扩大和提示词的调整，其理解能力、知识回忆和推理能力均有所提高，显示出医学领域的潜在实用性。

综合来看，较为全面的评测主要由技术能力、行业服务能力、合规及安全四个维度组成。其中，技术应包括稳定性、效率、效果等；行业服务能力应关注应用效果、成本可控、服务完整等；合规主要考虑数据、模型、应用治理能力；安全应确保大模型应用的全生命周期可控。

医疗服务严谨复杂，将大模型运用到临床应用前，应通过相对完备的标准测试，对不同大模型性能和效果进行评估比较，帮助用户选择适合自己需求的大模型。

因此，评估标准需综合患者、消费者、大模型研究人员、临床医生、社会科学家、伦理学家、政策制定者和其他利益相关方之间的共识。

可以说，标准化工作，是促进医疗健康行业大模型从“作坊式”走向“工业化”的关键。

谁来做主

从标准化角度看，目前，全球知名的人工智能标准化组织主要有四个，分别是ISO/IEC JTC1（国际标准化组织和国际电工委员会第一联合技术委员会）、ISO（国际标准化组）、IEC（国际电工委员会）和ITU（国际电信联盟）。

其中，ISO/IEC JTC1在人工智能领域的标准化工作已有20多年的历史，并于2018年4月成立人工智能分技术委员会（SC42），围绕基础标准、计算方法、可信赖和社会关注等方面开展国际标准化工作；ISO与人工智能标准化研究上的工作主要集中在工业机器人、智能金融、智能驾驶三大领域；IEC主要在可穿戴设备领域开展人工智能标准化工作；从2016年起，ITU开展人工智能标准化研究，提出了人工智能和物联网、机器学习等领域的标准化项目。

中国高度重视新一代人工智能发展，2020年7月，国家标准委、中央网信办等五部门共同发布《国家新一代人工智能标准体系建设指南》，主要包括基础共性、支撑技术与产品、基础软硬件平台、关键通用技术、关键领域技术、产品和服务、行业应用、安全与伦理八部分。

围绕医疗健康领域，中国信通院依托中国通信标准化协会、互联网医疗健康产业联盟，关注医疗健康行业大模型的总体技术框架、应用服务能力、合成服务治理及安全管理能力等四个方面，发布医疗健康行业大模型领域的系列标准，推动人工智能技术与医疗健康的深度融合。

其中，《医疗健康行业大模型应用技术要求》中“第1部分：医院侧医疗服务”、《医疗健康行業大模型应用技术要求》的“第2部分：患者侧医疗服务”，这两项标准针对门诊、急诊、住院等不同临床场景中医生、护士、患者等不同角色所进行的活动，定义医疗健康行业大模型在医疗服务应具备的功能，规范大模型的实际落地应用能力。

同时，通过规范模态支持数量，语言任务、视觉任务、语音任务、跨模态任务等不同模态的任务支持度，语言理解、文书生成、多轮主动交互等基本能力，明确医疗大模型的医疗服务的应用优势及业务范围，支持医疗健康服务效率及质量的提升。

此外，通过规范软硬件、数据、算法模型、应用等方面的安全要求及易用性、稳定性、鲁棒性、公平性、可解释性、可审查性等模型服务要求，保障医疗健康信息安全及大模型的服务可靠性。

展望及发展建议

可以预见，人工智能将在医疗领域，能够提高医生效率，满足更多患者需求，推动优质医疗资源扩容下沉，应对医疗资源短缺的全球共同难题。医疗大模型聚焦严肃且谨慎的医疗场景，对错误的容忍度更低，对准确性和安全性要求更高。研制并推广大模型技术在医疗健康领域应用的相关标准，将大幅降低医疗健康大模型应用的研发门槛和创新成本，助力医疗健康行业的数字化转型，提升医疗服务效率，让优质医疗资源触达更多患者群体。

大模型在医疗健康领域应用所面临的挑战和难题是基本一致的，业界亟须搭建良好的公共服务生态环境促进良性发展。

笔者认为，一是需要大量训练数据和计算资源，医疗数据的获取和处理比较困难，应用过程中应重点关注数据合规；二是大模型的结果和决策相对难以解释和理解，涉及科技伦理治理的工作；三是大模型的安全性和隐私保护是后续规模化应用的基本前提，医疗数据涉及个人隐私和敏感信息，需采取相应的措施来保护数据安全。大模型走向应用落地时，在保障产品好用、可用、易用前提下，应契合场景的核心痛点，发展核心优势，支持后续差异化发展。

对标准体系的建立，中国亦不能落于人后。标准体系建设贯穿医疗健康行业大模型应用的全生命周期，涉及规划论证、科研生产、使用管理等多个部门，是复杂的系统工程，需要人工智能技术与卫生健康两个领域倾力协作配合，相互衔接、互为补充与支撑，以期尽快建立国家标准、行业标准。

笔者建议，从国家层面，推动标准应用试点示范。也就是依托人工智能标准体系，以“优势先行、成熟先用、应用牵引”为原则，通过重点标准的先试先行，总结提炼可借鉴、可复制、可推广的实践经验，以点带面拓展标准应用深度和广度，持续推动大模型技术在医疗健康领域的应用，为医疗健康服务数字化转型及智能化发展奠定基础。

另外，重视数据资源安全防护。从技术层面看，大模型技术在医疗健康领域应用有利于提高诊断治疗效率，但也存在数据泄露、模型被篡改破坏导致诊疗辅助决策误判等情况，要加强对数据资源的安全防护。通过技术、标准与规范等方式排除系统遭黑客攻击、程序被修改而导致错误内容输出等的可能性。

从过往经验看，技术跑马快行时，要有伦理作为束缚的缰绳。大模型技术在医疗健康领域的发展尤其要注意科技伦理风险，由人工智能算法所带来的偏见歧视、责任缺失、技术失控、隐私侵犯等伦理问题在医疗健康领域将会引发严重后果，要加强对医疗健康大模型的科技伦理治理工作，由产学研用各方联合开发科技伦理治理工具，引导医疗健康大模型有序、安全发展。

（编辑：王小）