智能诊疗领域的算法伦理与算法治理研究*

2021-04-03史励柯侯建平李亚军

中国医学伦理学 2021年4期

侯滢，史励柯，侯建平，李亚军**

(1 陕西中医药大学人文管理学院，陕西西安 712046，30783077@qq.com;2 蒙特克莱尔州立大学，新泽西 07003)

人类正在逐渐步入算法为核心的智能治理时代，无处不在的算法将催生出以人工智能为驱动力的新型经济和社会形式。所谓的“智能”，即由算法底层的简单规则生成的复杂行为[1]。伴随机器算法和算力的指数级提升、存储技术的发展、图像模式识别技术与人工神经网络算法的进步，智能诊疗领域将形成海量存储的大数据，通过机器学习、表征学习、深度学习和自然语言处理等技术，利用算法模型协助人类医生制定临床诊疗决策，助力智能诊断、临床决策、精准治疗等智能诊疗服务的发展[2]。但是，一项新技术的发展应用离不开伦理原则的价值引导，人工智能涉及的伦理问题中，算法伦理居于基础地位。智能诊疗领域的发展关乎民生，其涉及的算法伦理问题就更值得探讨。

1 算法在智能诊疗场景中的应用

数字化和信息化的变革大大提升了医疗效率。知识驱动和数据密集的智能诊疗领域，依赖深度的机器学习算法，能够通过强大的临床数据整合与学习能力，使计算机深度学习海量医疗知识，模拟医生思维和诊断推理，辅助医生诊疗并提供可靠的诊断和治疗方案[3]。以IBM的Watson个性化肿瘤治疗助手为例[4]，它能够通过智能诊疗系统辅助肿瘤科医生进行患者的个性化诊疗。Waston系统可以运用自然语言理解技术，让系统读取千万份的书籍、期刊、文献等资料，应用自然语言从研究素材中抽取疾病症状、诊断治疗方案等信息，构成复杂的知识图谱。整套辅助诊疗方案的输出源于智能算法下的认知计算系统，分析患者症状和就医记录，结合患者病理数据和后台的知识图谱，从全世界医疗文献中筛选信息并进行复杂的推理，匹配与患者病情相关度最大的病例，输出智能化、个性化、对症的治疗方案并进行优劣排布，按推荐方案、可选方案、不建议方案依次排列形成治疗方案供医生决策，整个辅助诊疗过程能够在十秒钟之内完成[5]，极大地提高了诊疗效率。

此外，智能算法在辅助医疗影像识别方面也优势明显。它能够通过人工智能技术对常用医疗影像学技术扫描图像和手术视频等进行深度分析处理，运用图像识别的感知环节对影像进行分析，对海量影像和诊断数据进行神经元网络深度学习训练，辅助医生进行疾病诊断和治疗。在现阶段的应用场景中，美国企业Enlitic就将深度学习算法模型应用于恶性肿瘤检测中，该公司开发的AI系统在针对癌症检测的准确率曾超越四位顶级放射科医生的诊断。甚至，该系统还曾诊断出人类医生无法诊断出的7%的癌症[6]。与人类医生的诊断不同，智能算法模型具备在不同终端上传输无差别“诊断经验”的能力，只要算法模型一致，诊断路径就是一致的。因此，伴随智能影像识别系统诊断水平的提升和实用性的普及，有望实现不同诊断条件下诊断结果的标准化和优质化，这将极大地节省医院相关科室的人力成本，提升影像诊断和病理诊断的质量和效率。

伴随着算法的不断突破和硬件设备的不断更新，人工智能技术在医疗诊断领域的优势逐步呈现。医疗领域长期存在资源不足和分配不均的问题，通过人工智能系统辅助诊断决策，能够极大地提高诊断准确率和诊疗效率。而在智能诊断的构成要素中，核心算法决定了智能系统以何种方式从海量医疗数据中自动分析获得规律，如何利用规律对未知数据进行预测，进而影响诊疗决策方案的提出。然而，没有算法是完美的。智能时代的算法衍生出的数字化医疗领域的革新，在大幅度提升诊疗效率的同时，也必然会存在伦理和风险问题。对相关问题的探讨与思考，将会影响我们是否能够更好地拥抱这一新兴科技。

2 智能诊疗领域涉及的算法伦理风险

任何新科技的发展都需要来自伦理层面的规制，智能算法在诊疗领域的应用也不例外。它能够实现高效的数据计算和精准的决策分析，在一定程度上解决当前医疗领域的痛点。伴随智能算法在辅助诊疗决策方面的成熟，它涉及的算法伦理风险也越来越值得关注。

2.1 算法歧视问题

技术有价值属性，算法也有价值表达。临床医疗数据的来源和算法开发设计人员的价值观也会影响算法的价值主张。一旦算法模型选取的训练数据集输出的平均值与真实模型的输出值之间存在差异，就会形成算法歧视[7]。医疗数据的来源和选取极其重要，数据的不当输入可能引起算法歧视。如果原始数据存在缺乏代表性、潜在偏差、数据质量和准确性等问题，算法执行过程就很难客观反映现实，输出的决策结果也极有可能带有偏见。在一些罕见病或新疾病的诊疗中，就曾出现过因医疗数据阈值过窄，导致算法输出无效或出现错误的诊疗方案[8]。

但是，算法并非价值中立，也可能带有人为歧视。开发设计者的价值观、偏好和利益导向都可能造成因年龄、性别、种族、地区等特征产生的不公平现象，最终影响诊断决策的客观性。不仅如此，算法也会产生习得性歧视。机器算法会在自我学习、适应和改进算法的过程中，从交互中习得人类社会既有的歧视。算法歧视可能造成智能诊疗应用各场景中的不平等现象，对被歧视个体和整个社会而言，都存在多重不利影响。

2.2 算法黑箱问题

智能诊疗领域基于神经网络的深度学习，将抓取的数据分为数以千万计的变量，进行自动加权计算，基于智能决策算法输出结果。由于涉及仿生学基础的数学模型和极其复杂的计算过程，用户并不清楚算法的目标和意图，也无从获悉算法设计者、实际控制者以及机器生成内容的责任归属等信息。甚至，算法模型中有时还存在一些超参数，这些超参数如何影响决策结果，大多数时候我们不得而知。在涉及人工智能辅助诊疗决策时，形成的算法黑箱问题就会引发更多忧虑和质疑。

现阶段，算法黑箱可以说是人工智能技术的一种缺陷。比如IBM Watson系统，它的诊疗方案是通过抓取海量文献和临床数据，通过算法分析得出辅助决策。但如何选取文献的抓取，抓取不同的文献对输出的诊疗方案有何影响，医疗专业人士尚不能清晰了解[9]。那么，在相对复杂的诊疗辅助决策中，算法黑箱问题就会成为监管难点。

2.3 算法归责问题

伴随近年来医患矛盾的不断加剧，智能诊疗涉及的算法归责问题也将产生深远的社会影响。在我国，传统医疗领域一直奉行医疗损害责任。当医疗机构及医务人员在医疗过程中因过失造成患者人身损害时，应承担以损害赔偿为主要方式的侵权责任。在算法辅助诊疗决策的场景中，如果因为算法缺陷使医生在病情检验和诊断，或诊疗方案的选择中做出错误判断，对患者造成一定伤害时，人工智能系统却无法对自己的决策负责。此外，实际应用场景中还有可能涉及责任主体多元、损害原因各异、责任份额不同等问题，一旦因算法问题造成医疗事故，就可能因为责任错综复杂而使算法归责难度增加。

2.4 算法安全问题

智能诊疗应用的深度学习神经网络算法多为动态学习算法，如果存在算法缺陷，极有可能造成诊断失误，损害人类健康，甚至剥夺人类生命。因为这些算法会模拟人脑的神经网络，设置层层输入、层层输出的数据连接，运用海量数据进行运算分析，并输出决策结果。一旦算法出现错误，输出结果将会导致更大的错误。IBM Watson系统就曾因运用错误的数据集训练，被医学专家发现推荐了不安全的治疗建议。相比临床医生可能出现的某次误诊，算法的安全缺陷可能会危及更多患者[10]。因此，采用成熟可靠的算法模型，保障人类的生命健康，应是智能医疗决策系统的首要要求。

此外，算法漏洞也可能被心怀不轨的人恶意操纵或被黑客攻击，若数据库或算法模型被篡改，将极大影响决策结果。那么，算法模型就不再可靠，也不再值得被信赖。因此，算法安全问题能否被有效解决，关系着智能诊疗决策系统能否被大规模广泛采用。

3 探索智能诊疗领域的算法治理路径

智能诊疗领域的算法治理是一项长期复杂的工程，需要算法的设计者、开发者、使用者、立法者、监管者等相关主体协同构筑良性的技术运作生态。现阶段，关于算法伦理与治理的研究尚不成熟，亟待一个可行的思考框架，而本文正是一种对可行算法治理路径的尝试探索。

3.1 探寻算法模型的可解释性

算法治理领域长久以来都在提倡人工智能算法决策的可解释性。算法的可解释性是指对算法模型内部机制和对算法模型结果的理解[11]。机器学习模型的可解释性越高，人们就越容易理解它为什么作出某些决定或预测。因此，业界普遍提倡在建模阶段辅助开发人员理解模型，进行模型的对比选择，必要时优化调整模型；在投入运行阶段，向业务方解释模型的内部机制，对模型结果进行解释。医疗领域对算法模型的可信度要求极高，因为算法模型的结果通常会直接决定患者的生死与健康，所以即使机器学习模型在区分恶性肿瘤和不同类型的良性肿瘤方面的准确性很高，我们依然需要专家来解释机器学习模型是如何决策的，这样才能帮助医生信任和使用机器学习模型来支持他们工作。

算法模型具有可解释的关键是透明度、质疑能力和人类理解模型决策的难易程度。我们需要了解，是什么驱动了模型的预测？为什么模型会作出某个决定？我们如何信任模型预测？若能够了解模型输入变量如何工作，模型的预测如何根据输入变量的值而变化，使用者就能提升对算法模型的评估信任。换言之，如果医生不信任算法模型或预测，他们就不会使用它。因此，在比较模型时，除了模型性能，如果模型的决策比其他模型的决策更容易理解，那么模型被认为比其他模型具有更好的可解释性。

当然，解释模型如何对业务起作用，确实在技术上具有一定难度，有时需要在算法模型性能和算法黑箱问题上做出妥协和平衡。比如，若应用简单的线性模型或基于树的模型，虽然很容易解释模型为什么根据预测作出决策，但可能需要牺牲模型性能。由于线性模型的高偏差和高方差等固有问题，集合模型和深度学习模型系列通常会产生更好的性能，但此类模型通常被认为是算法黑箱模型，很难解释模型如何作出决定。

3.2 明确算法决策的归责机制

智能诊断决策场景中，谁最终对算法提供的诊断决策负责，谁来承担诊断过错，是一个广为争议的问题。我们探寻这一领域的归责问题，应保障责任承担的公平性与科学性，在遵循我国现有的医疗侵权行为法律制度的同时，结合智能诊疗系统造成损害的原因与场景归责。由于诊疗过失的问题中，往往存在“多因一果”的情况，建议运用原因力规则判断不同责任主体所应负担的责任份额，分别对诊断责任主体和治疗责任主体归责，在责任承担中充分考虑原因力的比例和过错的大小。

此外，建立智能算法责任机制，应明确算法涉及的不同主体角色的职责。第一，应逐步建设人工智能产品标准，使开发者明确其开发产品所使用的算法需要满足保障人体健康和人身、财产安全的国家标准或行业标准，避免出现因算法缺陷而导致的缺陷产品，加强行业安全规范。第二，智能诊断系统应在算法运行之时，持续对决策系统进行记录、评估和反馈，便于追溯算法决策的责任主体。第三，建议探索第三方智能算法责任保险，由于可能存在既无法归责使用者、也不宜归责开发者的诊断过错，这样可以及时为受损害的患者提供救济，分担开发者和使用者风险，保障行业健康发展。

3.3 构筑算法伦理的价值嵌入

智能算法在各领域的应用，不仅仅是科技创新，也可能是一场影响深远的社会伦理试验。人工智能有望实现可计算的感知、认知和行为，在功能上模拟人的智能和行为，使机器具有一种准人格或拟主体的特性，因此，人工智能涉及的伦理问题备受关注[12]。我们应考虑构筑一个可执行的算法伦理机制，通过算法给智能机器嵌入人类的价值观和规范，让他们具有和人类一样的伦理道德。在算法中遵循道德规范的“善”，使智能决策系统具有功能性道德，将人类所倡导或可接受的伦理理论和规范转换为可规范的伦理算法和操作规程，用负载价值内涵的道德代码为智能决策系统编写伦理算法。医疗健康领域的智能决策系统应当将伦理价值嵌入在算法设计与开发中，并能够对系统作出的决策进行伦理层面的评估，避免出现伦理冲突。

此外，我们仍然无法忽略人的主观价值导向对算法模型的影响。算法决策程序渗透着研发者的道德素养，因此，规范伦理教育、增进算法设计者和开发者的伦理自觉，确保每位技术专家得到教育、培训和赋权，并在自主和智能系统的设计和开发中优先考虑伦理问题。

3.4 建立决策可信的算法审查和监管机制

算法是人工智能自主决策的关键，既然人类将决策权让渡给算法，为保证决策可信，必须构筑算法的审查机制。《新一代人工智能发展规划》指出需要实现智能算法设计、研发和应用等全流程的监管和审核，建立健全公开的智能技术审查体系，建设应用监督和设计归责并行的监管结构[13]。

智能诊疗领域的算法审查与监督机制，基础在于对医疗数据的规范，包括数据收集、数据挖掘、数据运算和数据使用的规制。算法设计者首先应该对训练数据的来源及可靠性加以说明；其次要监控算法的运行状态和运行结果。算法设计机构还应记录模型、算法、数据和具体决策，以便在解决出现的问题或依法监管时有据可查。对错误决策也可以进行调查并予以纠正。算法应用机构应采取可靠的技术手段对其算法的程序进行验证，尽量减少潜在的风险及危害。同时，审查和监管都需要依靠行政力量和法律手段，可考虑建立专门的算法监管机构，对智能诊疗决策体系涉及的算法进行风险评估、调查算法系统涉嫌侵权等情况、为其他监管机构提供关于算法系统的建议。算法的审查和监管机制应当涉及多部门协作，构建一个确切原则、标准和价值的体系，推动算法的决策可信。

4 结语

人工智能赋能诊疗领域应用前景广阔，能够有效满足人们日益增长的健康需求，也必然会带来巨大的行业变革。算法是人工智能落地医疗健康领域的基石，面对它所带来的伦理风险，有必要采取预防性的治理措施。本文仅仅是对智能诊疗领域的算法伦理和治理问题的简要分析，算法治理实现会伴随技术进步逐步落实，当然也需要依赖各相关领域协同治理。对该领域问题的持续探讨，有利于在提升算法伦理约束和完善治理策略方面作出积极推动，建立智能诊疗领域的算法治理信任。