生死48小时
2019-08-22陈彬
急性肾损伤常常令医生束手无策,这种疾病很难在早期发现,且一旦发病,进展会非常迅速。现在利用大数据和人工智能的方法,科学家设计出了一种算法,能够预测病人在随后48小时内出现急性肾损伤的风险。对于很多人来说,这48小时也许意味着生死之别。
南方周末特约撰稿 陈彬
肾脏是人体的重要器官,担负着清除代谢产生的废物、维持体液和电解质平衡等重要的功能。不难想象,如果肾脏出现了病变,人体将会受到多大的伤害。在诸多肾病中,急性肾损伤(曾经被称作急性肾衰竭,但国际肾病研究界于2005年达成共识,将这种疾病更名为急性肾损伤)不仅发病快、在特定的人群中发病率高,而且很多时候会在较晚的时候才能被发现,因此在被诊断出患有急性肾损伤时,很多病人的肾脏已经受到了严重的不可逆损伤,需要接受透析甚至肾脏移植。
英国和美国的科学家最近利用大数据和人工智能的方法设计出了一种算法,利用这种算法,科学家可以预测病人在随后48小时内出现急性肾损伤的风险。对于那些将会发生严重急性肾损伤的病人来说,这48小时也许意味着生死之别。
时间就是生命
有很多原因都可能引发急性肾损伤,但这些原因导致的最终结果都是肾功能在很短的时间内出现了严重的下降。这种肾功能的急剧下降不仅会导致代谢废物在血液中累积,也会使肾脏无法正常调节机体的体液平衡。由于肾脏这一机体的“废物处理工厂”出现了问题,随之而来的生理功能紊乱还会对身体的其他脏器造成伤害。
在急性肾损伤的患病人群中,有很大一部分都是住院病人(并不一定是因为肾病住院的)。这些急性肾损伤的病人的死亡率高达20%,而那些已经在重症监护室接受治疗的病人中,急性肾损伤的死亡率更是高达50%。在世界范围内,急性肾损伤的发病率为每100万人中有2100人患病,每年有大约200万人死于这种疾病。在中国,全国范围内有关急性肾损伤的大样本研究还很少,但根据南方医科大学侯凡凡院士团队2015年发表的一篇论文,在中国9家地区中心医院入院的659945名病人中,急性肾损伤的发生率为11.6%,这些患病病人的死亡率则为15.3%。这样大的患病人群和死亡率,不仅给万千病人和他们的家人带来了无尽的痛苦,也会给各国的医疗卫生系统带来沉重的经济负担:根据2011年美国的一项研究,为了救治该年约50万名因为急性肾损伤入院的病人,美国的医疗系统共花费了近47亿美元。
急性肾损伤的一个特点是难以在疾病发生的早期发现,因为刚开始时病人不一定会表现出很明显的症状。在有的时候,病人被诊断出发生了急性肾损伤,甚至是因为在做其他实验室检测时“无意”发现的。在这种情况下,当诊断出病人出现了急性肾损伤时,医生的救治手段也已经相当有限了。这种疾病的另一个特点则是发病时间非常快,慢的话也许需要几天,快的话则是以小时计。另外,即使病人得到了救治,但由于肾脏已经受到了一些损伤,病人后续罹患慢性肾病的风险也将增加8.8倍。基于这些原因,医学界迫切需要尽早发现急性肾损伤征兆的有效方法,因为对于急性肾损伤的病人来说,时间或许就是生命。
通过跨领域的合作,数据科学家和医学研究者找到了这样一种有效的方法。在最近一期的世界著名学术期刊《自然》杂志上,英国人工智能公司DeepMind和美国多家医疗机构的科学家合作发表了一篇研究论文。结合大数据和人工智能的方法,这些科学家设计出了一种算法(下文中将使用人工智能的英语缩写AI来表示),能够根据病人的电子医疗记录预测病人在随后48小时内出现急性肾损伤的风险。
用海量信息训练
在这项研究发表之前,已经有科学家设计出了用于监测急性肾损伤的AI。这些AI的策略是通过监测血液中一种叫做肌酐的代谢废物的水平,来尽早发现病人可能出现的急性肾损伤。但这种策略有一个严重的缺陷:与肾脏受到的损伤相比,肌酐水平出现异常存在严重的滞后。也就是说当AI通过分析肌酐的水平,发现病人出现了急性肾损伤时,肾脏已经受到了相当程度的损伤。
在这项新的研究中,DeepMind的数据科学家采取了完全不同的策略。他们总共使用了取自超过1000家医疗机构共计703782名成年病人的电子医疗记录来设计、训练并评估AI的预测能力。
这些医疗记录中记录有病人的各类信息,比如病人接受的各种医学检查的结果、医生的诊断、使用了那些药物等。研究的形式则是回顾性研究,也就是说在进行研究的时候,每一名病人在研究者选定的时间范围内是否最终出现了急性肾损伤(根据肾病研究界广泛使用的一种评判标准来判定)、损伤程度(如果出现了损伤的话)有多严重、在这期间的各类生理和病理指标等等信息,在医疗信息中均有详细的记录。
科学家的研究方式是将这703782名病人(这些病人有的出现了急性肾损伤,有的没有)分成两组,把其中一组病人的数据用于训练研究人员设计的AI。另一组病人的数据则用来考核AI:科学家会把这些病人入院(不一定是因为肾病入院)前48小时的医疗信息提供给AI,让AI据此预测病人在随后48小时里出现急性肾损伤的风险,并把AI的预测和实际情况进行对比,评估AI预测的准确性。
除了病人的数量巨大以外,这些病人的电子医疗记录中包含的信息也非常丰富。科学家从这些信息中提取出了62万种,共计63.5亿个数据点来训练和评估AI。其中90%的病人的信息用于训练和校准AI,10%的病人的信息则被用来评估AI的准确性。
计算模型
DeepMind的科学家设计的AI使用了一种名叫递归神经网络(Recurrent Neural Network,中文世界中也有翻译成“循环神经网络”的,但全国科学技术名词审定委员会审定的翻译建议是“递归神经网络”)的计算模型。这种神经网络的一个优点是擅长处理序列数据以及这些序列数据间的关联。在这项研究中,序列数据就是病人在不同的时间点上的医疗信息,因为这些信息并不是完全孤立的,同一种信息在不同的时间点上的值之间存在关联(不同种类的信息在不同时间点上的值之间甚至也有可能存在某些关联),因此其变化趋势可以为AI的预测提供有效的信息。
研究人员把病人每24小时的数据信息分成了4个单元,每个单元6小时。由于有一部分信息没有记录时间,因此这些信息被汇总到一起,作为第5个单元,放在这个24小时信息序列的最后。在训练时,研究人员会把病人入院前48小时内每一个时间单元的医疗信息(这些信息都是数字形式的,有一部分信息需要用“是”或者“否”这样的二元描述来呈现,因此也可以看作数字)逐一提供给AI。另外,在分析每一个时间单元时,还会把这个时间单元之前的48小时、6个月以及5年的信息分别“提炼汇总”成一份数据,提供给AI。
在把这些数据输入AI之后,AI会以时间单元为单位(按照时间顺序),来“解读”这个时间单元内的每一种信息。每一种信息都会被赋予一个权重,以体现这种信息在被用于预测病人出现急性肾损伤的风险时的“有用度”。
在分析完一个时间单元的信息后,AI会对病人在这个时间单元之后48小时内出现急性肾损伤的风险给出一个预测值。这个预测值会被AI“记下来”,在“解读”下一个时间单元的信息,进而预测病人在后面这个时间单元之后的48小时内出现急性肾损伤的风险时用作“参考”。
在分析完病人入院前48个小时里最后一个时间单元的信息后,AI会给出一个最终版的风险预测值。由于AI在分析每一个时间单元并给出一个风险预测值时,都会“参考”前一个时间单元的分析结果,而前一个时间单元的预测值又“参考”了更早的时间单元的预测值,因此这个最终版的风险预测值,呈现的并不仅仅是最后一个时间单元的信息,而是在过去整个48小时内,随着时间的推移,病人生理特征变化的汇总信息,同时还体现出了时间越靠后的信息,对于预测出现急性肾损伤的风险也许会更有用这一点。
对于这个风险预测值,科学家设置了一个阈值(也就是“门槛”),如果最终版的预测值高于这个阈值,那么AI就会报警,提示医生病人在未来48小时内将会出现急性肾损伤。
由于这是一项回顾性研究,所以实际上对于每个病人在入院后48小时内是否发生了急性肾损伤,病人的医疗信息中都有记录。在接受训练的过程中,AI每完成一次最终版的预测,就会将预测结果与医疗信息中记录下的真实情况进行比对。如果预测结果一致,那么AI就会进行下一轮训练;如果预测结果不一致,AI就会对数据中某些信息在预测时所占的权重进行调整,然后进行下一轮训练并再次做出预测。这一次,新的预测可能会和实际情况一致,这时AI就会接着进行下一轮训练。但预测的结果也有可能和实际情况仍然不一致,这时AI就会再次对某些信息所占的权重进行调整,然后进行下一轮训练。
通过不断重复这一过程,AI的预测能力就会越变越好。在训练的时候,没有哪一轮训练一定会使AI的预测能力增强。实际上,如果某一轮预测失败了,甚至可能说明上一轮的调整使AI的预测能力发生了倒退。但基于海量的数据和很多轮的训练,AI会不断吸收“成功的经验”并积累“失败的教训”,逐渐增强其预测的准确率。
假阳性与误报
在整个训练完成后,研究人员用剩下的10%的病人的医疗信息对AI预测的准确性进行了评估(就好像是期末考试)。评估结果相当出色。
对于这一部分用于检验AI预测准确性的病人,AI预测的准确率达到了55.8%,假阳性的误报率则为2:1。这个2:1的假阳性误报率是指,AI每预测对一个将会出现急性肾损伤的病人,就会把两个并不会出现损伤的病人误报为将会出现急性肾损伤。
这个数据也许看起来并不出色,但实际上这是由多方面的原因导致的。一方面,科学家给AI定下的“标尺”非常高:任何病人,如果在入院后48小时内出现了哪怕是非常轻微的急性肾损伤(根据严重程度,急性肾损伤被划分为多个等级),而AI的预测为“否”,那么仍然算作AI预测失败。
如果说这还算“高标准,严要求”的话,那么在另一个方面,AI就显得很无辜了:有的病人虽然并没有在随后的48小时内出现急性肾损伤,但却在48小时后稍晚一点时出现了急性肾损伤,在这种情况下AI的预测也被判定为失败,同时也被判定为误报。在这种情况下,AI的“高瞻远瞩”反而被无情地否定了!在所有假阳性的误报中,这种一定程度上“错怪”AI的情况占了24.9%。
不过即使把这些情况纳入考虑,AI也确实远称不上完美。一些较为复杂的原因的确使AI出现了误报,比如有一些病人不久前出现过急性肾损伤(但已经得到了救治),这使AI“过分解读”了医疗记录中的相关信息,进而做出了错误的预测;还有一些病人则已经患有其他肾病,这也许使AI“误读”了一些与肾脏相关,但与急性肾损伤关联较小的信息,从而做出了错误的预测。好在科学家并没有只是让AI简单地输出一个“是”或者“否”的预测结果,而是同时还会给出一个预测结果的“确定度”,也就是说AI还把这个预测正确的“把握”有多大的信息也呈现给了医生,这使医生还可以结合自己的经验来做出判断。
表现惊艳
对于那些后来证明将会出现严重急性肾损伤的病人来说,AI的预测就堪称惊艳了。在那些入院48小时内就会出现急性肾损伤,并且在随后的30天内就必须要接受血液透析的病人(不论在入院48小时内出现的急性肾损伤的程度是轻是重),AI预测的准确率达到了84.3%;而对于那些入院48小时内就会出现急性肾损伤,并且在随后的90天内就必须要接受血液透析的病人,AI预测的准确率则高达90.2%。
毫无疑问,对于这些病人,如果不在尽可能早的阶段进行救治,那么他们的肾脏将会出现严重的不可逆损伤,有可能在随后的一生中都需要接受血液透析,甚至需要接受肾脏移植。对于他们来说,AI提前48小时的预测将可能改变他们的人生,甚至可能意味着生死之别。
尽管AI的表现已经非常优异,但论文的作者仍然认为其性能还有很大的提升空间。一方面,AI还存在不小比例的假阳性误报的情况,这在未来也许可以通过使用更大量的数据(尤其是更多患有或者此前患过肾病的病人的数据)训练AI等方法得到解决。另外,在这项研究使用的数据中,绝大多数病人都是白人男性,这有可能会使AI在预测女性或者其他族裔的病人的患病风险时,准确性不如白人男性病人。
实际上,这是目前大数据和人工智能技术普遍面临的一个问题:如果用于训练的数据只集中在某一个特定的群体中,那么AI在其他群体中的表现也许并不会非常好,甚至可能会非常糟糕。要解决个问题,唯一的办法就是使用更加广泛、充分代表各个群体的数据来训练AI。还有一点需要注意的是,这项研究是回顾性的研究。但此前其他领域的一些研究发现,当把这类回顾性研究中训练出的AI用于现实中的时候,AI的表现有时候会不如研究中评估得出的结果那么好。因此,DeepMind的这一AI的表现还有待在临床应用中进行检验。
未来将使医生失业?
也许有人对完成这项研究的公司DeepMind并没有太多印象,但围棋人工智能AI“阿尔法狗”可能很多人都听说过。研发出阿尔法狗并战胜柯洁等世界围棋冠军的,正是谷歌旗下的这家英国公司。
2016年2月,DeepMind成立了专门致力于医疗健康领域研究的部门DeepMind Health。预测急性肾损伤的AI便是DeepMind Health的研究成果。而在此之前,DeepMind Health还于2018年研发出了一款检测眼部疾病的AI。通过读取病人眼部扫描的影像,这一AI能够对超过50种眼病进行诊断并提出治疗建议,其准确性已经达到了相关领域世界顶级专家的水平。
实际上在过去几年间,借助于人工智能和大数据技术,科学家已经研发出了很多达到医学专家水平的AI:有的AI可以通过病人的眼底影像来预测病人未来罹患心血管疾病的风险;有的AI能够通过读取病人病理切片的影像发现医生难于发现的癌症特征;有的AI能够通过阅读和学习数以千万篇医学文献诊断出医生无法诊断的疾病。IBM的超级计算机“沃森”在2016年通过阅读和学习超过2000万篇癌症研究论文,诊断出一名病人患有一种极为罕见的白血病,全程仅花了十分钟。
尽管这些AI可能还算不上尽善尽美,但随着计算机技术、人工智能和大数据等领域的进步,相信AI将在未来实现更多医学领域的突破,帮助医生和病人更好地预防和治疗疾病、提高病人的生活质量并减轻社会的负担。