从色谱分离到智慧医疗所涉及共同的数学物理本质:不可逆性
2019-04-02罗元园
梁 恒, 罗元园
(西安交通大学生物医学信息工程教育部重点实验室, 分离科学研究所, 陕西 西安 710049)
人类对长生和健康的追求从来都没有停止过。正是因为人类必须经历健康-疾病-衰老-死亡这样的生命不可逆过程,色谱工作者把分离过程的数学物理理论通过计算机用于分离检测和药物制备实践,对医药的发现、检测、制备和空气、水、土壤等污染的监测做出了贡献。这直接涉及病人个体服用的药物的发现、制备、临床化验及循证医学的全民零级预防。从色谱工作者的视角看色谱分离的计算机实时控制,其实是计算机网络来代替人优化和执行如梯度洗脱和模拟移动床等分离过程的时代产物。在人类有记载的数千年,千百亿计的个体经历从生到死的“阴-阳之间的分离过程”。这种不可逆的演化规律,不仅支配了漫长地质年代的过去,还会支配人类生老病死的现在和延绵的未来。恰恰当要把云计算和生老病死“健康-疾病生死分离过程”结合的时候,“智慧医疗”却成了一个还没有成熟就被全社会滥用的词汇,“智慧医疗”还没有普及,目前只是网购、智慧餐厅等较简单过程,迫切要求科学家赋予科学的实质含义。
正是这艰涩难懂的“不可逆性”,通过独立且并列于质量、力学和能量守恒方程的熵平衡方程中的熵产生(无序)和熵流(有序)在多种层次和情景下发挥着重要作用。因此可以通过云计算满足暴露人群、病人、医生、医药-设备-耗材供应者、医疗管理政策制定者、政府等广泛的医疗需求,来初步实现医疗平等,让名医从繁重重复的日常医学宣教、门诊和住院等“智力劳动”中解放出来,有精力和时间解决人类还未攻克的医学难题。显然,色谱分离是智慧医疗全集的一个很小的子集,但它们都服务于人类对长生和健康的追求。不同于色谱过程,医疗临床过程更为复杂,众多离散事件的概率涉及多种信息类型的“机器看病、处方和报告”过程,其“不可逆性”仍然在包括基于循证医学诊疗的疾病发展和演化过程中扮演着重要角色。
本文拟结合作者在分离科学领域的研究经历,透过纷繁的技术多样性,来凝练色谱分离和智慧医疗中共同的数理本质——不可逆性或熵(信息),并以不可逆性作为构建非平衡热力学分离理论[1-9]和智慧医疗共同的、统一的、全覆盖的数学构架的创新思想基础。
1 从分离科学和智慧医疗构架的基础谈起
作者[1-9]提出和发展非平衡热力学分离理论,有助于开展循证医学-个体状态辨识的测度概率构架函数的研究。提出和发展疾病生成和辨识的非平衡热力学-概率图模型的、统一的数学-人工智能(artificial intelligence, AI)构架。
智慧医疗是基于循证医学(evidence-based medicine, EBM)[10-18]、数学(离散数学[19-22]、集合论[23-25]、概率测度论[26-33])、AI或机器学习[34-37]中的概率图模型(probabilistic graphical models, PGM)[38,39]和贝叶斯编程学习(Bayesian program learning, BPL)[40,41]、疾病演化的非平衡热力学(不可逆性[42-51]、状态演化路径[1,9])等交叉学科成果。它将异构化数据(主诉、病史、检查、化验和影像)按实数(即代数,如化验数据)和几何(语音和影像)统一成为概率测度[26-33]的概率图模型[38,39]的3~5层信念网模式,用变量空间(疾病种类ψ、过程变量θ和个体疾病状态S)、模板-关系的结构化和实例化[39]来表示项目、变量和区间,再按条件概率分布和联合概率来反映个体疾病状态和疾病种类的生成和辨识的查询和推理关系,确定各种复杂程度的医学事件或干预措施作用于个体的效果的可能性。智慧医疗乘包括医生智力的第二次机器革命解放人类脑力和当前第三个创新及可解释的、小样本大任务和泛化能力强的通用AI技术的浪潮[52-55],推动实现AI-医疗云计算平台对超穷数人群的个体疾病状态和疾病种类的证据获取、临床诊断、治疗、预防、医疗决策和保险等的智慧医疗领域全覆盖的、统一的数学物理构架研究。
由于从非平衡热力学分离理论到AI-疾病诊疗学科间具有超大跨度,不免让读者颇感突兀,因此,有必要揭示二者在科学本质上的具体联系。这主要与色谱在临床检验和医药制备等的众多应用密不可分。在像集合论中从自然数-序数-基数[23-25]一样更为深刻的层次上,虽然色谱分离和智慧医疗研究对象完全不同,却存在着共同核心的数理本质方面的内在联系,如对流-扩散和不可逆性包括溶质带分布状态或个体疾病状态的演化时间递推以及对抗衰老和疾病演化的预测、预防和治疗等实质联系。
2 非平衡热力学是色谱过程的数学物理理论基础
非线性色谱(即制备色谱或电泳)和线性色谱(即分析色谱或电泳)过程涉及时变过程的优化和控制,必然就涉及不可逆性,亦即熵平衡方程中的熵(信息)。色谱分离过程到底是热力学过程还是动力学过程?一种溶质带如果在色谱柱中任何时间和任何位置都达到了热力学平衡,那显然色谱分离过程就不再进行了。因此,当代色谱理论就只能用经典热力学和动力学通过假定在一块塔板内溶质分布均匀和平衡来处理色谱这个实质上的非平衡热力学过程。可是,在梯度洗脱预测分析用非线性色谱和制备用非线性色谱的溶质带展宽时[6],沿色谱柱轴向的塔板高度实际是各不相同的塔板理论就受到了挑战。当然,在以制备为目的的非线性色谱过程中,只能引入非平衡热力学的局域平衡假设来替代一块塔板内溶质分布均匀和平衡的假定。另外,制备色谱几乎都在溶质高浓度的吸附等温线区域,考虑到对非线性色谱过程的实时控制,就必须建立非平衡热力学分离理论体系[1-9]。
因此,非平衡热力学[42-51]应该是统一色谱过程的热力学和动力学两个不同概念和方法的一般性构架。主要包括色谱和电泳的当代柱分离理论体系框架(1941年)在控制科学(1948年)和非平衡热力学(1960年)出现前就已形成。当代色谱理论框架以Eulerian描述-偏微分方程为基础,由于该框架涉及的数值计算缺乏Markov特性的固有缺陷,使该框架不容易与现代控制科学相结合,作者[1-9]提出和发展了非平衡热力学分离理论,使分离理论能够与控制科学相适应。非平衡热力学分离理论认为在外力场(如化学势场、压力势场或电场等)作用下的溶质分子带的演化过程核心是液-固两相分配、迁移、扩散和相间传质等物理化学现象相互耦合的非平衡热力学过程。这首先体现在毛细管电泳分离过程的描述中[3],高电压(高场强)毛细管电泳在促使溶质分子带因电荷和形状差异而分离,给溶质系统输入较多负熵流、系统熵减少而更有序,但同时产生较大的焦耳热使带展宽增加,使系统熵产生增加即系统熵增加,削弱分离效果。可见,一个因素或变量在一定范围内通过熵平衡方程表述的熵流和熵产生把这种在分离效果上的非可加因素转化成了可加因素。分离度不可以累加,但当转化为熵和信息时就变成了一种非可加测度[32],从而有条件实现多准则决策[32]。建立柱分离理论不应该是一个纯粹的动力学方程(Eulerian描述-偏微分方程),而应该是统一经典热力学和动力学的非平衡热力学理论构架[1]。基于Lagrangian描述,采用溶质分布的热力学状态序列、操作变量序列和状态递推方程描述非理想-非线性色谱分离过程[7],用Eulerian-Lagrangian描述和溶质带分布热力学状态演化路径来描述非线性-传质动力学色谱分离过程[4]。非平衡热力学分离理论已通过小分子在反相色谱[8]以及蛋白质在疏水色谱的突破曲线[9]实验得到了证实。该理论体系已被用于模拟移动床色谱理论体系的建立和过程优化[1],状态递推算法在非线性反相色谱和前沿色谱都得到检验和应用[8,9]。
图 1 区域个体计数统计Fig. 1 Regional individual count statistics a. Single molecule statistics regarding the confined liquid-solid interface. Localized probing region of the single molecule imaging system and its Lagrangian coordinates in μm[56]. ICDD: single molecule detection imaging system. The four regions of the molecular layers: single molecule layer (W1), double molecule layer (W2), triple molecule layer (W3), and middle molecule layer (W4) in the radial direction. b. A stroke belt of high stroke incidence across nine provincial regions located in the western and northern regions of China[59].
外力场直接作用于分子集合或个体群体的观测和统计,不可逆性发挥着根本作用。利用非平衡热力学分离理论处理限定性液-固界面上不同单分子吸附区域的单分子吸附等温线,已得到了单分子实验支持[56],也就是通过统计在限定性液-固界面(微观区域)上的逐个分子来获得“吸附等温线”。当然,一旦一种溶质的吸附等温线已知,其从低到高浓度的色谱峰的迁移行为也就完全已知了。循证医学也非常重视流行病统计[57,58],譬如,中国脑卒中地区差异的个体病例统计发现,由黑龙江、西藏、吉林、辽宁、新疆、河北、内蒙古、北京及宁夏这些区域构成了一个“中国脑卒中带”,该区域内的脑卒中发病率为236.2/10万,显著高于脑卒中带以外地区的发病率(109.7/10万)[58]。最值得回答和思考的问题是脑卒中带人群暴露在哪些特殊的影响因素的“外力场”中,譬如,饮食习惯、空气-水体污染等。比较单分子微粒和流行病个体的计数统计(见图1),在限定性液-固界面上的单个分子统计(见图1a)[56]和在中国脑卒中带上的脑卒中个体统计(见图1b)[58]都属于区域个体计数统计。当然,单分子微粒和病人个体在群体分布行为的状态分布、出现概率(测度)与局域环境暴露因素、个体行为因素、时间轴演化预测和分布类型辨识等规律上,特别是在对非平衡热力学[42-51]上不可逆性的理解、具体应用上存在着深刻的联系。正如目前大家都把深度学习(deep learning, DL)-医学影像理解成就是智慧医疗一样,其实AI领域专家已经强调深度学习受到数据瓶颈、可解释性瓶颈和可泛化性瓶颈限制[52],而与深度学习并行的概率图模型[38,39]和贝叶斯编程学习[40,41]恰恰能够克服深度学习在处理来自医疗领域的复杂异构化数据的这些缺陷。再回到当代Eulerian描述-偏微分方程色谱理论体系,其实只要采取在流体力学描述与之对应的Lagrangian描述-状态递推方程[1],就会消除当代色谱分离理论体系在可解释性、局域平衡假设应用和时变体系的操作参数控制等瓶颈限制。因此,对于机器学习在循证医学的机器诊断和医嘱的理论构架的构建,就不必再重蹈Eulerian-Lagrangian描述、热力学-动力学-非平衡热力的色谱理论构架问题的覆辙了。
综上,即使非平衡热力学分离理论适应信息(熵)和时变控制的时代要求,且微流控或其他色谱相关技术在不断地进步,但这些所谓的新理论和新技术最终能够被直接应用到现实的、个体病人的医疗环节还是寥寥无几。色谱理论和技术在人类制药、分析检测中应用广泛。但是,色谱理论和技术经过近80年发展已经到了平台期,色谱工作者有必要基于其背后的相关数学物理(如对流-扩散方程)基础和众多技术去开拓新的研究疆域。譬如,结合5G时代来临,云计算和AI的迅猛发展,针对循证医学的疾病辨识和治疗决策的数值化和智能化开展研究,以适应智慧医疗领域指数增长的科学和产业发展需求。
3 围绕不可逆性从色谱扩展到智慧医疗
色谱是制药过程或质检方法的众多技术之一,在医疗中具有重要作用,但一个成品药物要恰当地用给合适的病人,就需要涉及更为复杂的循证医学和智慧医疗领域。作者受20年来在国际上提出和发展的非平衡热力学分离理论研究实践中最核心的状态递推[9]的启发,近年来又提出智慧医疗中最基本和关键的变量和函数,即个体疾病状态(S)和疾病种类(ψ)。S即第i个个体在时间t下的疾病状态Si,t,即使为超穷数的疾病状态仍包含于疾病状态空间Ωs。疾病种类ψ被细分为6个层次,并用ψk表示第k种疾病,即使按疾病种类和发展阶段的疾病严重程度排序,未被人类发现的前面一种疾病也属于疾病种类空间Ωψ,已发现的、作为临床金标准、文献、教科书的疾病种类也被包含其中,这在公理集合论中涉及一个不可达基数定理[24]。这是把循证医学通过集合-概率测度数学化和模型化的基础,也是处理个体后验到群体统计,特别是通过条件概率和联合概率利用多个简单事件来分步骤刻画复杂事件的基础。在智慧医疗中引入疾病状态Si,t来刻画疾病在大的时间尺度的不可逆演化过程,体现了非平衡热力学中的不可逆性。
分子扩散已经被AI学者Sohl-Dickstein等[60]极具创造性地用来发展基于图像演化的非平衡热力学-非监督深度学习的图像处理方法。该文在高度灵活的概率分布家族中用来学习、取样、推理和评估,而且这种方法可分析、可计算、易驾驭。估计小扰动时,该方法比用单一的和非分析-正则化的潜在函数,更能清晰地表述全分布,且更容易驾驭。因为存在扩散过程对于任何光滑目标的分布,该方法能够捕获任意形式的数据分布。该研究随时间记录的一系列图片蕴藏着能够反映其个体一定规则下的随机且整体的时间演化规律。大数据智慧医疗涉及的实数、语音和影像等数据来源要比色谱分离复杂和丰富,而且也更接近全域疾病(如慢病)高危人群的现实情况。基于对外力场的分子分布或高危因素的个体疾病事件的分布规律(也就是状态演化的不可逆性)的认识,作者提出了在非平衡热力学路径下循证医学临床综合诊断和治疗措施的概率图模型(贝叶斯程序学习)的统一数学物理的机器学习构架。机器学习的中心问题涉及对复杂数据集必须用高度灵活的概率分布家族来建模,而所发展的方法须同时具有高度灵活性和可易驾驭性。Sohl-Dickstein等[60]受热力学非平衡统计物理学启迪,给出了一个根本的策略,通过一个面向扩散过程的迭代,系统地和缓慢地破坏一个数据分布的结构。色谱过程涉及对流(差速迁移)和扩散,不仅仅是使数据结构破坏的扩散过程,而是包含了使数据结构更为有序的熵流过程,也就是用基元-亚笔画-笔画-关系来“拟合”数据使数据结构更为有序的过程,在医学中与之对应的是包含了经过恰当地疾病诊治、给系统输入负熵流、使个体或群体疾病状态好转的过程。通过学习一个反向扩散过程,如一个疾病演化的反演过程,在异构化数据中来恢复结构,机器学习能产生一个高度灵活和易于处理的数据的生成模型,如学习典型慢病演化或反演过程这样的不可逆过程。此法能够快速学习,从数据取样本,并在生成模型中评估概率或数以千计的层或时间步,在学习模型中计算条件和后验概率。必须强调,非平衡热力学中的过程不可逆性[42-51]、物理学的准静过程和韧化的重要取样都不是来源于变化的贝叶斯方法[39,60]。这就容易把学习过的分布或流行病学统计的分布通过时间或变量的区间积分[30,32],来揭示、构造或计算一个相互嵌套的(类似于测度-概率-树结构[19,24,29,31])、多阶段多层次变量的、横跨疾病种类空间到个体疾病状态空间的多随机变量的联合概率,就是多个条件概率分布相乘[39-41]。扩散是不可逆性[48,50,51]在分子集合的行为描述的一种现象,而这一横跨物理-化学-生命的重要概念,还可以被用来刻画区域人群的健康状态、医生问诊、床前检查、化验或影像等检查项目、涉及的各种随机变量和参数、期间伴随的噪声、个体健康状态、疾病种类、亚病种以及所处阶段、医生学习或机器学习过程、多层次的分类、生命过程等,而这些都可以由机器来实现,可从它们涉及的基元-亚单元-单元或项目-变量-区间的复杂结构的三段论策略、数学工具结合训练集以及极大似然等方法来具体地处理各自的数据结构,而且是集合论中的同构[24,25,31]的数据结构。
任何疾病状态的演化规律都属于非平衡热力学的熵产生和负熵流研究领域[42,48],涉及随时间演化的耗散结构[49-51],对应于循证医学中的零级预防(包括水、空气和土壤污染、环境卫生等)、一级预防(服药-干预-防事件)、二级预防(防事件再次复发)或康复阶段。这对医生脑海里生成、判断和推理个体疾病在下一个时间点的可能疾病状态至关重要。而无论所采取的原理、方法和技术有多深刻,都必须以循证医学的方针作为根本,来构建任何规模和范围的疾病云计算的统一构架。分析高压柱色谱分离过程一般在数分钟,而占全体死亡人数78%的慢病人群数据[57]是以5年、10年为单位的长期统计,并借助纵向数据分析方法[61],虽然二者时间跨度不一样,但预测形式上是相似的。在相当长的时期内,领域知识和方法是当前AI学习过程的基础,否则,就不可能突破能让医生满意的有关AI可解释性要求,因为所有的决策依据和结果都得事先作为医学的规范、实践和统计环节才有可能被随后的机器学习所重新应用。这个观点的推广使得至少在很长的时期内不会存在不依赖于医学或医生艰苦的体力和智力劳动成果的AI方法。机器系统的诊疗中坚持循证医学方针和基本方法的程度决定着任何疾病云计算的统一构架的云平台被医生群体认可的程度,也决定着被广泛使用的程度。
非平衡热力学中的不可逆性对基于循证医学的人工智能-个体疾病诊治即智慧医疗起着不可替代的作用。用算法把个体疾病状态所属的疾病种类找出来,首先要有效地归类疾病状态演化的方向和贡献于某方向的致病因素,以免过于“漫无目标”。机体克服环境不利于健康的熵增因素而给疾病状态输入负熵流来对抗熵增因素,使疾病状态向“健康”方向演化,这显然涉及非平衡热力学的范畴。定量理解和形式化地表述疾病状态的演化这一典型的不可逆热力学过程,必须抓住疾病(如慢病)演化在大尺度时间范围内不会向更“健康”方向“逆转”的生理-病理(如衰老)事实。基于非平衡热力学的熵平衡方程这类普适原理[42-51],通过深层次数据语义挖掘和有效的疾病状态推理[34-41],可望在医学病理-预防-临床诊治层次上发展为深层智能的、可解释性的、统一的、通用的AI构架。
4 机器疾病诊疗的跨学科特点
AI技术不断向循证医学的疾病诊疗渗透着,如早期的专家系统、近年的深度学习。疾病机器诊断实质是在定义的疾病种类的范围和细分程度下,对个体疾病状态在像医生“脑海”一样的机器里的疾病种类中进行推断并分类。2017年文献报道了[62]用深度学习方法处理37万心血管病个体医疗10年间的记录来构建各隐层系数,且机器预测效果好过医生。但值得关注的是,深度学习算法不能说明发病的因果关系、该方法的泛化能力差[61]。循证医学,诸如慢性预防、临床诊断、鉴别诊断和对应治疗措施的疾病类型和细分程度导致场景数量呈现为天文学数量的多样性和复杂性,会加剧或凸显当前AI(特别是深度学习)自身存在的4个局限性,即数据瓶颈、泛化瓶颈、可解释性瓶颈和可靠性瓶颈[52]。当前流行的深度学习模型擅长大数据小任务,确实不适合疾病(如慢病)的综合诊断涉及的异构化数据的众多变量和复杂场景的多任务情景,但不排除深度学习在标记影像中出色的狭窄应用。
在AI领域脱颖而出的贝叶斯编程学习[40,41]通过概率编程归纳建立达到人类水平的具有组合、因果和学会学习特征的概念学习。利用针对医学影像或语音信息的基元-亚部分-部分层级结构来刻画教科书-医生脑海所定义的疾病类型所对应的疾病状态,也可以看成是非平衡热力学的分子或个体统计构成的“状态”。这里,疾病种类、疾病过渡参数和疾病状态的联合概率用来表现在医生脑海中所刻画的个体疾病状态和所属疾病类型。疾病状态还随时间而演化,这就是动态贝叶斯网,而贝叶斯网或概率编程等定向生成模型能够给出因果解释。新近研究[54]基于小样本学习和概率图模型提出一种生成-组合模型,被称为递归皮层神经网络(RCN),在遮挡验证码识别任务上超越了深度学习方法。神经网络之父Hinton[55]新近提出胶囊网络(CN),采用迭代的路由协议机制,它们的性能都比卷积网络的性能优越很多。最近发表的围棋-人工智能新成果AlphaGoZero[63],通过强化学习算法以100∶0战胜AlphaGo,不需棋谱数据和先验知识,可以看成极端的小样本学习,但慢病诊断不用医生的领域知识显然就好像机器就不知道自己在下围棋一样。我们亟待吸取这些杰出AI方法的精髓并结合疾病发生、发展的循证医学预防-诊断和治疗的基本规范和流程,以便形成逐步统一的、通用的智慧医疗-AI新构架。个体诊断和干涉措施要求具体场景具有广泛性、多样性(深入性和细致性)和相互间关系的复杂性,总会使深度学习因训练样本数量限制而失效。AI领域的著名专家已经反复指出,不应该把深度学习在狭隘智能上取得的成功(如深度学习的医学影像识别)与通往通用智能(general intelligences)路上的进展混为一谈。目前,要把这些代表小样本学习-概率生成模型的先进AI方法[40,41,54]应用于宏大范围并具有丰富细节的疾病诊断和治疗方面,必须抓住群体-个体多类别疾病的完整-综合诊断项目的变量和区间及其随时间发展演化和相互间关系的刻画和推断的规律,并采用数学超穷数理论[23]、公理集合论[24,25]、含非可加测度和多准则决策[32]的测度概率论[30,31]的创新应用,来突破机器疾病诊治中涉及的高度复杂性、综合性和跨学科等要素的限制。
只有从医学、数学和计算机的跨学科视野出发,才能形成满足具有全覆盖疾病预防和临床事件的机器诊治的统一、通用的AI系统构架和方法(详见表1)。面对包括血压、血糖检测等实数、主诉的语音和医学影像等依据疾病诊断和处置的多类型项目异构化数据的群体统计概率分布和演化规律以及S的ψ的分类,必须采用集合论、测度论的样本空间和域的概念和方法,才使超级复杂的个体疾病状态-疾病种类-循证状态-临床处置的概率图模型的概率编程学习统一构架实现其形式化和形态化(form and shape)。
表 1 全覆盖疾病诊断和防治小样本-概率生成模型学习机器涉及的学科、概念、方法及其关系Table 1 Disciplines, concepts, methods and relationships involved in the learning machine of a small sample- probability generation model for the diagnoses and prevention of full coverage diseases
Not including the subjects of physics and chemistry temporarily.
可见,非平衡热力学的不可逆概念、思想或相关方法所涉及的研究对象跨越了非生命的色谱分离等物理世界,延伸到以个体健康为主线的智慧医疗的生命状态演化。显然,不可逆性促使非生命和生命研究领域的科学工作者深刻地理解和恰当应用其相关方法,以便解决许多全局的、演化的、随机的、统一构架问题。