中国科学家建立量化网络中直接关联性的“部分互信息”新方法
2016-05-30曦铼
曦铼
[本刊讯]中国科学院上海生命科学研究院生物化学与细胞生物学研究所系统生物学重点实验室陈洛南研究组报道了题为“建立量化网络中直接关联性的‘部分互信息新方法”(Part mutual information for quantifying direct associations in networks)的最新研究成果。该成果首次提出“部分互信息”的新概念和理论,通过“部分互信息”量化网络中节点之间的直接关联性,可实现由观测数据直接构建网络或变量间因果关系。相关论文2016年4月18日在线发表于Proceedings of the National Academy Of Sciences Of the United States Of America。
数据分析中,定量的标识变量间的直接依赖性是一件非常重要的事情,特别对于科学和工程中各种类型的网络重构和因果推断问题,都需要高精度的理论和方法。应用最广泛的方法之一是偏相关性系数(partial correlation),但是偏相关性系数只能量化线性变量或节点之间的相关性和关联性,忽略非线性的关联性。然而,基于“条件独立性”(conditional independency)的“条件互信息”(conditional mutual information。CMI)可以从数据中观察变量之间非线性的直接关联性,优于线性的方法,所以广泛应用于各个领域。但是,条件互信息存在着过低估计的问题,严重限制了它的应用,特别是在变量或节点间有强相关的网络中,这个问题更加严重。
基于此,研究组提出了“偏独立性”(partial independency)以及新的度量方法,又称作“部分互信息”(part mutual information,PMI),不仅能够克服条件互信息的缺点,同时还能保持互信息和条件互信息的性质。研究组首先定义了部分互信息用于量化变量之间直接关联性,然后从理论上给出部分互信息与互信息,以及条件互信息之间的内在联系。通过数值实验,证明了部分互信息的性质和优点,接着通过用大肠杆菌和酵母的基因表达数据重构其基因调控网络,进一步验证了部分互信息在量化网络中非线性的直接关联性的优越性。从计算的角度,“部分互信息”可取代“条件互信息”,该工作为大数据网络研究提供了全新的概念和理论,具有重要理论和应用价值。基于观测数据,“部分互信息”不仅可用于生物分子网络的高精度构建,而且可以应用于其他工程和科学领域中各种复杂网络和因素的因果关系推断。