基于互信息的前列腺癌基因网络研究

2015-05-15冯变英

运城学院学报 2015年6期

关键词：互信息度量前列腺癌

冯变英

(运城学院应用数学系，山西运城044000)

0.引言

前列腺癌是世界上最常见的、严重危害男性健康的恶性肿瘤之一。在欧美国家，其发病率占男性肿瘤第一位，病死率第二位;在我国，发病率也呈上升趋势［1］。但是，由于癌症的发病机理相当复杂，目前对前列腺癌的发病机制还不很清楚。

很长一段时间里，人们致力于寻找单个致癌基因。后来发现癌症是多基因调控综合影响的结果，必须在基因组的总体水平上来研究癌症。全基因关联研究方法［2－4］、基因网络研究方法［5－7］等相继出现。

基因网络是建立在分子生物学、数学和信息学等多学科交叉的基础上，通过基因表达数据，结合一定的分析和计算方法构建合适的基因网络的研究方法，是一种系统的、定量的研究方法，是从基因组的整体水平上研究癌症的强有力的工具。目前，已有人用微分方程方法、布尔代数方法、模糊聚类方法的、偏最小二乘回归方法建立和研究基因网络，但很少用互信息建立基因相关网络。

关于前列腺癌的相关基因的研究，文献［8－12］做了许多的研究，但很少有从基因网络的角度来进行研究。本文正是以互信息为相关关系的度量工具建立基因网络来研究前列腺癌的关键基因。

1.样本数据

本研究的数据来源于美国国立生物技术信息中心网站公布的数据集 GDS2545(网址:http://www.ncbi.nlm.nih.gov/sites/GDSbrowser)。样本包含171例病例，分四部分，第一部分为正常前列腺组织样本，第二部分为邻近前列腺肿瘤的正常组织样本，第三部分为原发性前列腺肿瘤组织样本，第四部分为转移性前列腺肿瘤组织样本。

本文主要用第二部分(简称为正常组)和第三部分(简称为癌症组)的数据。两组数据大部分为相同病例的前列腺邻近肿瘤的正常组织与肿瘤组织的表达数据。先将不配对的样品去除，保留了58对数据，数据格式为.CEL。

2.研究方法

(1)利用配对数据的符号检验，比较得出正常组和癌症组的差异表达基因。

(2)利用互信息作为相关关系的度量，建立基因相关网络。

(3)利用研究复杂网络的方法，从中筛选出前列腺癌发病关键基因［12－15］。

3.研究过程

3.1 数据预处理

用Affymetrix公司的Expression Console(EC)软件将其转换为p值。转换后的数据共12626行，删除控制行后余12580行。

下载Affymetrix公司的平台GPL8300的数据，将探针与基因对应，其中有不同探针对应相同基因的情形，对基因的p值行进行平均;其中也有一个探针对应多个基因的情形，说明探针不能很好地识别基因，将其删除。整理后的数据如表1与表2。

表1 正常组的基因表达谱p值

表2 癌症组的基因表达谱p值

3.2 识别差异表达基因

对数据的分析，首先要识别在癌症组和正常组有显著表达差异的基因。常用的分析方法有三类:倍数分析、统计分析中的t检验和方差分析。本文数据是配对数据，采用配对数据的符号检验来识别差异表达的基因。根据多重比较中的bonferroni校正原理，以 α =0.00005 为检验水平［16－17］，发现 63个差异表达基因。

3.3 计算互信息

基因与基因之间的相关关系可以用Pearson相关系数、Spearman相关系数来度量，但用互信息来度量相关性有前二者所不及之优点，因此采用互信息来度量基因与基因间相关性。

首先将63个基因的p值数据离散化，然后计算相互之间的互信息，得到互信息矩阵，其对角线上的第i个元素为第i个基因与第i个基因的联合熵，即第i个基因的熵。由I(X，Y)为对称阵，且I(X，Y)≤H(X)，可将互信息矩阵中的上三角矩阵归一化处理。归一化时，要去除熵为零的基因，余47个基因。归一化后，对角线上的元素为1。

3.4 建立基因网络

基因网络的研究是生物学(主要是分子生物学)、数学(主要是非线性数学)和信息学(主要是程序算法的设计、信息的度量)三大学科的交叉点上，是生物信息学的热点之一，也是后基因组研究的重要内容。基因网络的研究有助于探索生命现象的一些本质问题，它为深入理解生命本质提供了一个新的研究框架和平台。

本文在建立基因网络时，考虑到互信息值大说明基因间相关关系较强，反之，互信息值小说明基因间相关关系较弱，将归一化后的互信息根据相关性的强弱分为两类:以0.2为阈值，大于0.2为相关性强，记为1，小于等于0.2为相关性弱，记为0。依此得到基因网络的邻接矩阵，也就是建立了基因相关网络。正常组和癌症组的基因网络图如图1和2所示。