基于数据库语言实现基因表达谱数据的单因素重复测量方差分析
2013-11-19汪伟
汪伟
首都医科大学 医学实验与测试中心,北京 100069
0 前言
随着分子生物学计算的发展,基因表达谱已经广泛应用在疾病诊断和治疗中[1-3]。伴随基因芯片种类的不断出新,数字化测序也逐渐得到广泛应用,随之而来的是分析技术的改进与更新[4-6],在众多的分析技术中,最具有权威的是统计学分析。
Visual Foxpro(VFP),同VB、DELPHI一样都是程序开发工具,VFP由于自带免费的DBF格式的数据库,在国内曾经是非常流行的开发语言,现在许多单位的MIS系统都是用VFP开发的。VFP主要用在小规模企业单位的MIS系统开发,当然也有用于工控软件、多媒体软件的开发中。在基因表达谱数据处理中既需要对数据计算又需要对数据管理,VFP是非常胜任这项工作的。
1 单因素重复测量方差分析数学模型
方差分析(Analysis of Variance,ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。单因素方差分析,是用来对完全随机设计的多个样本均数间的比较分析,其统计意义是推断各样本所代表的总体均数是否相等。重复测量数据是指同一受试对象的同一观察指标在不同时间点上进行多次测量所得的资料,常用来分析观察指标在不同时间点上的变化特点。重复测量设计可以将由于个体差异导致的变异予以消减或移除[7]。在重复测量设计中,一个处理内的被试跟另一个处理内的被试是完全相同的,因此,可以消减这个被试间差异导致的变异。其计算公式如下。
总变异离均差平方和:
受试对象间变异离均差平方和:
其中,Ti为第i个受试对象的全部观察值之和。
受试对象内变异离均差平方和:
其中,Si为第i个受试对象的全部观察值的平方和。
重复测量变异离均差平方和:
其中,Tj为第j个组内所有受试对象的观察值之和。
统计量F:
v为各离均差平方和对应的自由度。
2 单因素重复测量方差分析数据库语言实现构架
本软件由以下几个模块组成:数据转换、数据计算、输出、数据字典等。其结构框架,见图1。
图1 软件实现构架图
数据转换模块负责将基因芯片原始数据转换成两类数据库文件:一是探针以及对应的基因说明文件,该文件作为数据字典保存在数据字典数据库中;二是探针对应的基因表达值,本模块具有将同一研究中的多个表达谱芯片数据合并成一个数据库文件,以便后续的计算。同时,常用的统计用表也作为数据字典中的数据库文件。
数据计算模块则完成单因素重复测量方差分析的计算,所用计算公式在上节中已有详述,本软件构架还方便添加其他统计模块。
数据结果汇总模块主要功能是将统计结果数据库文件转换成EXCEL文件格式,可以依据使用者要求输出全部结果或具有统计意义的部分。
3 结果与讨论
软件开发完成后,使用首都医科大学附属医院的一组肿瘤治疗效果的micoRNA芯片表达谱数据进行检验,芯片探针为850个。该组数据共分0、2、4、8等4个时间点,共15个病人,在这4个时间点重复采样。对于该组数据,F值>2.83的miRNA具有统计学差异,软件计算结果得到37个miRNA,占总体比例4.35%。其F值分布比例,见图2。
图2 F值分布比例图
对于重复测量数据,由于不同时间点的测量值之间是相关的、非独立的,所以进行方差分析时,还特别要求需满足球对称条件[7]。鉴于球对称条件的检验和F值校正计算比较困难,并且大规模矩阵运算不适合用数据库语言实现,因此本软件没有设计此项检验。由于一般情况下,只有接近F的临界值时,才需要进行球对称条件检验并进行误差校正。我们将F临界值前后分别乘以1.05和0.95,并以此区间内的miRNA作为需要进行球对称检验。结果统计表明,需要进行此项检验的miRNA数量仅占整体数量的5%,这部分基因如果有必要进一步筛选,则可以使用SPSS统计软件,人工进行甄别。
4 结论
数据库语言比较其他编程语言,具有编程简单、且非常适合基因表达数据分析处理,因为基因表达谱数据既要计算同时还需要一定的数据管理。本研究开发的软件适合时间序列的表达谱数据筛选,作为表达谱大规模数据挖掘使用工具,具有高效、节省人工的优点。
[1]魏晶,张晨晨,张国良,等.高通量测序技术分析肺结核患者PBMC基因表达谱差异[J].中国免疫学杂志,2013,(6):639-643.
[2]谢莹莹,徐旸.多发性骨髓瘤细胞中SWI/SNF核心亚单位SNF5调控的基因表达谱分析[J].南方医科大学学报,2013,(5):667-671.
[3]孟爽爽,张艳亮,段勇.基因表达谱在肿瘤防治研究及临床应用中的进展[J].国际检验医学杂志,2013,(7):829-831.
[4]任丛林.基于压缩感知算法的基因表达数据分类的研究[D].北京:北京交通大学,2012.
[5]徐洪来,肖敏,杨超.肝、肾移植受者外周血基因表达差异分析[J].南方医科大学学报,2013,(2):166-171.
[6]李凌波,张静,陈丹.基于SVM和平均影响值的人肿瘤信息基因提取[J].生物信息学,2013,(1):72-78.
[7]王立芹,杨俊英,唐龙妹,等.单因素重复测量设计的方差分析及SAS与SPSS的实现[J].华北煤炭医学院学报,2005,(1):17-19.
[8]陆慧娟.基于基因表达数据的肿瘤分类算法研究[D].北京:中国矿业大学,2012.