APP下载

基于3种基因启动子甲基化联合端粒长度构建肺癌诊断支持向量机模型*

2015-12-04冯晓蕾段晓冉王团伟谭善娟吴逸明吴拥军

郑州大学学报(医学版) 2015年4期
关键词:端粒准确度甲基化

王 威,冯晓蕾,段晓冉,王团伟,谭善娟,吴逸明,吴拥军

郑州大学公共卫生学院劳动卫生与卫生毒理学教研室郑州450001

肺癌发病率和病死率均居于全世界癌症谱的首位,早期无特异症状。已有研究[1-2]发现,脆性组氨酸三联体(fragile histidine traid,FHIT)、RASSF1A 和p16 等基因甲基化引起的抑癌基因表达沉默,以及外周血的DNA 端粒长度缩短,会使肺癌的危险性增加。课题组[3-4]前期进行了一些研究,发现FHIT、p16、RASSF1 和外周血的DNA 端粒长度4 项生物标志在肺癌诊断中具备价值,构建了肺癌诊断的神经网络模型和决策树模型,为进一步研究肺癌早期诊断技术奠定了基础。支持向量机是建立在结构风险最小化原理和VC 维理论基础上的一种数据挖掘方法,理论基础坚实,数学模型简明,克服了“维数灾难”,在解答小样本、非线性和高维模式识别类型这些问题时独具优势[5]。作者尝试进行基于以上4种生物标志的肺癌诊断支持向量机模型的构建。

1 对象与方法

1.1 研究对象 选择2009年1月至2010年6月郑州大学第一附属医院胸外科和呼吸内科确诊为原发性肺癌的患者200例,其中腺癌72例,鳞状细胞癌87例,大细胞肺癌8例,小细胞肺癌33例;同期没有恶性肿瘤的健康体检者200例作对照。经研究对象知情同意后,由医生和专业调查员来收集血样本以及包括年龄、性别、吸烟等在内的流行病学资料。每天吸烟1 支且吸烟1 a 以上定义为吸烟[6]。

1.2 主要试剂和仪器 全血基因组DNA 提取试剂盒(上海莱枫公司),PTC200 型PCR 扩增仪(美国MJ Research 公司),Real-time PCR 仪(美国Startagene 公司),引物(上海生工生物工程服务有限公司),EPS-350 电泳仪(瑞典Pharmaera-LKB 公司),GoTaq qPCR Mastermix(美国Promega 公司),组织DNA 提取试剂盒(北京康为世纪公司)。

1.3 实验方法 按照全血基因组DNA 提取试剂盒的要求进行外周血基因组DNA 的提取;甲基化水平检测的方法为实时定量甲基化特异性PCR 法;甲基化水平(率)的计算参考文献[7];端粒长度的测定采取实时荧光定量PCR 法[8]。

1.4 统计学处理 使用SPSS 12.0 分析,定性资料两样本比较用χ2检验。定量资料若符合正态分布,用¯x±s 描述,若不符合,采取M(P25~P75)描述;两样本比较用秩和检验或t 检验。检验水准α=0.05。

1.5 数据挖掘

1.5.1 数据的预处理 数据转换:使用SPSS Clementine 12.0 对不符合正态分布的3个基因的甲基化水平做变量变换。数据分组:使用软件SPSS Clementine 12.0 将数据随机分成预测集和训练集2组,按3∶1 抽样,将400个样本分为训练集(对照者150个,肺癌患者150个)和预测集(对照者50个,肺癌患者50个)。

1.5.2 模型的建立 Fisher 判别分析模型:见文献[2]。支持向量机模型:该模型在SPSS Clementine 12.0 中实现,输入项设定为训练集的吸烟史、年龄、端粒长度和FHIT、RASSF1A 及p16 基因甲基化水平,输出项设定为group(肺癌=1,对照=2)。基于此研究非线性的训练样本,采用非线性支持向量机算法,通过初步的探索后:Mode 为Expert,Kernel type 为Polynomial,Stopping criteria 为1.0E-3,Gamma 为1 被确定为最终的参数。

1.5.3 模型的评价 采用特异度、灵敏度、准确度、阴性预测值、阳性预测值及ROC 曲线下面积(AUC)等指标来进行模型评价,其中设定当AUC<0.5,无诊断意义;AUC 0.5~,准确度极低;AUC 0.7~,准确度比较好;AUC >0.9,准确度最好。

2 结果

2.1 研究对象基本情况 肺癌组患者200 名,其中男143 名,女57 名;吸烟者107 名,不吸烟者93 名;年龄(59.6 ±10.6)岁;对照组200 名,其中男151名,女49 名;吸烟者79 名,不吸烟者121 名;年龄(53.7 ±13.3)岁;两组间性别均衡,年龄和吸烟人数差异具有统计学意义(t/χ2 =9.537 和6.221,P =0.001 和0.005)。

2.2 肺癌组和对照组FHIT、RASSF1A 和p16 基因启动子甲基化水平及端粒长度的比较 结果见表1。

2.3 数据挖掘模型结果 对不符合正态分布的p16、RASSF1A 和FHIT 基因启动子的甲基化水平进行正态性变换,其中p16 和FHIT 基因启动子的甲基化水平用取log10 变换,RASSF1A 基因启动子的甲基化水平用取平方根变换。最终得到的数据挖掘模型见表2。

2.4 模型的评估 见表3。

表3 两数据挖掘模型的效果评估

3 讨论

大量研究[9-10]结果表明,肺癌与FHIT、RASSF1A 和p16 基因的甲基化之间有关联。该研究结果显示,肺癌组和对照组FHIT、RASSF1A 和p16 基因启动子甲基化水平差异均有统计学意义。端粒长度变化将对端粒结构和功能改变产生重要影响[11]。该研究发现肺癌组端粒长度要短于对照组,提示端粒缩短是肺癌的危险因素,这与文献[12-13]研究结果相一致。

支持向量机具有完善的数学表达、出色的泛化功能、直观的几何图形,在数据挖掘方面可以避免局部最优解,完美解决过学习问题。同时,它以结构风险最小化为基本原理,强调置信区间的最小化,能够很好地解决算法中复杂程度与泛化能力间的矛盾。支持向量机模型只和样本数量有关,且人为设定的参数较少,便于使用,因此该模型在解决小样本的问题时具有独特的优势[14-15]。鉴于以上优点,支持向量机模型在临床辅助诊断等方面也具有很大的潜力[16]。目前,卓越的分类性能使支持向量机在多种数据挖掘方法中很受关注,在生物信息处理,特别是生物辅助诊断方面已取得了一系列很好的成绩[17]。

该研究采用支持向量机模型对预测集的预测准确度达到81.0%,而判别分析模型的预测准确度为67.0%,因此支持向量机模型在肺癌的辅助诊断方面可能具有较高的价值。课题组前期做了肺癌预测的相关工作,尝试采取其他肿瘤标志联合数据挖掘建立数据挖掘模型,准确度高达90%[18]。该研究建立的支持向量机模型预测准确度未达到该水平,考虑原因为:样本发生了变化,筛选出的生物标志物发生了变化。因此,需要综合分析和比较研究样本中的不同生物标志,进一步筛选出理想的生物标志物,完善数据挖掘模型。

综上所述,该研究发现人外周血DNA 端粒长度和FHIT、RASSF1A、p16 基因启动子甲基化与肺癌有关,并首次成功构建了基于上述4种生物标志的肺癌诊断支持向量机模型,结果表明支持向量机在肺癌诊断中具有较高的应用价值。

[1]Hsu HS,Chen TP,Hung CH,et al.Characterization of a multiple epigenetic marker panel for lung cancer detection and risk assessment in plasma[J].Cancer,2007,110(9):2019

[2]谭善娟,王娜,王威,等.人外周血基因组DNA 端粒长度与肺癌关系[J].中国公共卫生,2012,28(5):652

[3]魏小玲,谭善娟,何其栋,等.决策树联合生物标志在肺癌辅助诊断中应用[J].中国公共卫生,2013,29(10):1479

[4]王威,段晓冉,谭善娟,等.基于3种基因启动子甲基化联合端粒长度构建肺癌筛查神经网络模型[J].郑州大学学报:医学版,2014,49(2):176

[5]丁世飞.齐丙娟,谭红艳.支持向量机理论与支持算法研究综述[J].电子科技大学学报,2011,40(1):2

[6]World Health Organization.Guidelines for controlling and monitoring the tobacco epidemic[R].Geneva:WHO,1998:200

[7]Lu L,Katsaros D,De La Longrais IA,et al.Hypermethylation of let-7a-3 in epithelial ovarian cancer is associated with low insulin-like growth factor-Ⅱexpression and favorable prognosis[J].Cancer Res,2007,67(21):10117

[8]王威,李智涛,祝寒松,等.煤焦沥青烟提取物致人支气管上皮细胞恶性转化细胞端粒损伤研究[J].中国职业医学,2011,38(5):369

[9]Zhang YW,Wang R,Song HZ,et al.Methylation of multiple genes as a candidate biomarker in non-small cell lung cancer[J].Cancer Lett,2011,303(1):21

[10]Liu Z,Li W,Lei Z,et al.CpG island methylator phenotype involving chromosome 3p confers an increased risk of nonsmall cell lung cancer[J].J Thorac Oncol,2010,5(6):790

[11]王海兵.DNA 甲基化在肺癌中的研究进展[J].中国肺癌杂志,2010,13(11):1074

[12]Dammann R,Li C,Yoon JH,et al.Epigenetic inactivation of a RAS association domain family protein from the lung tumour suppressor locus 3p21.3[J].Nat Genet,2000,25(3):315

[13]刘利东,黄金水,谭兆珍,等.RASSF1A 启动子甲基化与非小细胞肺癌TNM 分期关系的Meta 分析[J].岭南现代临床外科,2010,109(2):142

[14]Zhang Y,Miao Y,Yi J,et al.Frequent epigenetic inactivation of deleted in lung and esophageal cancer 1 gene by promoter methylation in non-small-cell lung cancer[J].Clin Lung Cancer,2010,11(4):264

[15]Nagji AS,Liu Y,Stelow EB,et al.BRMS1 transcriptional repression correlates with CpG island methylation and advanced pathological stage in non-small cell lung cancer[J].J Pathol,2010,221(2):229

[16]Wang R,Zhang YW,Chen LB.Aberrant promoter methylation of FBLN-3 gene and clinicopathological significance in non-small cell lung carcinoma[J].Lung Cancer,2010,69(2):239

[17]Huang TM,Kecman V.Gene extraction for cancer diagnosis by support vector machines--an improvement[J].Artif Intell Med,2005,35(1/2):185

[18]冯斐斐,聂广金,吴拥军,等.基于6 项肿瘤标志联合检测的3种分类模型判别肺癌的对比分析[J].卫生研究,2009,38(4):429

猜你喜欢

端粒准确度甲基化
影响重力式自动装料衡器准确度的因素分析
甲基苯丙胺改变成瘾小鼠突触可塑性基因的甲基化修饰
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
论提高装备故障预测准确度的方法途径
能忍的人寿命长
40—65岁是健身黄金期
端粒可以预测寿命吗
肝癌组织hSulf-1基因表达与其甲基化状态的关系
SOX30基因在结直肠癌中的表达与甲基化分析
对GB 17167实施过程中衡器准确度要求问题的探讨