APP下载

禽流感病毒广东株HA基因BLSOM神经网络分型方法的建立

2016-07-13田纯见高佳卉林志雄鱼海琼刘志玲吴晓薇

广东农业科学 2016年2期
关键词:分型神经网络

田纯见,罗 琼,高佳卉,林志雄,鱼海琼,刘志玲,陈 茹,吴晓薇

(广东出入境检验检疫局检验检疫技术中心/广东省动植物与食品进出口技术措施研究重点实验室/国家质量监督与检验检疫总局国家禽流感检测重点实验室·广东,广东 广州 510623)



禽流感病毒广东株HA基因BLSOM神经网络分型方法的建立

田纯见,罗 琼,高佳卉,林志雄,鱼海琼,刘志玲,陈 茹,吴晓薇

(广东出入境检验检疫局检验检疫技术中心/广东省动植物与食品进出口技术措施研究重点实验室/国家质量监督与检验检疫总局国家禽流感检测重点实验室·广东,广东 广州 510623)

摘 要:利用25个禽流感病毒及相关流感病毒广东株HA基因序列,建立三、四核苷酸特征基因片段BLSOM神经网络分型方法,对各片段数量进行统计和归一化处理。设计程序由MATLAB函数模拟人脑思维自组织学习,当训练步数为100及以上各毒株能成功聚类。H1、H3、H5、H7和H9亚型主要毒株分别归为一类,其中H3N2和H7N9毒株HA基因聚类图谱高度相似,表明这些毒株起源相同;不同年代H5N1毒株差异较大;H1N1和H9N2各1个毒株聚为一类,表明这两种病毒自然重组变异,为高危毒株筛查和溯源提供参考。

关键词:禽流感病毒;BLSOM;HA基因;神经网络;分型

禽流感除造成养禽业重大经济损失外,据OIE统计H5N1禽流感已经出现668例人类感染,死亡率达到58.83%。目前新发H7N9禽流感继续流行,并出现新的人类病例,使得禽流感防制工作雪上加霜。这归根结底是动物源性流感病毒传播最终适应人类,给公共健康带来极大威胁[1]。在禽流感病毒监测上,随着高通量测序技术的显著进步,基因库数据急剧增长,使得经典的进化树分析出现困难,需要进行技术革新。珠江三角洲位于国际候鸟迁徙路线,气候温和湿润,是世界禽流感爆发流行的中心区域。目前,广东省各种禽类养殖人员较多,农贸市场活禽宰杀交易方式仍然存在。调查显示,广州、江门、肇庆等地活禽农贸市场禽流感感染逐年加重,成为重要的病毒储存库[2-4],检测阳性率达到32.73%,其中用于宰杀的案板甚至高达75%[5]。监测发现以H9亚型为主,H5、H7等亚型也存在,与疫苗毒株比较存在较大变异[6]。同时,广大居民接触活禽普遍存在,人类感染后病情危重[7-8],甚至死亡。因此,深入开展禽流感病毒分型方法研究具有重要意义。

1 材料与方法

1.1 数据来源

用于本研究的全部毒株来自广东省境内,提供HA基因全部序列。其中,甲型H1N1流感病毒为华南农业大学从猪体内分离毒株及医学单位分离的人类毒株;H3N2毒株为广东省疾病预防控制中心(CDC)分离的患者病毒样品;H5N1病毒为哈兽研和华南农大分离的禽类毒株,含国家流感中心分离的人类感染病毒;H7N9为最近流行毒株,均由广东省CDC提供,3株分离自人体,两株由鸡场分离;H9N2均分离自鸡体,由哈尔滨兽医研究所和华南农业大学完成(表1)。

1.2 研究方法

1.2.1 BLSOM算法 建立BLSOM(Batch-learning self-organizing map)人工神经网络,接受外界输入产生不同响应区域,模拟人脑思维的自组织学习过程[9]。其欧式距离计算公式为:

表1 禽流感病毒广东流行毒株BLSOM特征基因片段统计

1.2.2 数据归一化处理 统计各个毒株HA基因特征片段[10]数量,归一化处理公式如下:

1.2.3 MATLAB实现 参照文献[11]编写程序,运行软件MATLAB(2014年版),其部分程序代码(表1)为:

fx>>

%% 清空环境变量

clc

clear

%% 录入输入数据

% 载入数据

load('c:data.mat');

P=data;

……

利用函数newsom建立SOM网络,竞争层为6 ×6=36个神经元。利用函数train和sim进行训练仿真,plotsom函数绘制变量关系图,vec2ind函数转换数据。

2 结果与分析

2.1 微生物BLSOM分型研究

图1 禽流感病毒广东株HA基因BLSOM算法流程

图2 禽流感病毒部分广东流行毒株BLSOM临近神经元间距离

目前,微生物基因组信息大量增加,需要新的技术手段进行全面分析。常用的微生物基因组GC值分析方法简单,不适宜处理大量的基因组信息,结果不能反映微生物基因变异的本质特征。非序列比对的自组织映射(SOM)及其改进的BLSOM方法是密码子研究的革命性进步,一次可分析百万以上的序列,可对长达1 kb的基因片段分类和变异方向预测。BLSOM利用先进的电脑软件可视化分类工具,可揭示自然选择带来的病毒宿主依赖性和密码子偏好,在几百万个微生物基因数据中找出高危种类,用于高危毒株监测(图1、图2),对生物医学和预防兽医学具有重要意义。新版MATLAB软件工具箱提供神经网络函数,可模拟人脑完成BLSOM竞争学习和训练、模式识别、分类和鉴定等功能,在工程、经融、农业、环保、教育、公安及各种科学研究中广泛应用[11-12]。本研究用于禽流感病毒研究取得初步成功,值得深入探讨。

2.2 禽流感分型标准及BLSOM分型

据统计,目前基因库禽流感病毒核酸序列已多达73万个,其中H1N1、H3N2、H5N1和H9N2分别为11.0万、8.3万、2.7万、1.4万个,常规的进化树等分析方法难窥全豹[13]。BLSOM方法可同时处理100万以上基因序列,且分析结果与进化树一致。在基因水平和寡核苷酸(2~4个碱基)片段构成上,禽流感均显示出明显的宿主依赖性,即按宿主进行自组织分类特性,这是BLSOM分类的生物学基础。由于流感病毒生长要依赖很多宿主因子如核苷酸、氨基酸、tRNA等成分,同时要逃避宿主的抗病毒机制如抗体、细胞毒性T细胞、干扰素、RNA干扰等作用,因此形成基因结构的独特宿主依赖性。但是,单核苷酸BLSOM往往不能得出宿主依赖性的结论,四核苷酸(Tetra)BLSOM按宿主分型效果良好。研究结果(表2、图3、表3)表明,除HA基因外,全部8个基因片段都可以用于分析,在BLSOM分析中形成宿主以来的区域和颜色,方便进行可视化分析。

表2 禽流感病毒部分广东流行毒株BLSOM训练步数及聚类结果

2.3 BLSOM软件工具、参数和短核苷酸片段选择

禽流感病毒基因密码子自然选择在全部8个片段都存在压力,均可用于BLSOM分析获得基因特征和宿主偏好信息。Tetra-BLSOM可按区域和色彩清楚划分人猪禽流感病毒,由于变异而位于两个区域边界的毒株作为高危毒株就可以识别出来。本研究的聚类图谱(图3)可清晰看出H3N2和H7N9各毒株一致的结构,H9N2、H5N1和H1N1存在毒株变异。本研究选择6种寡核苷酸片段(其中4个为四核苷酸)用于BLSOM效果良好,可识别主要禽流感流行毒株。当训练步数达到100级以上时产生有效聚类效果(表2),这时位于右上角的神经元距离较远(图2),测试样品均匀分布(图4)。能同时处理大数据序列的方法和软件有待进一步研究。

图3 禽流感病毒部分广东流行毒株BLSOM聚类图谱

图4 禽流感病毒广东株HA基因测试样本的BLSOM图谱

3 结语

BLSOM对宿主依赖寡核苷酸进行分析,在海量基因数据内找出序列变异方向,监测动物和人类高危毒株,是病毒分子进化研究的重要议题[9],具有重要的社会经济意义。利用不同年代的序列数据分析毒株来源,找出特定时间的关键变异,掌握病毒进化史,即在不同流行时期的特点,研究其变异方向和防控方法。在本研究中H5N1毒株年代变异较大,BLSOM图谱显著不同。将BLSOM作为病毒预警和溯源工具,做到全自动大规模研究尚待深入进行。

参考文献:

[1] 宋建德,朱迪国,袁丽萍,等. 2013年全球禽流感流行状况[J]. 中国动物检疫,2014,31(6):6-9.

[2] 陆巧芬,曹建伟,冯秀红,等. 广东江门地区2011-2013年活禽交易市场禽流感病原学监测数据分析[J]. 广东畜牧兽医科技,2014,39(4):18-19.

[3] 鲁恩洁,陈艺韵,刘静雯,等. 2013年广州市禽流感职业暴露人群及市场环境禽流感病毒H7N9监测分析[J]. 医学动物防制,2014,30(9):980-984.

[4] 陆剑云,鲁恩洁,李魁彪,等. 2011—2012 年广州市禽类经营环境职业人群禽流感监测分析[J]. 医学动物防制,2013,29(6):591-593.

[5] 朱碧柳,黄国华,麦炜,等. 2011—2012年肇庆市禽流感职业暴露人群及外环境病毒分布监测分析[J].热带医学杂志,2014,14(1):115-117.

[6] 李广伟,严专强,廖昌韬,等. 两广地区2011—2012 年H9N2亚型禽流感病毒的HA基因进化分析[J].中国兽医学报,2014,34(3):461-464.

[7] 陈兵,马智超,饶东平,等. 深圳市例人感染H7N9禽流感的流行病学调查[J]. 医学理论与实践,2014,27(21):2924-2925.

[8] 孔东锋,秦彦珉,梅树江,等. 深圳市2例人感染高致病性禽流感病例流行病学分析[J]. 医学动物防制,2013,29(12):1390-1392.

[9] Iwasaki Y,Abe T,Wada K,et al. Prediction of directional changes of Influenza A virus genome sequences with emphasis on pandemic H1N1/09 as a model case[J]. DNA Research,2011,18:125-136.

[10] Iwasaki Y,Abe T,Wada Y,et al. Novel bioinformatics strategies for prediction of directional sequence changes in influenza virus genomes and for surveillance of potentially hazardous strains[J]. BMC Infectious Diseases,2013,13:386.

[11] 王小川,史峰,郁磊,等. MATLAB神经网络43个案例分析[M]. 北京:北京航空航天大学出版社,2013.

[12] 张学儒,张镱锂,刘林山,等. 基于SOFM神经网络模型的土地类型分区尝试-以青藏高原东部样带为例[J]. 地理研究,2013,32(5):839-847.

[13] 宋乔乔,柴志欣,钟金城,等. 禽流感病毒基因的密码子偏好性及聚类分析[J]. 生物技术,2014,24 (2):48-53.

(责任编辑 邹移光)

Development of neural networks for batch-learning selforganizing map(BLSOM)clustering of hemagglutinin genes of avian influenza viruses isolated from Guangdong province

TIAN Chun-jian,LUO Qiong,GAO Jia-hui,LIN Zhi-xiong,YU Hai-qiong,LIU Zhi-ling,CHEN Ru,WU Xiao-wei
(Guangdong Inspection and Quarantine Technology Center/Guangdong Provincial Key Laboratory of Animal and Plant and Food Import And Export Technology/AQSIQ State Key Laboratory of Avian Influenza,Guangzhou 510623,China)

Abstract:A neural network classification method,a batch-learning self-organizing map(BLSOM),was established using 25 tri- and tetranucleotide in the hemagglutinin gene sequences of 25 avian influenza viruses isolated from Guangdong province. Statistics and normalization of the fragment numbers were done and MATLAB function was used to simulate the human brain thinking for self-organizing learning. When the training step was 100 and above,the strains could be successfully clustered. H1,H3, H5, H7 and H9 subtype strains were mainly classified as a class, in which the HA gene cluster profiles of H3N2 and H7N9 strains had highly similar,suggesting that these isolates origin ated from the same era;different generations of H5N1,H1N1 and H9N2 strains were quite different; each one strain of two types was clustered into one group,suggesting that the two virus had recombinant variants, to provide reference for screening high-risk strains and traceability.

Key words:avian influenza virus;batch-learning self-organizing map;hemagglutinin gene;neural networks;classification

中图分类号:S852.65+9.3;S858.3

文献标识码:A

文章编号:1004-874X(2016)02-0156-05

收稿日期:2015-08-23

基金项目:国家出入境检验检疫科研项目(2015IK054);科技部国家重大科学仪器设备开发专项(2012YQ09019705)

作者简介:田纯见(1965-),男,博士,高级兽医师,E-mail:gzvettian@163.com

猜你喜欢

分型神经网络
失眠可调养,食补需分型
神经网络抑制无线通信干扰探究
便秘有多种 治疗须分型
成人型髋关节发育不良的分型与治疗
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于分型线驱动的分型面设计研究
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源
基于GA-BP神经网络的光伏阵列MPPT研究