大数据在动物疫病防控中的应用与展望
2018-01-20康京丽徐全刚孙向东
高 璐,康京丽,徐全刚,刘 平,曾 恒,李 娟,孙向东
(1.中国动物卫生与流行病学中心,山东青岛 266032;2.山西大学,山西太原 030006)
随着动物疫病防控工作不断深入,数据资源更加丰富。从监测对象来看,包括动物疫病数据和对动物造成健康危害的风险因素数据。从数据产生方式来看,包括流行病学调查流调信息,实验室获取的生物学信息,动物疫病的有关社会舆论信息等。从信息形式上看,包括便于处理的结构化数据和目前难以开发利用的非结构化信息,如视频、音频和图片等。这些信息具备典型的大数据特征,即体量大、数据类型繁多、产生速度快和价值密度低。
随着计算机和网络技术的快速发展,各领域的数据呈现爆炸性增长,单纯依靠传统的数据分析方法,已经无法应对大量数据的分析要求[1-2]。大数据的开发对于深入认识疫病风险因素、加强疫病监测和提高预测预警能力,以及促进动物健康具有重要作用[3]。利用大数据,最重要的就是挖掘数据,将传统动物疫病数据分析方法与处理大量数据的复杂算法相结合。本文对国内外大数据开发技术在兽医领域的应用情况进行了综述,以期为进一步探索大数据在我国动物疫病防控中的应用与开发提供思路。
1 动物疫病防控大数据挖掘技术框架
动物疫病防控数据库是数据挖掘的基础,基于数据库的分析挖掘流程包括3个步骤,即数据采集、数据集成存储和数据分析应用[4]。
1.1 数据采集
动物疫病相关数据,包括传染病监测数据(了解疫病流行情况和病毒变异情况)、宠物就诊电子病历数据、医学检验数据、医学影像数据和通过现场调查获取的健康风险因素数据等,大部分来自各级动物疫病预防控制中心、动物卫生监督所、诊断实验室和宠物医院等。另外与动物疫病防控相关的数据还涉及自然环境数据、地理信息数据和文献等。该类数据一般借助自然环境、地理信息研究相关科研院所或大型网络数据库获取。动物疫病相关的舆情信息往往借助网络爬虫获取。网络爬虫是当前获取泛网络信息的主流搜索技术,是按照一定规则,自动抓取万维网信息的程序或者脚本,有广度优先和深度优先两种策略[2]。借助面向动物疫病的智能聚焦网络爬虫算法,有选择地搜索网络,定向抓取与动物疫病时空信息相关的网页资源,可为动物疫病防控提供切实可用的信息。
1.2 数据集成存储
数据集成是将多个数据源中的数据结合起来,存放到一致的数据存储(如数据仓库)中的过程[4]。通过清洗、集成、转换和消减等预处理技术,可以提高数据质量。数据集成是将多模式的数据源组合在一起,为下一步数据挖掘分析做准备。在后续挖掘分析中,需要确定挖掘任务,制定挖掘计划,提取数据库中的相关数据子集,并将数据变换成适合挖掘的形式[5]。
1.3 数据挖掘分析
数据挖掘的目的是从数据中提取有用、信息,面向用户提供目标导向知识或分析服务[6]。大数据属于全样本和非实验观察数据,与传统抽样统计方式有所不同,大数据可能不满足正态性、独立性和方差齐性的模型分析前提条件,存在高噪声现象,因此大数据挖掘是对统计分析方法的延伸和扩展,其分析产生的结果可能比“统计显著”更接近真实意义的“显著”[7]。大数据分析技术没有固定的算法和模型,必须结合具体业务和需求,有针对性地研发适合业务本身的算法和模型。常见的大数据挖掘方法主要有神经网络分析、关联分析、决策树、最近邻分类器、贝叶斯分类器、随机森林、传统的统计分析方法和可视化分析等[8-10]。数据可视化分析以图形、图像和虚拟现实,等方式展现原始数据间的复杂关系、潜在信息及发展趋势,从而使数据呈现方式直观有效,包括报表、图形、地图等,可帮助动物疫病防控工作者更好地利用掌握的资源信息,如动物调运路线、疫病分布范围、时空变化趋势和聚集性等,为病因探索提供帮助,也可更通俗易懂地为公众展现分析结果[11]。机器学习方法是近几年人工智能领域的热门课题,是让计算机模拟人类的学习过程。机器通过学习获得智能分析能力,可以搜集舆情信息、计算模型参数,甚至是进行疫病诊断。以机器学习为代表的人工智能方法可为大数据挖掘提供有力支持[10-13]。
2 大数据在动物疫病防控中的应用
2.1 提供动物疫病暴发预警
大数据本身是一种潜在的战略性资源,具有小规模数据无法匹及的趋势预测潜力。只有大数据的分析和应用,才能将这些资源的效益真正释放出来[14-16]。基于大数据构建的预警功能能够全面调查和评估动物疫病流行病学信息,为及时发现新发病及其症状,尽早防控疫病提供便利。目前,根据传染病的发生和发展规律,利用各种模型或算法对传染病的发生和发展作出预测,进而对传染病的流行趋势及影响范围进行预警,是疫病预防控制中的一项重要工作[6]。美国区域性流感大暴发,当地疾控中心根据哨点监测数形成的分析报告存在1~2周的滞后期,而谷歌公司运用搜索词条和统计建模相结合的方法,在流感暴发1 d后就形成了疫情报告,具有显著的时间优势。与此同时,谷歌的监测和预测分析还曾成功预测了H1N1事件和几内亚等地的埃博拉流行情况。基于网络的监测系统可以更快地锁定流行区域的发病热点,预测结果具有更好的时效性[17-18]。
知晓疫情后,大数据分析可以及时帮助政府作出决策,提供更好的防控措施与政策。例如,Vanina等[19]筛选出与伴侣动物祛蜱相关的热度最高的网络搜索词,并据此为当地政府制定了更有针对性的蜱虫病防控策略。“祛除蜱虫”这个词条关联性最高,因此在宣传干预防控政策中,指导宠物饲养人群如何有效祛除蜱虫和更有针对性地分配发放驱虫工具就被列为干预重点。
2.2 辅助监测与疫病应急处置
大数据挖掘出的有效信息可以应用于监测工作[20]。美国现行宠物疫病症状实时监测系统涵盖了当地700多家宠物医院,其系统数据挖掘功能可以及时发现动物疫病异常事件的时空分布,结合暴露信息数据,还可以进行后续疫病病因学研究[15]。针对重大疫病应急防控信息化管理需要,白维生等[21]创建了基于地理信息系统(GIS)的北京市动物疫病应急指挥平台,解决了疫源分析、划定疫点、疫区、受威胁区、路口封锁、疫情监测、无害化处理及解除封锁等一系列应急处置中的关键问题,实现了北京市重大动物疫病信息化和一体化的应急指挥。
二手数据挖掘在疾病监测中也发挥着重要作用。中国动物卫生与流行病学中心构建了动物疫病防控舆情平台,利用网络爬虫,对定点网站、论坛和博客中涉及的大众对动物疫病,特别是热点病种的舆论信息,进行动态监测和定向采集,每月出一期舆情简报,客观汇总当月大众对热点疫病的态度[22]。BioCaster[23]也根据网络语言信息建立了挖掘传染病暴发情况,追踪传染病分布情况的系统,包括话题分类、实体识别命名、疾病和位置挖掘和疾病事件识别。2014年,该系统通过新闻报道甄别出了几内亚的异常发热情况,比官方发布的西非埃博拉疫情早了9 d。加拿大全球公共卫生情报网络(GPHIN)最早监测到了广东的SARS疫情,比WHO公布的SARS疫情早了两个月[24]。可见,大数据监测和挖掘对传统监测方法起到了补充和辅助作用[25],且时效性更强。
兽药是预防、治疗和诊断动物疫病的特殊商品,为做好安全监管,我国建立了兽药产品监测系统,首次实现了兽药产品流向可追溯和来源可查询,提高了监管效率,遏制了造假售假行为,保障了动物安全[26]。利物浦大学搭建了小动物兽医监测网(SAVSNET),其功能之一就是监测猫和狗的抗生素应用情况及其耐药性[27-29]。
2.3 辅助临床医生作出科学决策
将动物疫病防控领域的研究成果和数据信息整合成数据库,可以为探究更多的疫病风险因素及其关联提供基础数据,弥补知识缺陷,提供更全面的动物健康保护措施。诊断方案和接种建议等临床决策和研究重点可以从资源整合系统中找到证据支持[30-31]。由于当前收集的高质量数据有限,一些兽医临床诊断结论都是基于案例研究、个人经验、人类医学和同行建议制定的,存在一定程度的不确定性和主观性。大数据挖掘技术促进了兽医循证医学的发展,帮助临床医生作出有科学依据的决策。英国皇家兽医学院开发的VetCompass平台,能够提供伴侣动物的外科学、病原学、微生物学、病毒学和寄生虫学等多方面证据,帮助临床医生做出更科学的疫病诊断、治疗和防控决策[32]。未来通过VetCompass这类资源整合系统,结合数据智能分析,可以形成动物疫病防控的个性化定制服务,实现用户通过网络平台实时为畜禽寻医问诊[33]。现在部分大型养殖场正在探索视频图像分析技术,利用人工智能系统,监测畜禽的体温、咳嗽、体重、进食情况和运动强度,一旦出现异常,就在第一时间做出疫情预警,以达到控制疫病的目的[34]。
3 大数据时代动物疫病防控面临的挑战及展望
3.1 对数据获取平台和技术提出更高要求
在大数据时代,想要获取更多有效信息,帮助临床决策、防控决策和科研工作,对数据获取平台和技术就有更高要求。数据获取平台应该有广泛的覆盖范围,如英国的VetCompass系统涵盖了全国498个兽医诊所,超过600万只伴侣动物,近4 000万条诊疗信息,形成了完善的上报系统。该项目分为3个阶段:一是通过VetCompass平台获取兽医临床数据;二是研究人员挖掘数据信息;三是创建世界最大规模的实时监测接口[35]。当前澳大利亚也引入了这一系统,并已经处于第二阶段应用。我国动物疫病和检疫等信息上报系统的数据存在一定问题,尚不能提供准确及时的疫病预警,在进行数挖掘的时候会严重影响分析结果。因此,构建覆盖面广、数据质量高和兼容性强的数据库是数据挖掘的基础之一。
3.2 规范选取关键词
开展网络信息监测,直接关系到数据的可用性,甚至影响到数据分析和防控方案制定,因此选取搜索词需要更加严谨。近年来,研究热点聚焦于探索监测的新方法,运用对网络数据流的分析,预测疾病高发时段。当前研究表明,基于网络数据的监测系统在人群传染病监测中起到了很大的作用,但在兽医领域应用较少。Guernier[36]在动物疫病应用上作出了尝试,根据高频搜索词条成功制定了有效防控政策。谷歌公司在搜索词的选取上主要依据线性模型的拟合和验证,对搜索词进行过滤,保证了流感模型预测的准确性[17]。
3.3 结构化数据有待规范
当前监测和调研体系产生的结构化数据存在一些问题,如格式不统一、质量参差不齐、输入汇总繁琐、数据对比与获取困难等。建议制定行业规范,建立日常的实验室检测、诊断和现场调查等一手数据采集和上报的数据标准规范。例如,进行重大动物疫病防控信息报送工作,开发标准化的临床观察数据现场记录系统,提高数据兼容性。辽宁省制定了《辽宁省畜牧兽医部门统计管理办法》和《辽宁省畜牧兽医信息工作量化考核暂行办法》等管理办法,加大对系统数据源头采集者,包括村兽医和乡镇动物防疫监督所的监管人员,通过建立严格的数据收集和录入制度,明确责任,确保数据录入及时、准确[37]。
3.4 构建大型智能模型系统
解决非结构化数据的挖掘利用,应该依靠构建大型智能模型系统,从处理结构化数据向处理繁多的非结构化数据拓展,开发能够识别和处理非结构化数据的方法[1]。
3.5 完善数据的存储和安全
大数据时代,如何做好数据存储和安全工作,合理利用数据,注重研究对象隐私保护,是一项新的挑战。谷歌公司注重对研究对象隐私的保护,所有患病数据均无法与确切的个人信息关联(包括ID、IP和具体地址)。依据谷歌隐私保护政策,所有超过9个月的原始网站搜索日志均会被隐去隐私信息[17],这种保护研究对象隐私的做法值得借鉴。
参考文献:
[1] 许世卫. 农业大数据与农产品监测预警[J]. 中国农业科技导报,2014,16(5):14-20.
[2] 王文生,郭雷风. 农业大数据及其应用展望[J]. 江苏农业科学,2015,43(9):43-46.
[3] KHOURY M J,IOANNIDIS J P A. Big data meets public health[J]. New zealand medical journal,2014,93(676):1054-1055.
[4] 肖辉,周征奇,肖革新,等. 公共卫生领域中的数据挖掘[J]. 医学信息学杂志,2013,34(12):1-5.
[5] 石晓敬. 数据挖掘及其在医学信息中的应用[J]. 医学信息学杂志,2013,34(5):2-6.
[6] 屈晓晖,袁武,袁文,等. 时空大数据分析技术在传染病预测预警中的应用[J]. 中国数字医学,2015,(8):36-39.
[7] 简祯富,许嘉裕. 大数据分析与数据挖掘[M]. 北京:清华大学出版社,2016.
[8] 高昭昇,曹晋军,冯柳,等. 基于大数据的传染病爆发、预测和预警等应用分析[J]. 中国卫生事业管理,2016,33(4):270-272.
[9] 于长春,贺佳,范思昌,等. 数据挖掘技术在医学领域中的应用[J]. 第二军医大学学报,2003,24(11):1250-1252.
[10] 史倩楠,马家奇. 公共卫生大数据分析方法与应用方向[J]. 中国数字医学,2016,11(2):10-12.
[11] 张会会,马敬东,邸金平. 商业智能在医疗卫生领域的应用[J]. 中国卫生信息管理杂志,2014(3):255-9.
[12] 佚名. 科学家利用“机器学习”人工智能实现传染病早期预警[J]. 技术与市场,2015(10):3.
[13] 邹北骥. 大数据分析及其在医疗领域中的应用[J]. 计算机教育,2014(7):24-29.
[14] 宁康,陈挺. 生物医学大数据的现状与展望[J]. 科学通报,2015(5):534-546.
[15] KASS P H,WENG H Y,GAONA M A L,et al.Syndromic surveillance in companion animals utilizing electronic medical records data:development and proof of concept[J]. Peerj,2016,4(Suppl):e1940.
[16] PFEIFFER D U,STEVENS K B. Spatial and temporal epidemiological analysis in the big data era[J]. Preventive veterinary medicine,2015,122(1/2):213-220.
[17] GINSBERG J,MOHEBBI M H,PATEL R S,et al.Detecting in fl uenza epidemics using search engine query data[J]. Nature,2009,457(7232):1012.
[18] MILINOVICH G J,MAGALH ES R J,HU W. Role of big data in the early detection of Ebola and other emerging infectious diseases[J]. Lancet global health,2015,3(1):e20.
[19] VANINA G,MILINOVICH G J,ANTONIO B S M,et al. Use of big data in the surveillance of veterinary diseases:early detection of tick paralysis in companion animals[J]. Parasites&vectors,2016,9(1):1-10.
[20] KLOMPAS M,MURPHY M,LANKIEWICZ J,et al. Harnessing electronic health records for public health surveillance[J]. Online Journal of public health informatics,2011,3(3):1.
[21] 白维生,张瑞侠,史明昌,等. 基于GIS的北京市动物疫病应急指挥平台设计与应用[J]. 农业工程学报,2011,27(5):195-201.
[22] 徐全刚,李金花,柳宜江,等. 动物疫情信息分析系统本体的构建[J]. 中国动物检疫,2018,35(1):13-16.
[23] COLLIER N,DOAN S,KAWAZOE A,et al.BioCaster:detecting public health rumors with a webbased text mining system[J]. Bioinformatics,2008,24(24):2940.
[24] MYKHALOVSKIY E,WEIR L. The global public health intelligence network and early warning outbreak detection:a Canadian contribution to global public health[J]. Canadian journal of public health = revue canadienne de santpublique,2006,97(1):42.
[25] MILINOVICH G J,WILLIAMS G M,CLEMENTS A C,et al. Internet-based surveillance systems for monitoring emerging infectious diseases[J]. Lancet infectious diseases,2014,14(2):160-168.
[26] 郝毫刚,高录军,张积慧,等. 基于兽药电子追溯的兽药大数据平台建设研究[J]. 中国兽药杂志,2017,51(3):4-10.
[27] MATEUS A,BRODBELT D C,BARBER N,et al.Antimicrobial usage in dogs and cats in first opinion veterinary practices in the UK[J]. The Journal of small animal practice,2011,52(10):515-521.
[28] RADFORD A D,NOBLE P J,COYNE K P,et al.Antibacterial prescribing patterns in small animal veterinary practice identified via SAVSNET:the small animal veterinary surveillance network[J]. The veterinary record,2011,169(12):310.
[29] BUCKLAND E L,O'NEILL D,SUMMERS J,et al.Characterisation of antimicrobial usage in cats and dogs attending UK primary care companion animal veterinary practices[J]. Veterinary record,2016,179(19):489.
[30] LANYON L. Collecting the evidence for EBVM:who pays?[J]. Veterinary record,2016,178(5):120-121.
[31] ROBINSON N J,DEAN R S,COBB M,et al.Paper:investigating common clinical presentations in first opinion small animal consultations using direct observation[J]. Veterinary record,2015,176(18):463.
[32] MUELLNER P,MUELLNER U,GATES M C,et al. Evidence in practice – a pilot study leveraging companion animal and equine health data from primary care veterinary clinics in New Zealand[J]. Frontiers in veterinary science,2016,3(1):116.
[33] 李仁良. 决策树算法在临床诊断中的应用研究[D]. 阜新:辽宁工程技术大学,2009.
[34] 阿里云. 马云也开始养猪了,两年后达到1000万头!畜牧界开始不淡定了[EB/OL]. (2018-02-09)[2018-03-14]. http://k.sina.com.cn/article_6433157727_17f7232 5f001003nst.html.
[35] MCGREEVY P,THOMSON P,DHAND N K,et al.VetCompass Australia:a national big data collection system for veterinary science[J]. Animals an open access journal from mdpi,2017,7(10):1.
[36] GUERNIER V,MILINOVICH G J,SANTOS M A B,et al. Use of big data in the surveillance of veterinary diseases:early detection of tick paralysis in companion animals[J]. Parasites&vectors,2016,9(1):1-10.
[37] 魏学义,李宁. 辽宁省畜禽分布定位及重大动物疫病防控调度指挥系统建设推进现代畜牧业发展[J]. 现代畜牧兽医,2007(10):1-2.