大数据在公共卫生中的应用
2020-12-20欧阳湖王俊丽通信作者
欧阳湖 王俊丽(通信作者)
贵州医科大学公共卫生学院/环境污染与疾病监控教育部重点实验室(贵州,贵阳,550025)
任建国 贵州医科大学生物与工程学院(贵州,贵阳,550025)
大数据(big data)是一个术语,一个数据集,其特点是数据容量大、来源广、结构复杂多样,除了基因组学和其他组学领域,大数据还包括医学、环境、金融、地理和社交媒体信息[1],对这些数据进行研究可以揭示被隐藏的信息。 如高艳艳[2]将大数据应用于中小学生个性化学习诊断模型分析; 龚伟志等[3]利用大数据对恐怖袭击风险进行预测;陈明[4]基于大数据分析影响景区消费行为的因素,以及其他学者通过电子病历大数据预测疾病模型等[5]。 数字流行病学是随着信息技术的出现而出现的电子数据[6-8],它借鉴了互联网接入的广泛可用性、移动设备的爆炸式增长和在线共享平台等发展,不断生成大量包含健康相关信息的数据。 目前与公共卫生相关的信息更多的是由人们通过使用在线服务直接生成,而不是与卫生保健系统打交道[9]。通过利用实时数据,大数据有望用于疾病的预测和监测。 目前已有文献报道了通过大数据预测和及时监测的例子,如 谷 歌流感 趋势[10];Song 等[11]利 用大 数据 分析中东呼吸综合征(MERS)信息扩散背后的因素和感知到的感染风险;Liu 等[12]通过互联网监测,确定西非埃博拉病毒暴发可能造成的影响因素与中国公众关注之间的相关性;Xu 等[13]将社交媒体数据通过MapReduce 和Spark-Based 分析框架对早期流感暴发进行监测。
由于互联网和移动技术所产生的数据量是空前的,我国移动电话和互联网越来越普及,健康应用程序也越来越多,而公共卫生大数据的有效利用与否,决定了公共卫生相关从业人员在从事各种工作活动时,能否充分了解和解决社会健康问题。 因此,本文对大数据在公共卫生中的应用进行综述,以期为今后大数据在公共卫生领域的应用提供参考。
1 大数据在传染病监测中的应用
传染性疾病和重大疫情严重危害着社会公众的生命安全和社会秩序,随着全球化的加强,传染病的迅速传播和新出现的公共卫生事件也在增加。因此,持续监测和早期发现对预防或减轻传染病的传播以及为各部门提供充分的时间准备和作出反应更为重要。Hay 等[14]讨论了利用大数据进行全球传染病监测的机会,他们开发了一个在地图上提供实时风险监测的系统,并认为结合流行病学信息的在线社交媒体是促进公共卫生监测的一个有价值的新数据源;Young 等[15]使用社交媒体数据进行疾病监测,他们收集了553 186 016 条推文,提取了超过9 800 条与HIV 风险相关的关键词(如性行为和药物使用)和地理信息注释,分析发现与HIV 相关的推文和HIV 病例之间存在显著的正相关 (P<0.01),说明了社交媒体数据的重要性以及它对监测全球疾病发生的潜在影响;Kollef 等[16]将2002 年1月1 日至2003 年12 月31 日期间4 543 名培养阳性肺炎患者在美国59 家医院住院并与记录在美国急症护理医院数据库中的数据进行分析,结果表明大约一半的住院肺炎患者有社区获得性肺炎,而大于20%的患者有卫生保健相关肺炎,金黄色葡萄球菌是所有肺炎类型的主要病原体,非社区获得性肺炎组的发生率明显高于社区获得性肺炎组;与卫生保健相关肺炎相关的死亡率(19.8%)和医院获得性肺炎的死亡率(18.8%)无显著差异(P>0.05),但均显著高于社区获得性肺炎 (10%,P<0.0001),低于呼吸机相关肺炎(29.3%,P<0.0001)。互联网搜索在疫情检测[17]和移动健康应用中的作用越来越明显,包括追踪手机短信[18],已经成为公共卫生组织的基本工具。因此各级卫生部门可以建立卫生信息管理平台,形成卫生管理网络体系,通过为公众提供准确有效的健康服务, 提高他们的健康危险意识和卫生防范意识[19],并收集其健康信息形成健康信息数据库,利用大数据技术对公共卫生数据进行实时的监测,全面预测疾病的发生发展,这不仅可以大大降低人力、物力、财力,还可以通过监测进行预警和处理,降低传染病的感染率。
2 大数据在慢性病中的应用
根据一份报告[20]:50%的美国人患有一种或多种慢性病,80%的美国医疗费用用于慢性病治疗。随着生活水平的提高, 慢性病的发病率也在增加,美国每年在慢性病治疗上平均花费2.7 万亿美元,这一数额占美国全年国内生产总值的18%。 慢性病的医疗保健问题在许多其他国家也很重要。 在中国,根据2015 年中国营养与慢性病报告, 慢性病是死亡的主要原因,有86.6%是由慢性病引起的。 因此,对慢性病进行风险评估至关重要。 预防疾病首先是确定可改变的疾病危险因素(如饮食、运动、吸烟、饮酒和环境污染), 进而改善这些危险因素和提供改善健康的干预措施。 公共卫生是一门专门从事疾病预防的学科。 传统的公共卫生数据量大、种类多,但因某些因素导致数据缺乏,如缺乏与地理相关的数据,且由于长时间的数据收集和传播周期而造成时间滞后,所以与公共卫生有关的许多方面的研究被认为是缺乏的。 如在大型的队列研究中,参与者的积极性往往不是很高, 收集数据的成本又高,因此很难进行长期随访[21-22]。 而大数据可以在研究和干预活动中发挥关键作用,提高疾病预防和人群健康方面的管理。 随着医疗数据[13]的增长,收集电子健康记录变得越来越方便。 通过分析大数据可以对一些慢性疾病负担的可改变危险因素采取行动,如体育活动、饮食、烟草使用和污染暴露,可在人群、亚人群和个体水平上发现疾病的危险因素,并通过提高干预措施的有效性来帮助人们在更健康的环境中实现更健康的行为。 目前,已有将大数据用于慢性病的监测,如Páez 等[23]通过大数据和物联网监测慢性病患者以便进行早期诊断。
3 大数据在食源性疾病中的应用
全球粮食供应,从农场到餐桌,比以往任何时候都更加复杂。 食品供应日益丰富,加工程度低和高度加工的食品随处可见,食品的运输距离越来越远,可以在世界各地消费[24]。 与此同时,消费模式(如即食食品市场)和易感人群(如老年人和免疫力低下者) 等因素的增加也增加了食源性疾病传播的风险。 现代分子生物学技术(例如DNA 测序)的使用使疫情追溯到源头的速度比以往任何时候都要快。 在过去几十年里,发达国家的食品消费者已经意识到食品中存在食源性病原体的可能性,因此在食品供应的安全性方面出现了令人担忧的问题[25]。
食源性疾病一直是人们关注的健康问题,在发展中国家,导致死亡的腹泻病的病原体和来源(例如水或食物)大多是未知的;在发达国家,如美国,据估计有940 万死于食源性腹泻相关疾病已被归因于主要食源性病原体(如沙门氏菌、单核细胞增多性李斯特氏菌)[26]。 过去,许多食源性疾病的暴发已经突出了食源性疾病的风险,这影响了食品行业的技术研发和应用[27]。 在监管和监测方面,PulseNet 全球数据库的使用和分子生物学在亚型病原体上的应用极大地提高了追踪暴发源头的能力[28]。 而大数据时代的来临也使得其在食源性疾病方面得到了应用。 如Park 等[29]对2011 年1 月1 日至2014 年12 月31 日期间的天气变化和医疗大数据进行分析,给出了天气因素对食物中毒发生的影响,利用R语言进行Logistic 回归和Lasso Logistic 回归分析,结果表明细菌性食物中毒的发生率受平均温度、 日照偏差、温度偏差的影响,影响病毒性食物中毒发生的天气因素有:最低水汽压、日照偏差、温度偏差;该研究证实了气象因素与食物中毒的相关性。 地理信息系统是大数据的其中一部分,它是一种计算机系统,它是研究人员能够管理、存储、提取、组织、操作和可视化的数据。在公共卫生相关领域,地理信息系统已经被用来识别空间和非空间数据之间的模式和趋势。 例如GIS 的应用可以利用建立在整个食品安全链,反映在生产领域食源性病原体污染的风险[30-31]或监测疾病暴发期间的分布和传播情况[32]。 综上所述,将大数据用于整个食品安全链,可监测食源性疾病发生的风险及分析其发生的相关危险因素。
4 大数据在卫生保健中的应用
卫生保健是目前最受关注的问题之一。 目前生活在城市和城镇的人虽然能够获得较好的卫生服务,但是生活在偏远地区的人,还是面临着医疗设施不足和医疗卫生服务匮乏的问题。 包括研究人员、 政策制定者和从业人员在内的许多专家认识到, 目前公共卫生保健服务的效率低下和不公平。世界卫生组织数据存储库[33]提供的统计数据发现,2011 年印度的人均卫生保健政府支出为44 美元,而美国为4047 美元;结果是美国人预期寿命增加,具有完善的医疗保健系统,临床工作人员工作效率高效, 拥有24h 的紧急服务和世界一流的医生,因此,可通过应用大数据分析来改变和解决现有的卫生保健服务结构中存在的问题。 目前,随着医院和保健中心的增加, 卫生保健制度似乎有所改善,随着大数据在医疗领域的不断应用,数字医疗解决方案已经改变了医疗系统,使其变得比以前更高效便捷。 目前已有学者注意到了卫生保健系统对大数据的需求[34]。 而物联网医疗网络或医疗保健物联网网络是医疗保健物联网的重要组成部分之一,它支持接入物联网主干, 可促进医疗数据的传输和接收,并支持使用医疗保健专用通信,基于物联网医疗网络的医疗保健系统可以应用于各种不同的领域,包括儿科和老年患者的护理、慢性病的监测、个人健康的管理等[35]。 如Dabek 和Caban[36]针对89 840 名患者的数据集分析神经网络模型的有效性,结果表明总体准确率可以达到82.35%,可以预测出现心理状况的可能性,如焦虑、行为障碍、抑郁和创伤后应激障碍;Nambisan 等[37]发现,发布在社交媒体上 的信息可以用来筛查和检测抑郁。 因此,将大数据用于卫生保健中不仅可以使得卫生保健系统得以更加完善,还能使医疗资源得到高效的利用,减少医疗资源的浪费,节约医疗资源。
5 展望
把大数据应用于医药卫生行业是十分有必要的。公共卫生是居民健康的重要基础和保障,将采集到的各种数据资源连同其他相关数据形成公共卫生大数据,发挥好这些数据的应用,不仅可以带来巨大的经济价值和社会效益,而且在传染病的预测、食源性疾病的危险因素分析、 慢性病的管理和诊断以及公众的卫生保健等方面也可以带来巨大的效益,如改善人们的认知功能、心理健康和生活方式等。