基于曲线聚类的肺结核流行特征分析
2019-12-06陈穗穗吴玲倩
陈穗穗,吴玲倩,赵 煜
(兰州财经大学 a.统计学院;b.甘肃经济数量分析研究中心,甘肃 兰州 730020)
结核病是一种慢性传染病,其发病规律与流行特征决定了其危害性,结核病是世界上最大的传染病杀手[1]。我国的结核病疫情也相当严峻,首先,我国一直是全球肺结核疫情最为严重的国家之一,其次,我国肺结核的报告发病在甲、乙类传染病中仅次于乙型肝炎,位居第二位。近年来,我国加大了对公共卫生的关注与资金的投入,我国肺结核疫情已经有了较为明显的改善。2016年,我国的肺结核发病率已经下降到61.37/10 万,为历年最低,但由于我国感染肺结核的人口基数大,肺结核的疫情仍不容乐观,需要对我国肺结核的发病特征做进一步的研究。
第一,当前关于肺结核发病情况的研究多数在于肺结核平均发病水平,极少有分析发病的波动特征研究。从肺结核发病率的均值与方差角度进行分析,更有助于发现肺结核发病特征,以便对肺结核发病情况进行精准管理与有效预防;第二,现有研究肺结核的地区分类往往是借助于肺结核的平均发病水平的区域静态分类,而从动态角度进行肺结核发病特征的地区分类,将能够更有针对性、更有效地对肺结核的发病进行管理与预防;第三,现有关于肺结核发病情况的研究多处于中观层面,这样有利于每个地区肺结核的预防与控制,而从全国的宏观层面去研究,更加有利于资源的有效配置,而且还可以加强各地区之间的交流沟通。
笔者站在宏观角度既从均值角度又从方差角度入手,用静态分类与动态分类相结合的方式进行分析,以期全面立体地研究我国的肺结核发病特征。
1 资料来源与方法介绍
1.1 资料来源
本研究所需资料来源于国家人口与健康科学数据共享平台公共卫生科学数据中心(http://www.phsciencedata.cn/)提供的2005-2016年全国32 个地区肺结核发病率数据。
1.2 流行病学特征的描述性分析
流行病学的描述性研究主要是描述疾病和健康状况在时间、空间和人群间的分布特征[2-3]。每一种疾病在不同季节、不同空间以及不同人群间存在或多或少的差异,了解疾病分布的地区差异不仅有助于揭示病因和流行因素,而且能够为各地区疾病的防治工作提供科学依据;了解疾病的人群分布情况,有助于在预防和治疗疾病时能够合理地分配卫生资源;了解疾病季节分布特征,有助于疾病的提前预防与治疗。描述性研究是了解疾病发病特征的最基本的工具,也是研究疾病发病特征的第一步,主要借助一些位置统计量及相关统计图进行分析,常用的位置统计量如平均发病人数、平均发病率等,而分布特征主要借助折线图、直方图、箱线图等来展示。
1.3 曲线聚类分析方法
聚类分析是依据样本数据之间的亲疏程度对样本或变量进行分类,聚类分析能够将具有相似特征的样本聚成一类,实现物以类聚的目的,曲线聚类方法主要是将离散观测数据视作具有内在统计结构的整体函数,然后将具有相似变化趋势的曲线归为一类。函数型数据聚类分析方法大致分为两类:一是原始数据法,该方法直接针对离散样本点进行聚类,属于高维数据分析方法;二是投影方法,即以有限维的基底函数逼近曲线,将无限维的问题转化为有限维问题展开分析。投影法的曲线聚类分曲线拟合和聚类分析分两步展开:首先以有限维基底拟合曲线,然后对估计的参数执行传统聚类算法。利用两阶段随机过程分别完成数据降维和聚类等。基底函数选择B-样条基底函数拟合数据并根据传统聚类方法分析,利用正交基函数进行聚类分析[4]。
基于B-样条函数型数据的曲线聚类主要从工负责个方面进行:第一,由观测离散型数据生成函数型数据(曲线);第二,构造曲线函数之间的“距离”,利用B-样条基底系数及其差分,将曲线函数“距离”转化为传统的欧氏距离;第三,以构造的距离作为亲疏程度度量,将曲线聚类问题转化为多元统计聚类问题进行分析。
1.3.1 函数型数据的生成 确定n组可观测的数据由下面模型生成
则该法称为基底函数法,是将离散观测数据转化为曲线的常用平滑技术。
1.3.2 基底函数表述曲线距离 计算曲线的距离采用的是B-样条逼近的方法,利用B-样条基底函数分析函数型数据曲线的特征。
对于曲线Xi(t)估计可以采用截断的形式,将式(2)的无限维问题转化为有限维的估计,即
在上述设定的情况下式(2)可通过以下截断形式进行估计:
其中
为L×L的实对称矩阵,其中元素为L2空间中的内积。式(6)的距离公式是多元统计中的加权欧氏距离,权重矩阵为L。曲线聚类问题转化为传统多元统计分析中对系数向量的聚类问题。任何基于非加权欧氏距离的传统聚类方法都可以直接应用到曲线聚类分析中。当式(6)的计算结果越小,则两个曲线的发展时间轨迹更加相似。
2 我国肺结核的发病现状与特征分析
2.1 2005-2016年肺结核发病的基本现状
从图1可看出2005-2016年的发病数与发病率曲线总体是呈下降趋势,直到2016年,肺结核的发病人数与发病率均达到历史最低点,全国2005-2016年肺结核年平均发病率为76.02/10 万,2016年全国共报告肺结核患者836 236 例,2016年发病率低于近10年的年平均发病率,2016年肺结核的发病情况与2005年同期相比,发病数下降了33.59%。总体来说,全国肺结核的发病数与发病率从2005年开始,呈逐年下降的趋势,说明我国对于肺结核的预防与治疗取得较好的效果。
图1 全国2005-2016年肺结核发病情况Fig.1 Incidence of pulmonary tuberculosis in 2005-2016 in the country
2.2 肺结核发病率的分布特征分析
2.2.1 年龄分布特征 结果见图2。由图2可知,2005-2016年全国肺结核发病率在年龄分布中呈明显的先低峰后高峰的双峰分布,0 ~14 岁的婴幼儿及儿童是明显的低发病率人群,而60 岁以上的老年人是高发病率人群。肺结核在人群中各年龄阶段的发病率也具有明显差异[5]。可以从3 个不同年龄段的发病群体进行分析。
(1)0 ~14 岁为肺结核低发病率人群,此年龄阶段的人群发病率远远低于其他年龄阶段的人群发病率。
(2)15 ~59 岁为中等肺结核发病率人群,高于0 ~14 岁的人群发病率,低于60 岁以上的人群发病率,处于中等水平,且在此年龄阶段的20 ~24 岁为低峰的最高峰值97.24/10 万。
(3)60 岁以上为高危肺结核发病率人群,此年龄阶段的肺结核人群发病率远远高于所有年龄阶段的发病率,尤其是70 ~74岁年龄段的人群发病率最高已达到223.57/10万,75 ~79年龄段人群的发病率次之。
图2 全国2005-2016年肺结核发病分年龄阶段的12年平均发病率情况Fig.2 Twelve years average incidence of pulmonary tuberculosis in different age in 2005-2016 in the country
2.2.2 地区分布特征 通过整理原始的肺结核发病率数据,得到2005-2016年32 个地区的平均年发病率,利用ArcGIS10.0 软件[6]绘制出肺结核发病率的热力图见图3,海南、广西、贵州、湖南、湖北、重庆、黑龙江、西藏和新疆地区的颜色为红色,说明这些地区的平均年发病率普遍最高,均超过了90/10 万的发病率,西北的新疆肺结核年发病率高达180.42/10 万;宁夏、辽宁、北京、天津、河北、山东、上海、江苏、云南的平均年发病率较低,天津的平均年发病率最低,仅为28.52/10 万,为全国肺结核平均年发病率最低的地区;其余大部分地区的肺结核平均年发病率均处于中间水平,高于60/10 万的发病率水平,低于90/10 万的发病率水平。由于缺少台湾、香港和南沙群岛的数据,所以这些地区在图3中呈现其他的颜色。
图3 全国2005-2016年各地区肺结核平均年发病率热力图Fig.3 Average annual incidence of pulmonary tuberculosis in all regions in 2005-2016 in the country
2.2.3 时间分布特征 结果见图4。从图4中可以看出,我国肺结核发病率具有明显的季节分布特征,每年报告的肺结核发病率会出现两个高峰,每年的1月份与3月份,2月份的肺结核发病率低于1月份与3月份的发病率,3月份到12月份的肺结核发病率一直呈现下降的趋势,直到每年的12月份发病率达到最低,次年的1月份的发病率又急剧上升,开始呈现与上一年相同的发病特征[7-8]。显然,我国肺结核发病率呈现明显的季节性。每年的1月份与3月份的发病率是最高的,12月份的肺结核发病率是最低的。
图4 2005-2016年我国肺结核月发病率的时间序列图Fig.4 2005-2016 time series chart of monthly incidence of pulmonary tuberculosis in China
3 各地区肺结核发病率时间轨迹的相似性分析
3.1 聚类过程及结果
上文的地区分布特征是运用年平均发病率,利用ArcGIS10.0 地理作图工具,初步对全国各地区的肺结核发病率进行分类,分类较为片面,为进一步了解全国各地区肺结核的发病特征,本文又采用了函数型数据聚类的方法进一步分析。采用回归样条的方式拟合了2005-2016年32 个地区肺结核发病率的时间序列数据,拟合结果按照时间排列生成发病率的时间序列曲线族,样条基底函数的阶数定位M= 3 以保证拟合结果的光滑性,采用等距节点的设置方式设置内部节点,选择广义交叉验证(GCV)准则确定节点数量,最终确定内部节点个数为K= 48 作为最优曲线拟合,根据前面的聚类方法,采用式(6)的距离公式对各地区肺结核发病率时间轨迹的相似性进行聚类,聚类结果如图5与图6所示。表1是聚类结果的1 ~4 类中包含的地区编号与地区名。
结合图5与表1可以出,利用函数型聚类分析能够将32 个地区具有相似发病率时间轨迹的地区归为四类,第一类中包括贵州与新疆两个地区;第二类包括黑龙江、湖北、湖南、广西、海南、重庆、西藏、青海8 个地区;第三类包括内蒙古、吉林、安徽、江西、河南、广东、陕西、甘肃、山西、浙江、福建、四川、建设兵团13 个地区;第四类包括北京、天津、河北、上海、辽宁、江苏、山东、云南、宁夏9 个地区。并且结合图6的类中心线明显可以看出,这4 类之间具有明显的差异,第一类的类中心线要明显的高于第三类与第四类的类中心线。说明四类之间具有明显的差异[9-10]。
3.2 类间与类内的差异性分析
3.2.1 类间差异性分析 从图5可以看出,四类之间具有明显的差异,第一类贵州和新疆两个地区的发病率函数曲线明显的高于第三类地区与第四类地区,第二类地区的肺结核发病率函数曲线的前半段略低于第一类地区,但后半段与第一类地区的曲线略有重合。结合每类的类中心曲线的水平高度与波动情况,进一步分析各类之间的差异,结果见表2。一方面类中心线的水平高度,从表2可以看出,第一类地区的类中心线的平均值最高,达到13.74,而第二类地区的类中心线次之,为8.59,第三类地区与第四类地区的类中心线水平分别为6.40 与3.96,由此可以看出,第一类地区的肺结核发病水平远远的高于第二类地区、第三类地区与第四类地区;另一方面类中心线的波动情况,从表2中可以看出,第一类地区的类中心线波动最为明显,方差为6.12,第二类地区与第三类地区的类中心线波动较为明显,方差分别为1.79 与2.30,第四类地区的类中心线趋势较为平缓,方差为0.47。由此可以看出,第一类地区每年肺结核的发病情况波动起伏最大,发病情况的不确定性最强,是最难进行控制的;第二类地区与第三类地区肺结核发病情况波动相对较小,而第四类地区肺结核发病情况波动最小,最稳定。
图5 2005-2016年全国32 个地区聚类曲线图Fig.5 Cluster graph of 32 regions in 2005-2016 in the country
图6 曲线聚类的类中心线Fig.6 Class center line of curve clustering
表1 全国32 个地区曲线聚类结果Tab.1 Results of curve clustering in 32 regions in China
表2 类间均值与方差对比表Tab.2 Comparison of mean value and variance among classes
结合这两方面来看,第一类两个地区的肺结核的发病情况更加严峻,发病率高,发病率波动大,不确定性大,防治困难;第二类地区的肺结核发病情况相较于第一类地区,发病率略低,而且波动相对较小,但结合图5可以看出,西藏与青海两个地区肺结核发病情况较为特殊,两个地区在2005-2011年间,肺结核的发病率较低,但2012年之后,发病率有逐渐走高的趋势,而且波动也在逐渐增大,有趋近于第一类地区的趋势,应更加注意这两个地区的防治;第三类与第四类中各地区的发病率时间轨迹更加相似,聚集度更高,并且发病率是最低的,波动也不大,相对来说第三类地区与第四类地区的防治相对简单。
3.2.2 类内动态分析 从图6可以看出,每类地区的肺结核发病在后期都呈现下降的趋势,后期的波动也呈现减小的趋势,以2010年为时间节点,结合每类的类中心线的水平高度与波动情况进一步分析,结合表3中类内均值控差对比的数据可以看出,每一类在2010-2016年这一时间段内的平均发病水平与波动情况均低于2005-2010年这一时间段的平均发病水平。整体来看,我国的肺结核防治措施具有一定的效果,每类地区的肺结核发病率相对前些年已经有所下降,而且每年的波动也在减小,这说明,我国肺结核的防治已经取得一定的成效。
表3 类内均值与方差对比表Tab.3 Comparison of mean value and variance intra-class
4 结语
本文通过对2005-2016年全国各地区肺结核的疫情资料分析,得出以下结论:
(1)2005-2016年全国肺结核的发病数与发病率总体都呈现下降趋势,自2001年国务院制定《全国结核病防治规划(2001-2010)》以来,国家加大了肺结核的防治力度,结果显示肺结核病的防控工作取得了较好的结果。尽管我国的肺结核疫情有了显著的改善,但仍是全球结核病流行严重的国家之一,仍需要做好防控工作,控制疫情。
(2)全国肺结核结构分布特征如下:通过比较各年龄阶段的发病率可以发现,高危人群主要是60岁以上的人群,低危人群主要是14 岁及以下的人群,新生儿出生后会及时接种卡介疫苗,所以14 岁以下的幼儿及儿童的发病率较低,而60 岁以上的老人免疫力降低,易感染肺结核或结核病的易复发,60岁以后肺结核的发病率迅速上升。由此可见,老年人是我国在未来结核病防控中需要重点关注的对象。
(3)肺结核的发病率具有明显的季节分布特征,以每年的12 个月为一个周期,每年报告的肺结核发病率显示,1月份与3月份为发病高峰,3月份之后发病率呈现持续下降的趋势,12月份为发病率最低的月份,因此结核病的防控要根据不同的季节采取不同的防控策略。
(4)全国肺结核发病情况具有明显的地区分布特征,利用年平均发病率的静态数据分析肺结核发病的地区分布特征,高危发病地区包括新疆、西藏、青海、贵州、重庆、湖北、湖南、广西以及黑龙江地区,低危地区有北京、天津、河北、山东、江苏、上海、云南以及宁夏地区。为进一步了解肺结核发病情况的地区分布特征,因此采用曲线聚类方法对32 个地区2005-2016年间每月的数据进行动态分析,得出高危地区的贵州与新疆地区肺结核发病情况严重,其每年的波动起伏较大;而高危地区中的重庆、湖北、湖南、广西发病情况相对较好;但应注意青海与西藏两个地区,前期两个地区的发病情况较低,后期两个地区的发病情况却有增高的趋势。中危地区与低危地区的发病情况相对稳定。