APP下载

聚类分析法在龋病流行病学研究中的应用进展

2023-07-26王翔宇侯如霞杨婷婷刘君瑜史富茹

现代口腔医学杂志 2023年4期
关键词:龋病龋齿流行病学

陈 浩 王翔宇 侯如霞 杨婷婷 刘君瑜 史富茹

龋病是一种牙体硬组织慢性疾病,严重威胁人类的健康[1]。第四次全国口腔流行病学调查结果显示,12岁儿童中有34.5%的人患龋病,而在35~44岁的人群中患龋率则高达89.0%[2]。龋病可造成牙体缺损、牙髓病和根尖周病等,影响牙的功能与美观,可使患者的咀嚼功能减退、发音功能障碍,甚至可能会导致颞下颌关节紊乱和错牙合畸形。目前公认龋病是在一定的时间内,受宿主易感性、口腔细菌和饮食等因素影响的一种口腔牙体疾病[3]。这些影响因素具体为宿主的基因、唾液[4]、细菌的种类[5]及其附着方式、饮食的种类及频率等。而在宏观上,龋病的发生则可能受到家庭、政策、社会和经济[6]等因素的影响。

龋病的流行病学研究是通过临床流行病学基本方法对龋病的发病原因、分布规律、预防方法等进行研究的。统计学和计算机技术的发展使得复杂的统计方法和分析成为可能。近年来,国内外研究者使用方差分析、相关性分析、回归分析、聚类分析等统计学方式对龋病进行了大量的研究,促进了龋病防治方式的进步。作为数据统计分析方式之一,聚类分析统计法因其具有简单快速、结论直观和无需训练集等优点,近年来在龋病的流行病学研究中也得到了广泛的使用。本文就聚类分析法在龋病的流行病学研究中的常用方法、应用进展和优势与展望等做一综述,以期发掘聚类分析法在龋病流行病学研究中的应用价值,促进龋病防治的发展,促进人类口腔健康的发展。

一、聚类分析法概述

数据挖掘(data mining,DM)是从大量的、不完全的、模糊的数据集中,提取隐含在其中有用信息的过程。描述型DM 属于无监督模型,不需要响应变量集,是在自身的数据集中寻找规律,主要有“关联分析”、“聚类分析”、“主成分分析”三种模式。聚类分析作为描述型DM 中的一种,是传统统计学算法的延伸和扩展。它的出现不是为了替代以往的统计学算法,而是与其他统计学方法一起去解决一些较难的数据分析问题。聚类分析法是将一组数据(如:病例、问卷、试验数据)在一定的算法规则下,按照其相似性和差异性分为几个类别,使得同一类别中的数据特征相近,而不同类别间的数据相似性尽可能的小[7]。从而把样本分成不同的几个簇集,以便于研究者依靠簇集的聚类特征进一步发掘出潜在的信息。聚类分析得到的相应的簇集结果后,可以再联合其他的统计方式(例如单因素分析、多元logistics回归等)进行更深入的统计学分析[8]。

聚类分析统计法主要可以分为以下几个种类:划分算法(以K-means最为常见)、层次方法(以系统聚类分析为代表)、基于密度的算法(如: DBSCAN算法等)、基于模型的方法(如:神经网络)以及基于网格的方法(如:Wave-Cluster),这些方法可以满足多数应用场景和研究的需求。目前,在龋病的流行病学研究中主要的运用方法的是K-means 聚类分析、系统聚类分析、两步聚类分析等。

二、聚类分析法在龋病研究中的应用及优势

1.K-means 聚类分析在龋病研究中的应用及优势

K-means 聚类分析一般为Q 型聚类,即对样本进行聚类,可对连续变量进行处理。K-means 聚类分析通常以一个预设分类数开始,根据研究的目标,选择人为干扰或不干扰初始聚类中心(质心)。然后通过计算样本间的平方欧式距离,经过多次迭代,不断地调整质心,最终在目标函数收敛结束时,把样本分成K 个不同的簇集[9]。K-means 聚类分析具有简单快速,适用于大样本和多变量数据等优点,但是也有着对离群点、异常点较敏感等缺点。目前在龋病研究中的应用如下。

(1)饮食模式与龋风险的关系研究

K-means 聚类分析法可以对连续变量进行处理,最终按照个体的变量特征将个体聚集为不同的几个簇集。在研究饮食模式与疾病之间的联系时,需要把个体多类型的饮食摄入量或摄入频率看成一个整体[10]。Samman M 等[11]发现美国儿童龋病与其饮料摄入量有关,但儿童摄入的饮料是多类型的,各类饮料之间潜在的相互干扰,导致一些基于传统统计分析方式得出的研究结论经常出现相互矛盾的情况。而该研究则使用K-means聚类分析法对美国儿童饮料摄入量的数据进行了预处理,最终确定了4种饮料模式,然后使用描述性统计和多元logistics分析等方式进行了深入分析,最终得出了无糖饮料对美国儿童龋齿无不良影响的结论。这为龋病与饮食模式关系的研究开辟了新的思路与研究方向。

(2)社会环境因素与龋齿经历的关系研究

K-means 聚类分析法能处理龋病的多维度的影响因素,从而使得研究者能更容易地发掘其潜在的影响关系。Juliana Neide Amato[12]对5213名学生的龋齿经历进行了研究,纳入了社会、环境、学校、家庭等方面的数十个影响因素,然后使用K-means 聚类分析法进行了聚类,最终从“优势群体”和“弱势群体”的角度上分析了各种社会环境因素与龋齿经历的关系。

(3)龋齿的临床诊断研究

K-means 聚类分析法在实现数字口腔内放射(digital intraoral radiology,DIR)图像的龋齿区域可视化上具有优势。Obuchowicz R[13]为了改进龋齿DIR 临床检测方法,探讨了可行的六种方法,包括K-means 聚类、共生矩阵、灰度差阵等方法,最终认为K-means 聚类虽然具有一些缺点(如必须预先输入分类数量),但使用此方法进行龋齿的DIR图像纹理特征分析,能显著提高DIR龋病位点的检测能力。同时,Das Gupta S[14]通过K-means 聚类分析法对10颗早期龋坏牙齿的拉曼显微光谱(Raman microspectroscopy)进行了研究,最终发现K-means聚类分析对矿化程度很敏感,能准确地从光谱图中识别到龋齿病变。

2.系统聚类分析在龋病研究中的应用及优势

系统聚类(hierarchical cluster,HC)也叫层次聚类算法、分层聚类法。它是层次方法之一[15]。HC法能处理分类变量或者连续变量。其方法主要分为两种,一种是凝聚层次聚类(AGNES),另一种是分解层次聚类(DIANA)。在龋病研究中以AGNES 较为常用。其基本原理为:初始时,把每个变量或样本作为单独的一簇,计算变量或样本之间的类间距离,把距离相近的变量先聚合成为一个新簇,再重复此步骤逐步合并,最终把变量或样本都合并到同一个聚类时则停止,整个结果用树状图或谱系图来表示。虽然HC 法处理速度相对较慢、不适用于庞大的数据集,但其具有使用限制较少、无需预先确定分类数等优势。HC法在龋病研究中的应用较为广泛。

(1)龋病病因学研究:①遗传因素:在个体层面上使用HC 法对龋面进行聚类后,再对聚类簇进行遗传关联的研究[16],有助于对龋病有关的遗传基因因素的探索。Haworth S[17]在一项对双胞胎患龋病特点的研究中,使用HC 法把不同牙位的龋齿面聚集为了7 个类型,然后通过多变量ACE 模型研究了每个聚类中的遗传因素的贡献比例,最后证明遗传因素能解释41.9%~54.3%的龋病易感性。②细菌因素:使用HC 法可建立龋病患者与口腔细菌种类的无监督分层聚类热图,从而更容易地对不同龋病患者的口腔菌群类型进行分析。Wolff[18]使用HC 法对26 例患龋者和28 例无龋者的牙菌斑细菌的实时定量聚合酶链式反应(real-time quantitative polymerase chain reaction,RQ-PCR) 产物进行了分析,最终通过观察分层聚类热图发现:在没有患龋齿的受试者中,血链球菌、戈登氏链球菌、二氧化碳噬纤维菌、咽峡炎链球菌群和梭杆菌的RQ-PCR 表达水平相对更高,而在患有龋病的受试者中,变形链球菌和酸性丙酸杆菌的RQ-PCR 表达水平相对较高。③唾液因素:使用HC 法可以把含有数十种成分的唾液进行分类,进而使研究者从整个唾液分型的维度去分析对应的龋风险特征[19]。Xia G[20]的一项对28 名志愿者的纵向研究,对未受刺激分泌的唾液和受刺激后分泌的唾液的变量进行了HC 分析,最终证明较高的唾液流速、较低的未刺激唾液溶菌酶和乳铁蛋白水平与低龋风险相关。基于唾液数据的聚类分析,有助于从一系列唾液数据中挖掘出对低龋风险较为重要的唾液影响成分。

(2)龋病分类模型研究

建立相应的龋病分类模型,有助于龋病的流行病学研究[21]和基因研究[22]。使用HC法,根据人群中龋病病变牙面的分布特征对牙面进行分类,有助于研究人员对特定的龋病模式与环境、遗传等因素的相关关系进行研究。Shaffer JR 等人[23]对1068 名成年人的全口龋齿数据进行了分层聚类分析,将样本分为了5 种龋病模式:C1 磨牙窝沟面、C2 下颌前牙面、C3 后牙非窝沟的面、C4 上颌前牙面、C5 牙列中部的面,然后再进一步地对这五种龋病模式的患者特征进行了分析,最终发现遗传、年龄、受教育程度等是龋病的一系列影响因素。

基于多维比例分析建立的低龄儿童龋病(early childhood caries,ECC)模型在准确性上相对较差,而使用HC 可以对现有的ECC 模型进行补充和完善[24]。Psoter WJ[25]在一项对美国5169 名学龄前儿童的研究中,使用HC 分析同时结合已有的ECC 模型,建立了一种更精确的ECC 模型:C1 除上颌切牙外的光滑面、C2 上颌切牙、C3 下颌第一磨牙牙合面、C4 上颌第一磨牙牙合 面、C5 上颌第二磨牙牙合 面、C6下颌第二磨牙牙合面。使用HC 法建立的ECC 模型有助于研究者对ECC 危险因素的识别,以进一步探讨ECC 的风险因素和保护因素。Wang X[26]的研究使用HC 法把2160 名青少年分为了4 个龋风险簇集(低风险、中风险、高风险和极高风险),并深入分析了这4 个簇集的人口、社会经济、心理和行为因素的关联,为有关部门在龋病预防政策上的优化提供了方法和依据。

(3)龋病预防模式的研究

使用HC 法对医师预防模式进行分析,可以帮助医师和相关机构选择重点干预人群,优化预防龋病的方式,从而预防或延缓龋齿在人群中的发展[27]。Da Silva Tagliaferro[28]使用聚类分析对197名巴西牙医的龋病预防模式进行分析后发现:最大分组(容纳着98 名牙医)的特征是“很少对患者使用龋病预防措施”,该分组同时伴有以下特征:①能接受个人龋齿预防的患者比例最低;②评估龋齿风险的可能性最低;③女性牙医比例最低;④45~64岁的患者比例最高。

3.两步聚类分析在龋病研究中的应用及优势

两步聚类分析法(two step cluster,TSC)是以统计量作为距离指标,把连续变量和分类(离散)变量根据统计标准,自动确定最佳分类数的一种聚类方法。TSC 的两步为:第一步,构建聚类特征(Cluster feature,CF)树。CF 树是在扫描数据集的过程中不断添加并更新CF 条目及分裂节点来形成的。它根据首个样本建立根节点及相应的条目,之后根据距离最小的原则逐个将其他的样本分配。CF 树中节点的每个条目表示一个聚类,每个条目就是聚类特征。第二步,将上一步的预聚类结果进行正式地再聚类。根据施瓦兹贝叶斯准则或Akaike信息准则等指标自动确定最佳聚类个数[29]。TSC 还具有更适用于大型数据集,同时也能诊断样本中的离群点和噪声数据等优势。

(1)复杂因素对龋病的影响研究

相较于K-means 聚类分析和HC 分析,TSC 的一个优势在于可以同时对分类变量和连续变量进行处理。Fadel HT[30]的一项的龋病影响因素的研究中,同时纳入了父母教育水平、患儿性别等分类变量和患儿身体质量指数(body mass index,BMI)等连续变量,运用TSC法把290名儿童家长聚集为了4个类型,从而进一步分析了4 个类型中的龋病患儿在DMFT 指数上的差异,最终认为BMI 高、父母教育程度低的患儿,龋风险更大。

(2)不良修复体与继发龋的关系研究

TSC 的另一个优势在于可以自动确定最佳的分类数。Ghulam OA[31]在一项修复体悬突和继发龋的研究中,对502 名具有修复经历的患者的年龄、性别、医疗水平和龋齿经历等变量使用了TSC法,最终将患者自动聚集为了5 种类型,然后通过分析聚类特征,进而证明了充填体悬突与患者所受的医疗水平相关,且修复体悬突是继发龋的一个危险因素。

三、总结与展望

口腔流行病学研究中较常使用的统计分析方式(相关分析、方差分析、回归分析等)在龋病的研究中发挥着重要作用,但对于样本量大、影响因素多维的数据集,有时却面临着统计设计繁琐和统计结果的可解释性较弱等问题。而使用聚类分析法与传统统计方式相结合的模式,可以更直观且便捷地处理龋病的多维度的影响因素,从而有利于研究人员进一步发掘数据集中潜在的有用信息。比如在研究饮食模式与龋病之间的联系时,需要把个体多类型的饮食摄入量或摄入频率看成一个整体,如果单纯地使用传统统计方式,则统计设计相对困难且繁琐。而研究人员如果使用聚类分析法预处理数据[11],从个体的维度上把样本聚类为几个饮食模式,再使用传统方式进行龋风险的分析则更容易进行数据处理,且得到的分析结果也更加浅显易懂。Shaffer[23]认为相较于一般的龋病流行病学研究,使用聚类分析法可以根据龋齿的特点将其进行合理的分组,这有利于进一步的龋齿病因学的研究。WangX[26]认为在龋病横断面调查的研究中使用分层聚类分析可以从更少的样本中挖掘出更多有用的信息。但Zhao J[32]在肯定聚类分析法具有优势的同时,也指出了这种方式没有考虑到个体分类的不确定性,且在结果再现性方面具有一定的局限。所以,临床在应用聚类分析进行数据分析时,应充分考量其局限性对实验结果的影响[33]。同时,关注并使用聚类分析算法的改进方法或许可以更好的达到实验目的,如简单多核K-Means聚类方法[34]、无中心聚类法[35]等。

三种聚类分析方法在龋病流行病学研究中的适用范围不同,优缺点各异(表1)。值得注意的是,本文中所探讨的聚类分析法在龋病研究中的应用,仅为国内外研究应用现况,并非表明类似的龋病研究就必须局限于所对应的聚类分析方法。研究者应根据样本量、变量类型及研究目的等,灵活地选用更适合的聚类分析方法。同时应注意到,聚类分析方法并不能完全代替传统统计方法,在一项研究中一般不会单独地使用聚类分析。通常,使用聚类分析法对样本进行预处理后,仍然需要传统的统计方法对聚类结果进行进一步的处理及分析。

表1 三种聚类分析方法的适用范围及优缺点

综上,在龋病的流行病学研究中使用聚类分析方法,对明确龋病的病因、影响因素和在龋病预防等方面具有重要的意义。目前,聚类分析法在龋病流行病学研究中的应用,使得基因因素、细菌因素、饮食因素、社会环境因素等对龋风险的影响关系更加清晰与完善。基于聚类分析的龋病的流行病学研究仍然有广阔的发展空间,有一些问题亟待解决:①个体饮食模式对龋风险的影响的研究尚不完善;②目前的研究多局限于横断面研究,这不足以支撑龋病影响因素与龋病间的因果关系;③龋风险评估模型建立的方法很多[36],而依靠聚类分析建立起的龋风险评估模型对龋病的预防具有一定的指导意义[37]。

猜你喜欢

龋病龋齿流行病学
羊细菌性腹泻的流行病学、临床表现、诊断与防治措施
羊球虫病的流行病学、临床表现、诊断和防治措施
龋活跃性与年轻人龋病严重程度之间关系的研究
新型冠状病毒及其流行病学特征认识
预防龋齿
一起疑似霉变蛋挞引起食物中毒的流行病学调查
预防龋齿
预防龋齿
180例学龄前儿童乳牙龋病调查研究分析
预防龋齿