APP下载

皖北地区胃癌患者致病因素及复发风险预警研究

2019-05-27李彬刘牧林彭欣元杨飞

广州医科大学学报 2019年6期
关键词:决策树胃癌节点

李彬,刘牧林,彭欣元,杨飞

(1.蚌埠医学院第一附属医院信息中心,安徽 蚌埠 233004;2.蚌埠医学院第一附属医院胃肠外科,安徽 蚌埠 233004)

每年全世界大约有832万人死于恶性肿瘤,肺癌、乳腺癌及胃癌是目前较为常见的恶性肿瘤。全球每年新发癌症病例大概有1534多万例,而胃癌无论是发病率还是死亡率在我国均位居前列,在全世界各项恶性肿瘤发病率中位居第2位。胃癌多发区主要分布在亚洲韩国、日本及中国,我国每一年新发病例数约为40万例,占全世界总病发例数的42%。近期国际胃癌大会在北京召开,我国每年有约为67万例胃癌发病病例,发病例数占世界总例数的比例已由2013年的39%上升至50%,胃癌发病率连年持续上涨。有关数据表明,我国城镇居民的第1位死因就是癌症,病死率为213.6/10万(21.7%)。而胃癌在恶性肿瘤死因中居于第三位。从上世纪70年代至90年代,我国男性的胃癌死亡率从原先的31.14/10万增长到37.12/10万。而女性患者的胃癌死亡率则从12.98/10万上升到17.80/10万[1]。从此可以看出胃癌疾病严重影响我国城镇居民的身心健康。

1 资料与方法

1.1 临床资料

某省级三甲医院电子病历(electronic medical record,EMR)自2011年正式启动使用以来,共接收诊治胃肠道肿瘤17 990例,肠道肿瘤12 114例,胃部肿瘤5 876例,其中肠道恶性肿瘤共8 542例,包括直肠恶性肿瘤4 663例、结肠恶性肿瘤1 926例、乙状结肠恶性肿瘤514例、横结肠恶性肿瘤237例、十二指肠恶性肿瘤227例、升结肠恶性肿瘤147例、降结肠恶性肿瘤78例、小肠恶性肿瘤63例等;胃部恶性肿瘤共4 799例,包括胃恶性肿瘤4 270例、胃肠道恶性肿瘤272例、贲门胃底恶性肿瘤58例,胃小弯恶性肿瘤51例、胃窦恶性肿瘤30例、食管胃连接处恶性肿瘤21例等。综上所述,该院拥有庞大的样本数据量,而且根据数据关联显示样本主要集中于皖北地区。与此同时,以上数据也反映出恶性肿瘤病种较为集中的问题[2]。

1.2 调查内容

本项目将综合运用临床诊断学理论、临床肿瘤学理论、主题数据库理论、决策树分类算法、数据挖掘技术等方面的理论和方法,开展相关的理论研究工作,主要的研究思路如图1所示。

从皖北某省级三甲医院EMR中调取胃癌患者病历,从中选取有效病例作为研究的原始数据集并对数据进行分析研究。按照概率论关于抽样分析中样本量的要求,自变量与样本量数目之比一般是1∶5至1∶10。本文选取分析自变量为7个,因此所需样本量为35~70例。本研究应搜集70例为准,考虑到样本的回收有效性,故把样本量增大到80例。同时,针对自变量选取的不同,所针对研究的方向也不相同,本项目则以皖北地区胃癌患者致病因素和胃癌复发患者诱发因素这两方面加以阐述。

HISEMRLIS指标体系及实证研究方法专题二:数据采集、录入抽取、清理装载、刷新专题三:胃癌诱发因素及复发性风险预警的实证研究专题四:随访管理、建立对照组验证结论有效性构建决策树分析模型专题一:建立主题数据库建立纳入标准、排除准以及抽样样本UICC临床肿瘤学手册国际抗癌联盟(UICC)这体瘤TNM分期标准实用肿瘤内科学临床诊断学实用内科学

图1 项目研究的技术路线

1.3 质量控制

(1)进行预调查,向患者解释本项目研究意义,取得良好的合作关系,向胃癌患者允诺调查及个人资料保密,最终确定研究对象是否同意研究者调取其住院病历资料。(2)调查者仔细审核所选取胃癌患者的病理情况,检查其各项是否符合本研究要求。如有漏项或者逻辑错误的数据予以补齐或者剔除。(3)资料调取结束后需对格式及内容进行检查,发现纰漏,及时修正。(4)录入数据需对数据进行再一次严格审查,同时要采取两个或两个以上人员录入资料的方式。

1.4 指标定义

针对胃癌患者致病或复发影响因素的预警研究中,需要尽可能列出胃癌患者诱发或复发影响可能存在的因素,该项目从原始数据集中选取年龄、性别、胃切除、家族遗传、营养状况、术后化疗、淋巴结转移以及是否复发等相关因素作为分析的研究变量,这些因素数据类型及取值范围见表1。

表1 定义数据分析模型变量

1.5 统计分析方法

本研究采用SPRINT算法,它改进了决策树算法的数据结构,且准确度高,改变以往数据挖掘对内存的要求,这样可以解决其他算法都不适用的大规模训练样本集,伸缩性好,同时引入并行算法公式[3]。在运用SPRINT算法时,构建基于决策树的临床医疗数据分析模型,从而实现胃癌致病及复发风险因素的预警研究。

SPRINT算法数据结构是由属性列表与直方图构成,属性列表是由属性值类别和数据记录的索引组成。连续属性的初始列表是按属性值排序。直方图用于计算每一种分裂方案的gini index值,对于每个连续属性,考虑分割的原因,对每个决策树节点都要维护两个统计直方图,为Cbelow和Cabove,用于表示属性记录在给定节点上的类分布面情况。针对本文研究的离散属性,只要一个称之为计数矩阵的直方图,它包含该离散属性每个值的类分布情况。

gini指数在SPRINT中作为评价节点分裂质量的参数,使用gini指数方法可以高效地发现最佳分裂点,由于其具有最大信息增益,提供最小gini指数的分割被选为最佳分割。gini指数被定义为:

gini(M)=1-∑1npj2(对于有n种类别的m条记录的数据集M)

其中Pj是类j在M中出现的相对频率。根据分割点将M分割成M1和M2两个子集,则分割后的gini参数定义为:

ginisplit(M)=(n1/n)*gini(M1)+(n2/n)*gini(M2)

其中n、n1、n2分别为M、M1、M2的记录数。ginisplit(M)最小即为最佳分割。

2 结果

2.1 决策树的分析数据集

抽取原始数据集中的数据,对研究因素进行清洗,去除与决策不相关的属性,填补残缺研究数值的属性,从而形成决策树的分析数据集如表2,建立决策树,把是否复发作为研究属性值,从而研究胃癌患者复发的影响因素,做出预警分析。

2.2 计算最佳分裂

在完成初始化后,就进入往复地求最佳分裂指标的阶段。在这个阶段,需遍历该节点上所有属性列表,寻找gini指数最小的对应的属性是该节点的分裂属性。而连续属性的计算方法为该样本数据集中的连续相连两个数据值的中间值。本研究中的年龄属性即为连续属性值,对于连续属性的分裂点为训练集中两个连续属性值的中间点,分别取每两个连续属性值的平均值计算其gini值。计ginisplit(45.5)如下:

gini(M1<=45.5)=1-1=0

gini(M2>45.5)=1-[(11/19)2+(8/19)2]=1-0.512=0.4875

则:ginisplit(45.5)=1/20*0+19/20*0.4875=0.4631

然后计算年龄属性列表中其他分裂点指数值,其中最小的gini值即为最佳属性分裂值。年龄属性ginisplit(72.6)=0.4278,即为最小值。则分裂点为72.6。胃切除则为离散型属性,由前面的属性数值1表示部分切除,属性数值2表示大部分切除,属性数值3表示完全切除。计算ginisplit(1)如下:

gini(M1=1)1-[(3/6)2+(2/6)2]=1-0.5=0.5

gini(M2=12)=1-[(7/14)2+(8/14)2]=1-0.576=0.424

则ginisplit(1)=6/20*0.5+14/20*0.424=0.15+0.296 8=0.446 8

同理,可得ginisplit(2)=0.451 7,ginisplit(3)=0.493 4,选取gini值,则胃切除属性分裂点为1。

通过胃切除的步骤,分别求出其他属性的最佳分裂方案,通过比较,gini最小值即是当前节点的分裂属性。通过计算发现家族遗传的值是所有属性值中最低的,因此家族遗传成为决策树根节点的测试属性。

在节点中存放最佳分裂参数后,为了创建子节点,开始节点分裂,需要对节点的每一个属性列表进行划分,引入一种数据结构哈希表用于对其他属性列表进行划分,从而能够存储属性表中Rids。划分分裂属性表的步骤依次为:先将分裂属性的所有记录的Rids插入到哈希表中,再通过哈希表中的记录对非当前分裂属性的列表进行分割,最后再依次进行数据预处理、计算最佳分裂值的操作。通过算法计算,得出胃癌患者复发的几率由高到低依次为家族遗传、术后化疗、胃切除、年龄、营养状况等因素。

表2 胃癌术后复发数据集(部分)

3 讨论

在国内,已有很多机构开展了相关研究工作,并取得一定进展,但存在研究群体受区域限制问题,例如区域性的饮食习惯、生活环境、习俗等一系列因素影响。根据已有资料显示,在我国胃癌病发与饮食习惯存在一定联系,如喜食油炸热烫食物、烟熏烧烤肉食、嗜酒如命等习惯。而广西、四川、青海、江苏、贵州、常州等地的饮食习惯如上,因此发病率高。而另一方面胃癌病发与水质地址也相关,因此如祁连山内流河系的河东走廊、长江上游、乌江中部、黄河中游、闽江口及长白山北段等地发病率比较高[4]。而本项目则依托于某省级三甲综合医院,针对在该院就医的胃癌患者作为录入对象和研究对象,最终展现皖北地区胃癌患者可能致病及诱发因素。

在本研究中胃癌的复发率在短短的几个月之内已经由最初5.3%上涨到6.2%,有明显的上升趋势[5]。从年龄分布可以看出,胃癌复发的发病率分布在50~59岁年龄组,其次集中在60~69岁年龄组,与当地的胃癌复发人数比较无明显差异。性别也与当地胃癌复发人数无明显统计学差异,从有关资料中了解,性别不是胃癌复发的影响因素。有专家研究发现,早期胃癌的复发率与肿瘤大小有密切关系。研究显示肿瘤直径大于2厘米胃癌复发的可能性要高于直径小于2厘米的肿瘤,认为直径2厘米是影响胃癌复发的指标之一。因而胃癌复发与肿瘤大小密切相关。

胃癌的早期进展中,分化型细小癌变较为常见,胃癌病变不断进展,在这个过程中组织形态容易发生改变。随着胃癌的进一步发展,组织类型分化程度逐步下降。资料表明,分化程度越低的组织淋巴结转移的概率越高,组织类型中管状腺癌至多占56%,其次为低分化腺癌,其他如印戒细胞癌和黏液细胞癌比较少见[6-8]。

未进行胃癌切除的胃癌术后复发率高达85%,而胃癌切除后的复发率则为22.3%,因而胃切除术治疗日趋受到更多人重视。早期胃癌的淋巴结转移相对比较低,特别是管状腺癌的淋巴结转移最少,低于5%。因此广泛性淋巴结清除手术不能明显避免胃癌复发。随着内窥镜黏膜技术水平的不断提高以及内窥镜下黏膜剥除技术等创外伤诊治广泛普及,其中内镜黏膜下剥离术(endoscopic submucosal dissection,ESD)技术可以诊治创伤愈合难度大的溃疡性肿瘤,可以弥补肿瘤残留的问题,而且可以降低复发率[9]。

TNM分期是1998国际抗癌联盟制定的胃癌临床病理分期,是病人结局的良好预测指标,但必须与分化程度与组织类型等原因结合起来考虑[10]。通常认为Ⅲ期和Ⅳ期病人的复发可能性大。胃癌术后五年生存率Ⅰ期为83%,Ⅱ期为62%,Ⅲ期为14.5%,Ⅳ期为6.7%。为了预防胃癌患者死亡或复发的发生,需要对术后胃癌进行物理或者化学因素治疗,提高患者五年生存率,超过6个月的化疗疗程胃癌复发的几率显著提高。

本文选取7个分析自变量,只起到抛砖引玉之用,后续研究将在此基础之上增加分析自变量数量,扩充样本集,更深层次分析致病及复发因素。与此同时,随访管理进一步完善:第一,对患者继续追踪、查访,尤其是复发患者可通过门诊随访、面访、信函等方式对其进行宣教,对上述研究中可能出现的复发因素做出预警,从而降低复发概率,提高患者生活质量。第二,将随访结果整理、收集形成有效对照组,并与前期项目研究结论形成对比,最终验证其有效性和真实性。

猜你喜欢

决策树胃癌节点
CM节点控制在船舶上的应用
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于决策树的出租车乘客出行目的识别
P53及Ki67在胃癌中的表达及其临床意义
抓住人才培养的关键节点
胃癌组织中LKB1和VEGF-C的表达及其意义
胃癌组织中VEGF和ILK的表达及意义