美国国立癌症研究所SEER数据库概述及应用
2015-03-15章鸣嬛马军山
章鸣嬛,陈 瑛,汪 城,沈 瑛,马军山
美国国立癌症研究所SEER数据库概述及应用
章鸣嬛,陈瑛,汪城,沈瑛,马军山
摘要:美国国立癌症研究所“监测、流行病学和结果数据库”SEER是北美最具代表性的大型肿瘤登记注册数据库之一,收集了大量循证医学的相关数据,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料。介绍了SEER的基本情况、获取方式以及数据库结构等,对SEER的数据字典进行了较详细的描述;解读了SEER主要的统计分析报告;收集了近年来国内外基于SEER数据的部分临床应用案例,并对SEER数据库的未来应用进行了讨论与展望。关键词:SEER大型肿瘤登记数据库;数据字典统计分析报告临床应用
陈瑛(1968-),女,上海,上海杉达学院,教授,博士,研究方向:数据分析与处理,上海,201209
汪城(1994-),男,安徽,上海杉达学院,本科生,研究方向:计算机科学与技术,上海,201209
沈瑛(1970-),女,上海,上海交通大学医学院附属新华医院,副主任医师,硕士,研究方向:临床医学,上海,200092
马军山(1967-),男,黑龙江,上海理工大学,教授,博士,研究方向:光电信息,上海,200093
0 引言
SEER记录了美国部分州县40年来肿瘤患者的相关信息,包括了上百万名已确诊患者的发病率、死亡率和患病情况等信息[2]。SEER在建立之初仅有少数几个地区的登记站,目前登记站数量已扩展为18个。这些登记站利用SEER*STAT软件来统一和规范[3],这是一款可用于统计分析的强大的计算机工具。各登记站的数据资料以一年两次的频率提交到NCI进行分类统计和汇总,并向全美及全世界发布所覆盖人群的肿瘤信息。
SEER的研究数据主要由肿瘤发病率情况和人口数据两大部分组成。截至2013年11月,SEER的数据记录已有8,208,917条。数据记录中包括患者的注册编号、个人信息、原发病灶部位、肿瘤尺寸、肿瘤编码、治疗方案、死亡原因等信息。数据库所涉及的肿瘤划分为9类:乳腺、结肠&直肠、其他消化系统、女性生殖、淋巴&白血病、男性生殖、呼吸系统、泌尿系统及其它尚未确指的类型。
1 背景介绍
1.1医学数据的特点
随着我国医疗卫生事业的快速发展,据卫生和计划生育事业发展统计公报[1]显示,2013年全国医疗卫生机构总诊疗人次达73.1亿人次。全国医疗服务工作量如表1所示:
表1 2013全国医疗服务工作量统计
全国医疗卫生机构入院人数达19215万人,如图1所示:
图1 2013年全国医疗卫生机构住院量及增长速度[1]
医学数据既具有常规数据的特点,如数据增量巨大、来源多样、产生时间和地点等不确定;又具有其特殊性,主要表现为:
(1)数据形式多样性或异质性。包括文本数据(如问诊、观察和解释等非结构化的描述语言);临床化验等生理参数;一维信号及其参数(如ECG);超声、CT、MRI、PET等医学影像特征参数。
(2)医学数据描述的不确定性。医生对于上述临床数据的解释含有丰富的经验积累和知识沉淀,是医学数据分析处理必须关注的数据源,但医生的经验与知识大多是非结构化的文字描述非标准化形式。
(3)人体是一个复杂的生物系统,随着病程变化,其临床数据在不断变更,因此需要建立一种方法能相应地采集、存储和分析相关的数据及其变化过程。
(4)医学数据的使用受其私密性、敏感性、伦理、法律和社会舆论等因素的制约。
1.2数据库技术与大数据分析
数据库技术是研究、管理和应用数据库的一门软件科学,通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法,来实现对数据库中的数据进行处理、分析和理解。
当今社会每时每刻都在产生海量的数据,对规模巨大的数据进行分析和研究,并从中得出有用的结论和规律,使得大数据分析技术应运而生。“大数据”的特点可概括为4个V,即数据量大(Volume)、高速(Velocity)、多样(Variety)和价值(Value)。
医学数据具备大数据的特点,如何正确有效地对海量医学数据进行挖掘研究,是目前亟待解决的热点问题。监测、流行病学和结果数据库(Surveillance,Epidemiology and End Results,SEER)是较为典型的医学数据库,由美国国立癌症研究所(National Cancer Institute,NCI)于1973年所建立,是北美最具代表性的大型肿瘤登记注册数据库之一。
2 SEER数据库
2.1SEER数据获取
SEER数据对所有研究者开放,获取1973-2011期间的SEER数据的手段有3种[4]。
(1)通过SEER*STAT软件的客户端-服务器模式进入互联网(http://seer.cancer.gov/resources/),这是目前最广泛的数据获取手段。
(2)从SEER网站上下载压缩文件,解压缩后可得到相应的二进制数据文件及相关文本数据。
前两种获取方式都要使用由SEER提供的用户名和密码进入网络。
(3)向SEER管理人员申请索取数据库的DVD光盘,可直接获取SEER*STAT软件、二进制数据文件及相关文本数据。不管何种数据获取方式,之前都要签署有关SEER研究数据的协议。
2.2SEER的数据构成
SEER研究数据主要由肿瘤发病率数据、人口数据及数据字典构成。
(1)1973-2011年期间肿瘤发病率研究数据(Incidence)
肿瘤发病率研究数据均按照国际疾病分类肿瘤学专辑第三版(International Classification of Diseases for Oncology Third Edition,ICD-O-3)来编码,并保存为TXT文本格式。
此目录包括4个子目录:
YR1973_2011.SEER9:该目录保存了1973~2011期间由SEER第九登记站提交的部分州县的肿瘤研究数据。具体州县为:亚特兰大、康涅狄格、底特律、夏威夷、爱荷华、墨西哥、旧金山、弗朗西斯科、奥克兰、西雅图和犹他州普吉特海湾。
YR1992_2011.SJ_LA_RG_AK:该目录保存了1992~2011期间部分州县的肿瘤研究数据。具体州县为:圣若泽、洛杉矶、蒙特雷、格鲁吉亚和阿拉斯加农村。
YR2000_2011.CA_KY_LO_NJ_GA:该目录保存了2000~2011期间部分州县的肿瘤研究数据。具体州县为:大加利福尼亚、肯塔基、路易斯安那、新泽西和大格鲁吉亚。
YR2005.LO_2ND_HALF:该目录保存了2005.7~2005.12期间路易斯安那州的肿瘤诊断情况。
这4个子目录中的研究数据均按上述9类肿瘤情况分别组织。
(2)人口数据分年龄段的统计情况(Populations)
人口数据的统计情况也遵循ICD-O-3标准来编码,并保存为TXT文本格式。按两种方法对人口数据进行分段统计。
①以5年为一个年龄段跨度,共划分为19个年龄段组。
②以一年为一个年龄段跨度,从0岁至100岁以上,共划分为101个年龄段组。
此目录中的数据文件与肿瘤发病率的数据文件相对应,分别收集了相应年份跨度和地区的基本的人口统计数据情况。
(3)数据字典(Data dictionaries)
所谓数据字典,可以看作是数据库中所有成分的定义和解释的文字集合,描述了数据库中每条记录所包含的属性意义和取值说明。因此,在数据字典中建立起严密一致的定义非常有助于用户对于数据库的理解和使用。
作为大型肿瘤登记数据库之一,SEER也具有一定的特殊性。
①病例数据的来源时间跨度长,地区跨度广,且数据来源多源化。因此需要数据字典对其记录字段的属性进行一致化和规范化。例如字典中包括患者的中心序列号、原发病灶部位、肿瘤尺寸、肿瘤等级、治疗方案以及死亡原因等字段属性。以“中心序列号”为例,它在北美癌症登记中心协会(NAACCR)的登记编号为380,字段长度为2。该属性描述了所有可报告的恶性肿瘤、良性肿瘤的数量及序列,这些都是可能贯穿于病人发病生涯的疾病信息。在病人的发病生涯中,该序列号可能会发生改变。比如某病人曾被检查出患有一种恶性肿瘤,后来又被检查出患有第二种恶性肿瘤,那么该病人的中心序列号可能会由001变成002。
②医学研究的进步使得人们对于癌症的认识也在不断修正,这也导致SEER在数据采集时考虑的因素要发生变化,以便对病例记录进行更精确地描述。对比发现,在2010年11月之前,每条记录的属性数目为147(包括4个跳空属性);而截至2011年11月,每条记录的属性数目已达155(包括4个跳空属性)。比如,2011年11月之后的版本中,删去了原有的“Birthplace”属性,同时增加了“Birthplace-Country”和“Birthplace-State”属性。再比如,2011年11月之后的版本中,增加了“Breast Subtype(2010+)”属性,即,为了进一步描述乳腺癌的类别和性质,2010年11月之后的病例记录中增加了乳腺癌的亚型属性。
之所以要设置“跳空属性”,是因为这些属性曾被使用过,而随着技术的发展,现已弃之不用,但为了保证与其他字段之间的对应关系,仍保留该属性的原有位置。
另外,由于数据文件均为TXT文本格式,不宜直接处理,故可先用统计分析工具对TXT文本文件进行格式转换。比如利用IBM SPSS Statistics软件将TXT文件转换成SAV文件,以便统计某数据文件的字段总数和记录总数、某离散型数据每个取值所对应的记录数及某连续型数据所有记录值的均值或方差等信息。
3 SEER数据库的应用
3.1主要统计分析报告
SEER主要发布了四类统计分析报告,为肿瘤研究人员提供了完整、权威的分析数据,便于研究者们对全美各个地区、各类人群中的肿瘤患者情况进行系统深入的研究,具有高度的研究参考价值。
(1)癌症的国家年度报告(1975-2013)
本报告提供了美国的癌症发病率和死亡率趋势,每年更新一次,由美国疾病控制和预防中心(CDC)、美国癌症协会(ACS)、美国国家癌症研究所(NCI)以及北美癌症登记中心协会(NAACCR)联合发布。最新报告的发布时间是2013年12月,主要报告了肺癌、大肠癌、乳腺疾病及前列腺癌等肿瘤的发病及死亡情况。
(2)居住在美国的亚裔及太平洋岛国人口的癌症发病率和死亡率情况报告
该报告中,美国国家癌症研究所(NCI)及其合作部门的研究者们发布了居住在美国的亚裔与太平洋岛国人口的癌症发病率、死亡率及阶段分布情况。
(3) SEER癌症统计数据回顾(1975-2011)
SEER癌症统计数据回顾(CSR)是一份可在线获取的年度分析报告,包括大多数癌症发病率、死亡率和生存率的近期统计数据。报告按癌症的不同发病部位或类别加以划分,多以图表形式来呈现。
(4)美国癌症统计数据(USCS)
美国癌症统计数据(USCS)美联邦最全面的癌症发病率统计报告。这份报告统计了源自美国49个州、6个大都会地区及哥伦比亚特区的各登记处的癌症发病率情况,涵盖了全美99%的人口。而癌症死亡率情况更是来全美所有州县及哥伦比亚特区,覆盖了全美所有人口。该报告提供了必要的州县、人口、种族、民族和性别等信息,以便更好地开展全国范围内的癌症预防及控制工作。
USCS由疾病控制与预防中心(CDC)、国立癌症研究所(NCI)及北美癌症中心注册协会(NAACCR)联合发布。该数据的年度报告描述了不同人群的癌症发病率和死亡率的变化趋势,为学者们提供了良好的研究基础。USCS的最新版本于2013年1月发布,报告了1999-2009期间的癌症发病和死亡率情况,数据文件可从CDC网站上获取。
3.2国内外基于SEER数据库的一些应用
SEER信息量庞大,收集的肿瘤病种繁多,为深入研究常见肿瘤提供了强有力的数据支撑。故有大量医学研究利用SEER所提供的数据来进行分析研究,截至2014年11月,引用了SEER数据的学术论文已达8,616篇。近几年国内外引用了SEER数据的部分论文情况如下:
(1)国外文献
Kooby DA[5]等收集了SEER数据库1998~2002年间接受胰腺癌手术的患者11526例,探索胰腺癌术后辅助放射治疗对生存率的影响。研究发现在很大程度上,合适的放疗手段与延长胰腺癌术后生存期密切相关。McDougall JA[6]等收集了SEER数据库2000~2008年间的相关数据并进行相关研究。研究发现,长期使用汀类药物与中老年妇女罹患小叶癌存在一定的关联。Lall RR[7]等收集了SEER数据库1973-2008年间的相关数据并进行相关研究,研究发现,原发性恶性脊髓星形细胞瘤的成年患者较为罕见,患有胶质母细胞瘤且未实施过完全切除手术的女性患者较其对照组而言死亡率显著升高。
此外,SEER数据库能为罕见肿瘤的研究提供足够的数据支撑。Maysa[8]等收集了SEER数据库1973~2005年间罕见的松果体瘤633例,通过研究其发病率、生存率及预后因素、治疗方案等数据得出结论:可根据松果体瘤的临床特征及预后来鉴别其组织类型。并分析了组织学类型、放疗情况及手术切除程度对其生存期的影响[3]。
(2)国内文献
顾伟杰等[9]收集了SEER数据库2004~2009年间临床期分级为T1G1、T1G2、T1G3且原发肿瘤切除术后诊断为阴茎鳞状细胞癌的患者614例。根据病变具体情况,探讨哪些患者需要进行积极的淋巴结治疗。任重阳[10]收集了SEER数据库2004~2009年间接受了曲妥珠单抗治疗的≥66岁的Ⅰ~Ⅲ期乳腺癌患者的资料,探讨了年龄和并发症与是否完成曲妥珠单抗治疗的关系,并发现未完成治疗患者的心脏事件发生比例显著更高。藏丹丹等[11]收集了SEER数据库2002~2005年间美国乳腺癌诊断年龄,并与中国西部某地区的乳腺癌诊断年龄相比较,发现中国乳腺癌患者的诊断年龄较美国年轻,乳腺癌诊断平均年龄和高峰年龄段明显提前,年轻型乳腺癌所占比例明显增高。叶定伟等[12]收集了SEER数据库1975~2003年间前列腺癌的发病情况,发现2000~2003年间美国男性前列腺癌的发病率为170.3/10万,且雄激素依赖性前列腺癌占所有前列腺癌的83.7%,发病率随年龄增长而逐渐增加。
4 总结
4.1SEER的贡献及尚存不足
(1)作为现阶段美国大型肿瘤登记数据库之一,SEER收集了大量循证医学的相关数据,详细记录了就诊者的基本情况、原发病灶部位、肿瘤尺寸、治疗方案、随访情况及死亡原因等信息,为临床医师的循证实践及临床医学研究提供了系统的证据支持和宝贵的第一手资料,为降低全美及全世界的肿瘤发病率、提升人口生活质量做出了积极贡献。
(2)SEER也存在一些不足之处,主要体现在[2]:
①没有关于家族史、既往史、并发症及手术切缘状况、病理学资料的记载,没有局部复发情况的记录。
②在治疗方面的记录不完全.除了有手术及放疗的记录外,无辅助治疗、内分泌治疗、化疗、生物治疗等记录,缺少第一疗程的后续治疗相关记载。
③没有记载乳酸脱氢酶、淋巴结转移数目、全身疾病、血红蛋白水平等重要的预后因素。
4.2展望
人类已进入大数据时代。大数据科学正逐渐成为横跨信息科学、社会科学、网络科学、系统科学、生物医学、心理学以及经济学等诸多领域的新兴交叉学科方向,并已成为科学研究热点[13]。
(1)我国目前处在医疗流程信息化管理和质量控制的初级阶段,尚未开展面向医学大数据的系统研究。大数据时代的到来,既对临床医生、医学研究人员、医疗监管机构等提出了巨大的挑战,也为生物医学研究带来了前所未有的机遇。如何有效地利用这些信息,并最大程度地减少伦理道德等相关问题对个人和公众造成的困扰,是亟待解决的重要课题。
(2)开展实时的健康管理,即通过可穿戴设备对个体体征数据(心率、脉率、呼吸频率、体温、热消耗量、血压、
血糖、血氧、体脂含量等)的实时、连续监测,提供实时健康指导与建议,更好地实施健康管理。
(3)实施更强大的数据挖掘。数据挖掘包括关联分析、聚类分析、分类分析、异常分析等,大数据挖掘可增加把握度以及具备发现弱关联的能力。
(4)医学科学证据的整合、转化和循证医学证据的产生。生物医学大数据有助于产生循证科学证据,例如通过数据对海量健康数据进行整合,进而获得更加可靠的证据;或通过收集网络实时数据,开展“虚拟的临床试验”生产证据等。
(5)以大数据为导向的人群队列研究将成为热点。超大规模队列研究具有大样本(数十万人群)、前瞻性(数十年的长期随访)、多学科、多病种、多因素、整合性、共享性等特点,长期大量的随访可产生大量的人群数据。
参考文献
[1] http://www.moh.gov.cn/guihuaxxs/s10742/201405/886f8 2dafa344c3097f1d16581a1bea2.shtml#
[2] 杨乔,张俊萍. 肿瘤登记数据库的临床应用[J]. 循证医学. 2013,13(4):250-251,256.
[3] 杨玲. 国际与国内肿瘤登记概况[J].中国肿瘤.2005,14 (12):772-775.
[4] http://seer.cancer.gov/resources/
[5] Kooby DA, Gillespie TW, Liu Y, Byrd-Sellers J, Landry J, Bian J, Lipscomb J. Impact of adjuvant radiotherapy on survival after pancreatic cancer resection: an appraisal of data from the national cancer data base[J]. Ann SurgOncol 2013 Oct;20(11):3634-42.
[6] McDougall JA, Malone KE, Daling JR, Cushing-Haugen KL, Porter PL, Li CI. Long-Term Statin Use and Risk of Ductal and Lobular Breast Cancer among Women 55 to 74 Years of Age[J].Cancer Epidemiol Biomarkers Prev 2013 Sep;22(9):1529-37. PMCID: PMC3770184.
[7] Lall RR, Wong A, Dahdaleh NS, Fessler RG, Smith ZA, Lam S. 104 Risk factors and long-term survival in adult patients with primary malignant spinal cord astrocytomas[J]. Neurosurgery Aug 2013;60Suppl 1:154.
[8] Maysa AH,Iyad S,Amar JG,et a1.Pineal gland -tumers:Experience from the SEER database[J].J Neuro -oncol,2009,94(3):351-358.
[9] 顾伟杰,朱耀等. T1期阴茎鳞状细胞癌竞争生存分析[J].中国男科学杂志,2014,28(1):9-17.
[10] 任重阳. 老年早期乳腺癌辅助曲妥珠单抗的持续时间和心脏事件[J]. 临床肿瘤学杂志,2014,32(9):927-934.
[11] 藏丹丹,崔颖等.中国西部地区乳腺癌诊断年龄的抽样分析及中美对比研究[J]. 现代肿瘤医学,2010,18(3):571-573.
[12] 叶定伟,李长岭,前列腺癌发病趋势的回顾和展望[J].中国癌症杂志.2007.17:177-180.
[13] 王波,吕筠,李立明.生物医学大数据:现状与展望[J].中华流行病学杂志,2014,35(6):617-619.
收稿日期:(2015.10.11)
作者简介:章鸣嬛(1980-),女,安徽,上海杉达学院,副教授,博士生,研究方向:计算机应用,上海,201209
基金项目:2012年上海市民办高校重大科研项目(2012-SHHGE-01ZD);2015年IBM大学合作部联合研究项目(D-2111-15-001)
文章编号:1007-757X(2015)12-0026-03
中图分类号:R195
文献标志码:A