20 年磨一剑——记北京积水潭医院骨与软组织肿瘤数据库的建立
2015-01-22牛晓辉李远徐海荣
牛晓辉 李远 徐海荣
. 专论 Special article .
20 年磨一剑——记北京积水潭医院骨与软组织肿瘤数据库的建立
牛晓辉 李远 徐海荣
骨肿瘤;软组织肿瘤;数据库
骨与软组织肿瘤属于肿瘤学的范畴。当前针对肿瘤的研究,不管是基础还是临床,都强调循证医学的重要性,循证医学的根本是完整可靠的数据记录,而数据记录的集合就是数据库。就临床而言,肿瘤学数据库可分为两种:一种是以流行病学研究为主要目的肿瘤登记数据库,另一种以临床、科研为目的,研究疾病本身特点及治疗疗效的专业单 ( 或 ) 多病种数据库。目前各医院尽管都有自己的病历管理系统,但当前的医院病历系统很难涵盖临床和科研需要的全部参数,另外也不能随时更新以满足多中心临床研究为目的的参数。这种专业单 ( 或 ) 多病种数据库,针对的是某一 ( 类 ) 特定疾病,涉及患者的一般资料、诊断治疗、随访记录和预后情况等,涵盖疾病的发病、治疗、转归等过程。骨与软组织肿瘤相对是少见疾病,但在北京积水潭医院这样的专科医院,拥有全国乃至世界上最大的病例数量,其病例的广度和深度是综合医院难以比拟的,所以建立一个这样的数据库是极为迫切的。笔者以北京积水潭医院骨与软组织肿瘤数据库的建立为契机,阐述国内外骨与软组织肿瘤的发展状况和方向。
一、骨与软组织肿瘤数据库的现状
( 一 ) 国外肿瘤数据库情况
为了便于医学科学数据资源的检索、交换、共享,国外以肿瘤登记制度为基础,已经建立了许多大型数据库,并且已经收集了大量的病历资料,这些数据库中有些包括骨与软组织肿瘤患者信息。通过定期发布肿瘤报告或者在线查询方式公布数据。
1. 监测、流行病学和最终结果数据库 ( surveillance,epidemiology and end results,SEER ):美国癌症研究所 ( National cancer institute,NCI ) 下属的 SEER 项目是全球最具代表性的大型肿瘤登记注册数据库。登记数据包括患者基本情况、原发病灶部位、肿瘤形态、分期、第一疗程治疗情况、随访状况、死亡原因等。目前覆盖 28% 的全美人口。通过网页浏览方式提供不含个人信息的肿瘤病例数据资料 ( http://seer.cancer.gov )。SEER 是目前肿瘤临床研究领域最重要的资源之一,如果使用其数据库进行骨与软组织肿瘤研究就会发现,其中没有关于家族史、既往史、并发症、手术切缘、病理学资料信息;其记录的治疗方式包括手术、放疗,而不包括辅助治疗、内分泌治疗、化疗、生物治疗等,并且缺少第一疗程后的后续治疗;在临床资料部分也不包括血红蛋白、乳酸脱氢酶等化验检查值及淋巴结转移数目等指标。
2. 美国国家癌症数据库 ( National cancer data base,NCDB ):美国外科医师学会 ( American college of surgeons,ACoS ) 和美国癌症协会 ( American cancer society,ACS ) 下属的癌症委员会 ( commission on cancer,CoC ) 建立了美国国家癌症数据库。美国 70% 新诊断的癌症病例登记到 ( national cancer database,NCDB )。从 1989 年开始,NCDB 已经收集到大约 2900 万条病历资料。与 SEER 内容相似,数据库包括患者的基本信息、肿瘤分期、肿瘤的组织学特征、第一疗程治疗方式和预后等信息。
3. WHO 死亡率数据库 ( WHO Mortality Database ):世界卫生组织的死亡率数据是由各会员国从其民事登记系统中报告的年龄、性别和死亡原因汇编的数据。公众可以通过浏览器访问在线数据库,查询不同国家、不同年份、不同性别、不同死亡原因的死亡人数和年龄标准化死亡率。还可以根据用户的需要,进行详细的死亡原因汇总。
4. 五大洲肿瘤发病资料 ( cancer incidence in five continents,CI5 ):五大洲癌症发病率是国际癌症研究所 ( international agency for research on cancer,IARC ) 和国际癌症登记协会 ( international association of cancer registries,IACR ) 的合作项目,每 5 年出版一系列的专著,成为国际癌症发病率数据的参考来源。也可以通过网上数据库进行查询 http://ci5.iarc.fr。全球各地的肿瘤登记处向 CI5 提交登记资料,最新资料中包括中国14 个登记处报告资料。资料包括:患者基本信息、肿瘤信息、医院信息、随访信息 4 部分,约 40 项。主要记录流行病学方面信息,不包括患者详细治疗信息。
5. GLOBOCAN 数据库:这也是国际癌症研究所下属项目。该项目的目的是在国家级提供主要癌症类型的发病率和死亡率的估计值。目前为 GLOBOCAN 2012。
针对城镇化进程给农村教育信息化带来的冲击和问题,以及对农村信息化教育现状的了解和分析,笔者提出如下几点策略,以期为城镇化进程中的农村教育信息化发展提供借鉴。
6. 意大利 Rizzoli 骨与软组织肿瘤数据库:意大利博洛尼亚 Rizzoli 骨科学院的骨与软组织肿瘤数据库,在网站上公开的资料,可用其查到某个特定肿瘤的性别分布、年龄分布、部位分布等流行病学特点。
7. 其它未在互联网上发布的数据库:除了 Rizzoli 骨科学院外,很多骨与软组织肿瘤治疗中心都建立了自己的病历数据库。这些专业骨与软组织肿瘤数据库,详细记录了患者的临床病理影像随访资料。但仅供本单位医务工作者使用。
( 二 ) 国内肿瘤数据库情况
1. 中国肿瘤防治数据库:我国肿瘤数据库最初是 1963 年在上海城区建立肿瘤登记数据库,之后江苏省启东、北京等地相继建立了肿瘤登记处。到 2013 年全国肿瘤登记中心收集了 219 个登记处恶性肿瘤的登记资料。将数据按城乡、地区、性别分层,计算各层年龄别肿瘤别发病率和死亡率,然后根据全国实际人口,估计全国主要恶性肿瘤以及合计的发病、死亡相关数据,并对其情况进行描述。虽然每年发布肿瘤发病率情况报告,但网站长期没有更新,无法查询实时信息。
2. 北京积水潭医院骨与软组织肿瘤数据库 ( 后面介绍,此处略 )。
3. 其它未在互联网上发布的数据库:医学专业数据库在国内发展相对缓慢,不同地区不同医院发展极不平衡。患者数量多、经济发达、医院重视程度高的医院往往更重视医疗数据的积累,愿意投入资金,进行专业数据库建设。笔者在工作交流中可知,只有为数不多的骨与软组织肿瘤治疗中心,以医院科室为单位建立自己的数据库,管理患者资料,可以实现简单查询,但是难以表现患者复杂的诊疗过程。就笔者所知,目前除北京积水潭医院骨与软组织肿瘤数据库外,目前,国内还没有在互联网上可以查询的骨与软组织肿瘤数据库。
二、电子病历系统与数据库关系
为了提高医院管理水平,各地医院都纷纷建立了以医院为单位的医疗信息化系统。医院信息系统( hospital information system,HIS ) 是一个庞大而复杂的现代化信息管理系统,它包含财务、人事、住院、门诊、挂号、医技、收费、分诊、药品管理等多个子系统。随着医院内部业务流程的不断梳理和整合,HIS系统被赋予更多的功能,HIS 与实验室信息管理系统 ( laboratory information management system,LIS ),医学影像存档与通讯系统 ( picture archiving and communication systems,PACS ),放射信息管理系统 ( radioiogy information system,RIS ),电子病历 ( electronic medical record,EMR ) 等外围模块不断融合。HIS 系统正是管理患者信息的利器,曾被认为最终将代替专业数据库。但在实际工作中笔者见到的是现实与理想的巨大差距。HIS 系统的特点如下:( 1 ) HIS 系统主要用于医院管理,专业数据库着重与疾病的临床治疗及科研;( 2 ) HIS 系统针对整个医院设计,没有为某一种 ( 类 ) 疾病进行定制,无法规范此类疾病诊疗信息所需参数。难以检索查询;( 3 ) 各个医院 HIS 系统不同,数据格式不同,数据难以交换共享;( 4 ) 在现行法律法规规范下,为了保证患者资料的安全性,所有医院 HIS 系统中的病历资料无法进行随意检索,导出;( 5 ) 各地医院 HIS系统大多建立于 2000 年后,历史资料少;( 6 ) 无法通过互联网共享数据。因此,HIS 系统目前仍然只能作为专业数据库数据来源,而且在多数医院专业数据库无法直接联入 HIS 系统取得数据,只能单独输入数据。
三、北京积水潭医院骨与软组织肿瘤数据库发展历史和特点
( 一 ) 北京积水潭医院骨与软组织肿瘤数据库发展历史
20 世纪 90 年代前期,笔者借鉴国内外发表文章中的数据,结合在临床工作中,总结提炼骨与软组织肿瘤相关参数约 70 个,制作了表格式手写病历,并填写纸质表格进行登记、存档。期间登记约 2000 例患者信息。但是由于无法进行编目、索引,无法进行有效查询,这些只是一些“死”数据。
20 世纪 90 年代中后期,随着计算机技术发展,医院中出现 386 计算机及微软 DOS 操作系统。为了让积累的数据“活”起来,选择当时流行的 dBase 数据库系统,建立第一代单机版骨与软组织数据库。dBASE 是第一个在微型计算机上被广泛使用的关系型数据库管理系统,但当时程序设计人员水平普遍不高,在设计中根本没有使用其关系型数据库特点,实际建立的是二维数据表。对于同一患者多次入院治疗,同一患者多种疾病,同一疾病多部位,同一患者多次手术等如何体现无法解决。在数据输入过程中,大量字段需要手工输入,容易出现错误。也没有良好的数据检索程序支持。在此阶段将约 3000 例病例数字化。
进入 21 世纪,DOS 操作系统逐渐消亡,Windows XP 系统成为主流。dBASE 没能成功转换到 Microsoft Windows 平台并逐渐被 Paradox、Clipper、 FoxPro 等替代。从 2002 年,我科重新开发骨与软组织肿瘤数据库。此时互联网技术刚刚兴起,网络人口普及率 < 2.5%,因此数据库仍定位为单机版。为延续原 dBase 数据库系统,采用 Visual FoxPro6.0 数据库系统,此系统仍然是关系型数据库,兼容 dBase 数据库,可进行图形界面的可视化编程。此次开发人员为非专业人员,由本科室内熟悉数据库开发的医生担任。开发过程中将每一患者记录的参数增加到 150 余个,丰富了数据库内容。输入模式进行改变,减少数据输入过程中直接填写内容,将大部分内容改为通过下拉菜单选择输入,减少人为错误。将所有参数分为 7 个数据表,建立简单逻辑关系,分别输入,部分解决了同一患者多次入院治疗问题,但由于程序设计水平问题,难以实现多表间复杂逻辑关系,同一患者多种疾病,同一疾病多部位,同一患者多次手术等问题仍无法解决。而软件中查询功能也较薄弱。2003 年完成开发后,进行病历数字化。至 2009 年,纸质登记表内容录入数据库,完成约 6000 例。
2010 年互联网技术迅速发展,互联网人口普及率达到 28.9%。为使数据可以实时更新,随时随地输入查询。将数据库上网,开发 WEB 模式数据库。此次开发由专业互联网数据库服务商单独承担,服务器端采用MySQL 关系型数据库及 Java Server Pages ( JSP ) 动态网页技术。开发过程基本延续原有数据库结构,字段进一步增加到 200 项,进一步优化了输入方式,丰富了查询手段,实现了多表间交叉查询,使用不同权限的登录密码完成对数据库管理。但是由于开发的专业人员对疾病诊疗过程完全不了解及设计经费不足等原因,依然没有实现多数据表之间复杂逻辑关系,同一患者多种疾病,同一疾病多部位,同一患者多次手术的存储问题仍无法解决。此版数据库可通过互联网,需要密码登录后才可以使用,没有提供公众访问的页面。使用此数据库,到 2012 年,完成 14 500 余例病历数字化。
2012 年为向公众提供真实、免费的骨与软组织肿瘤流行病学信息,北京积水潭医院骨肿瘤科建立了一个免费的在线原发骨肿瘤数据库网站 ( http://www.sarcoma-jst.org ),此网站构建于 Word Press 的门户网站,使用 Php 语言和 MySQL 数据库。由于后台使用不同数据服务器,需要定期将数据库内数据导出,再导入 Word Press 数据库,不能达到实时更新效果。
2013 年开始,针对以往数据库开发中遇得到困难,再次升级数据库。此次由熟悉程序设计的本科室医生与专业互联网数据库服务商共同开发,服务器端采用 Microsoft SQL Server 2008 R2 数据库服务器及 ASP.NET技术。本次开发调整了数据表结构,重新制定了各个数据表之间的逻辑关系,完全解决了同一患者多种疾病,同一疾病多部位,同一患者多次手术的记录问题。在设计过程中采用模块化方式,便于后期数据库修改维护。这一版数据库完成同时,除提供科室内人员登录使用,还开通了针对公众的免费网站 ( http://www.sarcoma-jst. net ),提供不包括患者信息的流行病学资料查询。至 2015 年,共完成 17 000 余病历的数字化工作。
( 二 ) 北京积水潭医院骨与软组织肿瘤数据库特点
1. 安全可靠性:数据库位于云主机上,每个主机数据保留 4 份,实时存储于集群中的若干台服务器上,即使同时损坏 3 份数据,也不影响主机的正常使用,系统可靠性达 99.95% 以上。为保证数据安全,还定时进行了人工数据备份。数据库设计采用底层数据库、网络应用服务器、用户客户端三层结构,杜绝用户直接访问底层数据服务器。用户分为不同级别,通过密码登录,只能完成本级别功能。
2. 稳定性:采用浏览器和服务器结构 ( B / S )。用户表示层、业务逻辑层、数据访问层分离,当改变其中某一层次时,不会影响其它两层的工作。
3. 可扩展性:本系统采用模块化原则,分为数据库输入、查询、维护模块。信息存储也按照模块方式进行,分为:医疗机构、科室、患者信息三级模块;患者信息内又包括:住院信息、诊断信息、疾病部位、手术信息、化疗信息、随访信息等模块。最终到每一个字段都成为单独模块。通过不同模块组合完成业务逻辑。在必要条件下也可由单独模块完成业务逻辑。
4. 易维护性:系统功能模块相互独立,修改单一模块不会影响其它部分功能。需要根据用户需求改变的复杂的数据处理位于中间业务逻辑层,对其修改不会影响底层数据访问层及表现层。降低了维护成本和维护时间。
5. 先进性:参数字段选择,采用业界成熟的浏览器和服务器结构 ( B / S ),三层体系结构,面向对象的设计方法。采用 Microsoft SQL Server 2008 R2 关系型数据库,实现多表之间复杂逻辑关系,完美解决了对于同一患者多次入院治疗,同一患者多种疾病,同一疾病多部位,同一患者多次手术信息存储问题。采用结构化查询语言 ( structured query language,SQL ) 进行存取数据以及查询、更新和管理关系数据库。字段内容容量及查询方法多样都优于国外同类数据库。
6. 标准化:数据以标准化字段形式体现,目前每位患者包括约 200 个字段。字段内容 90% 以上为标准化,通过单 ( 多 ) 项选择进行输入,保证数据标准、正确。字段设计参考 SEER 等标准肿瘤数据库,其中诊断项目参照 WHO2013 最新骨与软组织肿瘤分类和 icd10 分别编码,以保证将来与国外相关数据库交流的可行性。从患者入院、化疗、手术、出院、随访等各个环节,建立了完整标准的数据收集机制,保证数据实时更新及数据完整性。
7. 易用:检索方式多样,界面清晰。输入界面交互性好,以选择为主,减少手工输入内容,操作方便,可以被大部分中等以上文化程度的人理解和使用。
8. 实时查询:采用浏览器和服务器结构 ( B / S ),数据库中内容输入或修改后可以实时查询。
9. 独立 / 共享:此系统虽然是单中心开发,但在研发起始就规划为可以提供多中心使用。其数据存储及检索应用都可以满足多中心同时独立使用或数据共享使用。
( 三 ) 发展方向
北京积水潭医院骨与软组织肿瘤数据库的建立是一个起点,它标准化了数据库模型、规范了数据收集流程、促进了数据管理,实现了数据共享、发布了共享信息。“一花独放不是春,百花齐放春满园”,在使用数据库、享受数据库提供的便利同时,笔者向全国骨与软组织肿瘤专业医生推广,免费使用此数据库,使每一名医生挖掘到数据的财富。把骨与软组织肿瘤数据库发展成为大数据应用平台,提供真实的、专业的、权威的、先进的、可靠的、实用的、有指导意义的数据。将来的发展方向,还需要从以下几个方面开展:
1. 建立良好运行机制:数据库建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合。它包括数据库的管理、研发、运营、维护、使用等各个方面,是数据库的顶层设计。需要协调互联网服务提供商、数据库运营商、提供数据的医疗单位、使用数据的用户等之间的责任、权利、义务等关系。特别是发展为多用户系统后,多个用户之间数据的独立使用和数据共享之间关系需要协调。
2. 规范建设标准:没有标准就没有系统。建立覆盖整个骨与软组织肿瘤领域、不断动态更新的数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。
3. 搭建数据共享平台:数据只有不断流动和充分共享,才有生命力。在以往的数据库研发及运行过程中,投入了大量的人力及资金,这也是曾经限制众多医院建立数据库的难题。但随着互联网企业商业模式的转变,与互联网技术提供商协作机制也发生变化,在技术研发及维持数据库运行方面的费用直线下降,甚至可以给用户提供免费数据共享平台。已有单中心数据库的单位可以通过数据集成,实现各级各类信息系统的数据交换和数据共享。使单中心数据库向多中心数据库发展,并进一步实现向大数据平台的转变。
4. 开发一系列数据应用:数据的应用主要是指对历史数据的利用。包括对数据的一般性检索和统计分析、BI 数据挖掘。更重要的是为临床及科研工作提供途径、工具、手段和方法来利用这些数据,这才能体现大数据的价值。
5. 数据收集方式的进步:数据收集是大数据的基础。目前只有大医生或大医院才关注数据库建设,而临床工作的繁重让绝大多数一线医生无暇顾及数据的收集。他们需要的是高效率、简单易行的临床辅助工具,而不是在原有工作上再增加额外的负担。因此,如何让作为医疗服务主体的医生接受数据库、建设数据库、使用数据库才是数据库发展的前提。数据的收集需要解决数据录入和访问的快捷问题,才能得到作为使用者的医生的拥护。联通各个医院封闭的 HIS 系统,建立兼容性数据接口是努力方向。
6. 人才培养:大数据时代需要三个方面人才,一是技术相关人才,包括 IT、系统、硬件和软件;二是数据相关人才,包括统计、数学、建模、算法;三是业务,就是要有一定的专业医学知识。建立大数据的数据存储本身就需要技术能力,但是怎么通过数据去做分析?这就需要数据能力。怎么确定建模或者分析的方向,这就需要业务能力。在数据库系统开发过程中,需要的技术人员就不只是 IT 方面的技术人员,还要有专业医生密切参与才能够把这个系统建好,否则根本无法掌握一个系统发展方向。
四、骨与软组织肿瘤数据库对于专业发展的意义
骨与软组织肿瘤数据库的建立,需要建立者对疾病的整个诊治和随访过程有详细深入的认识。因此,数据库的设计需要包罗临床所需要的几乎全部参数。在使用过程中,需要对患者的数据记录记载详实。另外,复查系统的完善,不仅提示患者应按时间来定期复查,也使得医生对于患者的整个诊治过程有更全面的理解。以上三点均从侧面促进了疾病诊治水平的提高。现在的数据库已不是孤立的数据库,由基础数据生成的流行病学数据可以供专业的和非专业的人士免费查询,其数据还可以与影像学数据和组织库数据进行连接,以保证更深层次的需求。完善的数据库对于医学科学研究的发展有着重要的意义,面对数据库,在科研选题和立项上不仅为研究者提供了更多想法,而且为科学研究直接提供数据支持,这些数据可以直接为第三方检验提供支持,杜绝医学造假。笔者相信:骨与软组织肿瘤数据库的建立,最终会从临床和科研两个方面促进本专业的健康发展,最终体现自身良好的社会效益和经济效益。笔者呼吁,所有有志于骨与软组织肿瘤事业的医疗人员和科研人员加入到专业数据库的建设中来,为我国骨与软组织肿瘤事业的进一步发展而努力。
( 本文编辑:李贵存 )
Establishment process of bone and soft tissue database of Beijing Jishuitan Hospital: nearly 20 years experience
NIU Xiao-hui, LI Yuan, XU Hai-rong.
Department of Orthopedic Oncology Surgery, Beijing Jishuitan Hospital, 100035, PRC
Cancer database is dedicated to understand the cancer incidence, the treatment and the prognosis. Eventually, the data are to develop and improve cancer prevention and control strategies for the government. Due to the low incidence of bone and soft tissue tumors, the diagnosis and treatment have always been difficult. To establish a database of bone tumor is much more difficult than to establish a general cancer database, such as lung cancer, breast cancer database. Department of orthopedic oncology surgery ( Beijing Jishuitan Hospital ) is one of the earliest professional centers in China exclusively treating bone and soft tissue tumors. The setup of this database generally reflects the establishment of the basic profile of the bone and soft tissue tumor database of China. Current papers describe the basic development of database of tumors at home and abroad, and introduce the currently widely used hospital information system. And its main features are illustrated as well. The database of Beijing Jishuitan Hospital can be traced back to 1977. It has gone through the paper registration, stand-alone and network version of the development process. The basic characteristics can be summarized as follows: secure, stable, scalable, easy to maintain, advanced, standardized, easy to use, real-time inquiry, independent / share. Lastly, prospect of its development is introduced including the establishment of well-functioning mechanisms that regulate construction standards, setting up of datasharing platform for the development progress of a series of data applications, data collection methods, and personnel training aspects. It is worth noting that we are inviting all national experts focusing on bone and soft tissue tumors to use this database for free.
Bone tumors; Soft tissue tumors; Database
10.3969/j.issn.2095-252X.2015.09.002
R738.1
100035 北京积水潭医院骨肿瘤科
2015-08-14 )