基于开源数据库PostgreSQL与云平台构建高可靠性临床研究数据管理系统
2015-01-27薛玉强陈平雁
薛玉强 陈平雁
南方医科大学生物统计学系(510515)
·计算机应用·
基于开源数据库PostgreSQL与云平台构建高可靠性临床研究数据管理系统
薛玉强 陈平雁△
南方医科大学生物统计学系(510515)
目的 使用开源数据库PostgreSQL在云服务器上构建低成本、高可靠性的临床研究数据管理系统。方法 基于阿里云服务器,在开源操作系统CentOS上,采用PostgreSQL数据库,按照临床研究数据管理的完整业务流程构建数据管理系统。结果 本系统实现了用户权限管理系统、eCRF可视化设计器、数据管理过程的全部业务流程,包括留痕功能。结论 依靠云服务器平台所具有的高服务可用性及数据可靠性、PostgreSQL数据库的热备份能力以及完善的标准操作规程,该数据管理系统的可靠性可以得到有效保证。
临床研究 数据管理系统 EDC 开源数据库 PostgreSQL
在临床试验中使用基于网络的电子化数据采集(electronic data capture,EDC)系统,拥有纸质病例报告表(case report form,CRF)无法比拟的众多优点[1],诸如Oracle公司的Oracle Clinical及Inform系统,Medidata公司的Rave系统等等,已经作为成熟EDC在跨国医药企业的临床研究项目中使用[2]。但因昂贵的价格及后期维护费用[3],其在国内医药企业及研究机构的临床研究中并没有得到普及。基于此,选择免费的开放源码软件[4],为我国医药企业及临床研究机构开发经济适用的企业级EDC系统有其实际意义。
系统总体设计
1.云平台提供高服务可用性的Web界面访问
在线EDC系统,需要稳定的网络响应速度和高可用性,而云计算平台的出现较好地解决了这个问题[5]。目前国内公众云平台提供云服务器功能的有腾讯云、阿里云、盛大云、天翼云等,这些云平台标称性能基本一致,如服务可用性为99.95%,数据安全性为99.999%等,除天翼云外,其他云平台均提供边界网关协议(border gateway protocol,BGP)线路,可同时为国内南、北方不同网络用户提供良好的访问速度。本系统选择阿里云作为Web服务平台进行部署与测试,选择的操作系统为开源操作系统CentOS 6.5(64位)。
2.PostgreSQL提供先进的数据库引挚,用于临床数据的存储
EDC系统最核心的功能是研究数据的存储,因而对数据库系统的性能要求较高,目前流行的关系型开源数据库系统包括MySQL、PostgreSQL、Firebird等,本系统将采用PostgreSQL作为数据存储引挚。
PostgreSQL起源于1985年加州伯克利大学的Ingress项目,开源至今经历了15年以上的发展,已经成为一个功能强大的对象关系型数据库系统,是一个数据的完整性和正确性经过验证的数据库架构,因其高可靠性在用户中赢得了良好的声誉,PostgreSQL被誉为“最先进的开源数据库”[6-8]。
PostgreSQL支持大部分SQL2011标准特性及其定义的数据类型,如:整数、浮点数、布尔值、固定及可变长度字符串、时间、时间差和时间戳。PostgreSQL也支持存储二进制大对象,包括图片、声音和视频。编程接口支持C/C ++、Java、NET、Perl、Python和Ruby等常见语言。PostgreSQL可以运行在所有主要的操作系统上,包括Linux,UNIX(包括AIX、BSD、HP-UX、SGI IRIX、Mac OS X、Solaris、Tru64)和Windows[6]。
在数据可靠性和完整性方面,PostgreSQL 8之后的所有版本(当前正式版本为9.3.4),均提供了支持时间点的数据库恢复功能:在线备份与即时恢复(on-line backup and point-in-time recovery,PITR)功能,当主数据库或其操作系统出现异常,甚至是服务器因故宕机,负责备份的数据库服务器可将数据恢复至异常之前,特别是从9.0版本之后,提供了名为“hot standby”的功能[9],在利用日志恢复数据的同时,可以用只读的方式打开数据库,进行查询操作。从而保证了数据库的高可用性及数据存储的完整性。
3.软件即服务(Software-as-a-service,SaaS)的使用模式
本EDC系统将采用SaaS模式[10],用户只需接入互联网,登录后即可使用本系统,无需另外购置软硬件,只需支付一定的服务费用;而系统本身的构建均基于免费的开源软件,因而使用本系统的成本可大大降低。
系统功能及业务流程实现
1.用户权限管理系统
用户权限管理系统涉及权限设计、角色管理、组织管理、用户管理等,在本系统中,主要的角色包括管理员、数据管理员、监查员、研究助理、主要研究者、稽查员,并可根据需要扩展其他角色;按照我国临床试验质量管理规范[11](good clinical practice,GCP)并参照美国联邦法规21章第11款中涉及电子记录的要求[12],分配数据录入、修改、核查、批准、锁定等权限给相应角色,并在系统中记录用户的所有操作日志。
2.eCRF可视化设计器
设计器以单个字段为最小单位,可定义的字段类型包括单行的文本或数字、单选、多选等,涵盖了CRF中所有需录入的字段类型;同时,通过定义该字段对应的CRF页面上的定位、单位及注释等信息,可实现eCRF页面的精细化设计,使eCRF具有与纸质CRF基本相同的页面布局。通过此设计器,普通的数据管理人员或研究者,经过简单的培训后,即可设计eCRF页面。
3.业务流程实现
按照临床研究的数据管理过程,本系统实现了数据录入、程序核查、数据疑问、原始数据核查(source data validation,SDV)、CRF审批、数据锁定六个业务流程,并将纳入的受试者划分为数据待录入→录入中→完成录入→完成SDV→完成审批→已锁定六种状态,并且限定了严格的逻辑判定标准,使每一受试者的数据均需按此顺序进行操作,同时按照角色权限和数据管理实际情况,实现了完成录入状态到录入中状态的有条件回退。
临床研究项目实测结果
1.建库测试
采用eCRF可视化设计器设计入选排除标准、人口学特征、既往病史、用药史、基线时的实验室检查等几个基本CRF页面,构成本研究项目的录入页面。
2.测试录入与痕迹记录
共测试录入5份数据,所有的痕迹记录可在线浏览;对于已录入数据的修改,还需提供修改原因;系统还将记录修改时间、修改人ID及其IP地址。
3.测试SDV与审批
SDV及审批针对每一个受试者的eCRF,且只有经过SDV的eCRF才可进行审批操作,这是系统固化的业务流程,未进行SDV的eCRF进行批准操作时,系统会给予警示并禁止该操作。
4.测试锁定
使用数据管理员身份登录系统,选择已经由研究者审批的eCRF进行锁定操作,eCRF页面中的录入表单全部转换为只读状态,除数据管理员外,其他任何人均无法再对该份eCRF进行数据的录入或修改操作。
5.可用性及数据安全性
系统在云平台部署至今已超过半年时间,期间未遇到服务中断情况;系统内数据执行每天增量备份,经不完全测试,增量备份文件内的数据均可完整恢复到系统中。
讨 论
本系统采用开源数据库PostgreSQL,代码强健,稳定性和安全性都有保证;云平台与PostgreSQL数据库的热备份能力及完善的标准操作规程相结合,该数据管理系统的可靠性可以得到有效保证;同时,系统开发遵循了GCP及FDA相关要求,并将规范化的数据管理流程固化到系统中,有助于提高数据管理过程的质量;再者,系统本身部署快,而eCRF采用可视化设计器进行设计,eCRF与数据库同时设计生成,方便易用效率高。
另外,作为一个完全基于开源软件构建、使用SaaS模式提供服务的EDC系统,该系统的使用及后期维护费用将大大降低,有利于EDC系统在我国的普及应用。
本系统存在不足之处,目前系统功能尚在完善中,电子签名功能尚未实现;另外,由于开发时间短、测试少,仍需开发者与使用者密切沟通,从而使系统不断完善。作为一个新系统,合规性的验证需要由软件及计算机系统的验证来完成,涉及内容多、需多方配合。
[1]Brigitte Walther,Safayet Hossin,John Townend,et al.Comparison of Electronic Data Capture (EDC) with the Standard Data Capture Method for Clinical Trial Data.PLoS One,2011,6(9):e25348.
[2]Leroux Hugo,Mcbride Simon,Gibson Simon.On Selecting a Clinical Trial Management System for Large Scale,Multi-Centre,Multi-Modal Clinical Research Study.Health Informatics:The Transformative Power of Innovation.IOS Press,2011,168:89-95.
[3]Jatin Shah BAMS,PDCR,Dimple Rajgor MSc,et al.Electronic Data Capture for Registries and Clinical Trials in Orthopaedic Surgery:Open Source versus Commercial Systems.Clinical Orthopaedics and Related Research,2010,468(10):2664-2671.
[4]Bruce P.The Open Source Definition.Open Sources:Voices from the Open Source Revolution.O′Reilly Media,1999:171-188.
[5]Michael Armbrust,Armando Fox,Rean Griffith,et al.Above the Clouds:A Berkeley View of Cloud Computing.Technical Report No.UCB/EECS-2009-28.
[6]Wikipedia.PostgreSQL.http://en.wikipedia.org/wiki/PostgreSQL[2014-06-20].
[7]Troels Arvins minimalistiske web-base.Comparison of different SQL implementations.http://troels.arvin.dk/db/rdbms/[2014-06-20].
[8]Wikipedia.Comparison of relational database management systems.http://en.wikipedia.org/wiki/Comparison_of_relational_database_management_systems[2014-06-20].
[9]Simon R,Hannu K.PostgreSQL 9 Administration Cookbook.Birmingham:Packt Publishing Ltd,2010,316-320.
[10]袁志俊,夏红霞.基于SaaS模式在线软件系统开发方案的研究.计算机工程与设计,2009,30(11):2714-2717.
[11]国家食品药品监督管理总局.药物临床试验质量管理规范(局令第3号).http://www.sda.gov.cn/WS01/CL0053/24473.html.[2014-06-21].
[12]U.S.Food and Drug Administration.CFR-Code of Federal Regulations Title 21.Available:http://www.accessdata.fda.gov/scripts/cdrh/cfdocs/cfcfr/CFRSearch.cfm?CFRPart=11&showFR=1&subpartNode=21:1.0.1.1.8.2.[2014-06-21].
(责任编辑:郭海强)
△通信作者:陈平雁,E-mail:chenpy99@126.com