医疗大数据交互平台数据规范化质控管理方案探讨
2022-06-30陈立雪CHENLixue王媛媛WANGYuanyuan郝永秀HAOYongxiu吴红萍WUHongping李蓉LIRong迟洪滨CHIHongbin
□ 陈立雪CHEN Li-xue 王媛媛WANG Yuan-yuan 郝永秀HAO Yong-xiu 吴红萍WU Hong-ping 李蓉LI Rong 迟洪滨CHI Hong-bin
随着医院信息化建设的快速发展,应用于医疗卫生领域的信息系统及大数据平台不断涌现[1],这些信息系统和数据平台在获取临床诊疗信息和医疗卫生管理数据方面发挥着重要作用[2]。以辅助生殖技术(assisted reproductive technology,ART)为例,美国疾病预防控制中心自1995年起使用国家辅助生殖技术监测系统(national ART surveillance system,NASS)收集ART 数据,并实现与其他人口与健康监管系统进行数据匹配共享,从而对辅助生殖技术以及使用该技术生育的后代情况进行有效的监测和管理[3]。相比而言,我国相关领域的信息化建设亟需有效的技术手段支持,以实现生殖健康及重大出生缺陷防控信息化产品的快速发展[4]。
我国是出生缺陷高发国家,科技部从“七五”开始就一直对出生缺陷病因探讨、临床防治技术研发,以及部分防控出生缺陷的干预技术临床转化和应用相关研究提供了诸多专项资助[5]。为了整合覆盖孕前、产前到出生后的全生命周期的出生缺陷数据集,国家卫生健康委统计信息中心牵头,通过分布式架构的云平台[6],建立集临床数据库、生物数据库、基因数据库等于一体的多维度出生缺陷数据库集群。从而建立生殖健康及重大出生缺陷信息档案[7],为我国出生缺陷防治提供科学依据和手段,推动出生缺陷防控工作统筹规划。本研究以“生殖健康及重大出生缺陷防控研究”的大数据平台建设为切入点,探讨建立相对统一的大数据交互平台质控管理方案,在不断改善数据质量的同时,实现生殖健康数据共享。
资料与方法
重大出生缺陷大数据云平台的应用研发是基于微服务的研发架构,通过定制化的数据对接和采集接口,实现高度解耦的功能设计、模块建设和服务调用[6]。鉴于不同数据库的数据格式、数据类型及数据维度上的差异,云平台的智能接口系统通过高度自由的可配置界面,支持不同终端、不同渠道、不同规模的数据采集,结合区块链技术实现上报数据的安全存储、不可篡改与追踪溯源。同时通过多样式应用程序界面(API,Application Program Interface)的提供,实现不同数据库间数据的协作与调用。基于以上系统技术构架,结合数据中心管理者和系统终端用户的需求,建立一体化的质控管理方案。
遵循由美国著名统计学家沃特·阿曼德·休哈特(Walter A. Shewhart)提出,统计学家威廉·爱德华兹·戴明(William Edwards Deming)进一步完善的“策划-实施-检查-处置”循环(“Plan-Do-Check-Act”cycle,PDCA cycle),以及ISO9001 质量管理体系要求的过程、方法,建立医疗大数据交互平台及切实可行、较为全面的质量检查规则。
1.数据收集方案(Plan)。搭建一套稳定的大数据交互平台,首先需要明确数据用途与需要采集的数据内容。针对涉及多学科、多病种的综合数据平台,设计样本唯一、且可用于信息交互的样本编码。具体数据格式规范根据数据内容及特点设置为符号、语言文字、指令代码等形式,尽量保证数据以友好的形式展示给使用者。为了保证平台数据的自动识别和一致性,课题组提前准备好相关的培训方案,以保证使用者能够清楚了解数据信息含义,面对同一个事实,不会出现不同版本的数据。
1.1 数据准备方案。依照数据来源,以规范“数据上传方”与“数据接收方”双方数据及传输标准为基础,按照数据产出和流转的过程制定质量控制策略,详见表1。
1.2 风险防范。(1)链接多学科或多病种数据的统一化处理方案。按照建设进度分类,交互平台涉及的数据库主要包括建设中的数据库和已建成的数据库。PDCA 循环可以处理平台交互可能的风险。P 为数据库规划方案,对于未搭建数据平台的学科或病种可直接以本质控方案为建设基础,设计统一编码、搭建数据平台;对于已建成的数据平台的,尤其是已经有一定数据存量的数据平台,应该准确选择诸如证件号、出生日期、姓名等多项备选编码,为统一做准备。D 为不同数据库的交互合并;需要注意平台交互是需要使用唯一编码,但是不能是仅一项编码;只有多项联合验证与模糊匹配详解和的方式,才能保证合并后数据库的准确性并减少因无法合并造成的数据损失。C 为交互后的逻辑校验,使用医疗检查或者建病历等日期类标识,加上年龄、性别、证件号码提取信息等进行逻辑校正,检查交互结果的准确性和可靠性。A 为交互结果报告与处理意见,对于可匹配的,由系统自动生成交互表(内含各数据平台的唯一编码及对应关系);不可匹配的给出原因,并将结果反馈至各学科或病种数据库建设者,对系统进行漏洞修复或平台升级;所有结果应编制生成统计报告,作为后续平台使用和数据分析的基础。(2)风险评估。首先,从隐私数据安全性、软件运行环境安全性、漏洞修复机制和硬件维护4 方面进行数据收集体系的安全性评估。其次,为避免平台正式运行后,因即时或长期的数据量限制引发的异常情况发生,制订数据量极限值。再次,考虑到大数据平台实际运行中各个环节可能出现的信息偏倚或错误,正式启动实施之前,应对软件中涉及的重点数据项容错率进行合理的评估,并应用于后续的数据质控之中。(3)数据测试。在正式数据上传之前各方应协商数据上传测试方案;制定灾难数据方案,至少2 轮的数据测试与沟通后可开始正式的数据上传。进而评价已建立的软件构架是否符合设计方案和实际预期。此外,标记数据风险点作为主要的质控内容在后续数据监测中使用。
表1 接收方与上传方的数据准备方案
2.具体实施(Do)。数据平台设计中必须涵盖的数据结构包括:样本的唯一编码,数据采集时间点,计划采集的数据项及结果;以及根据平台的设计特点,重要指标应按照统一的标准进行归类。数据采集与传递过程中,应确定数据平台统一的样本纳入排除标准;所有负责数据采集传递的相关人员,经过均质化的培训后,对数据标准的理解一致。之后按照计划的数据上传或接收模式进行真实样本数据的上传与接收;同时定期汇总数据采集情况,并反馈。
3.数据质控(Check)
3.1 完整性检查。根据不同数据平台的建设需要,明确设置每个样本必填的数据项。必填数据项的完整性检查,可优先通过软件系统设置智能的质控检查。系统自查时,发现存在必填项缺失的样本,应赋予质控不合格的标志。若软件系统不具备自动纠错的功能,则需通过人工检索的方式进行完整性检查。无论用系统自查还是人工纠错,凡是发现必填项有缺失的样本,质控结果均为“不合格”。选填数据项可通过计算数据项完成率进行完整性检查。计算时注意剔除因样本自身限制而无法填写的缺失数据。
3.2 逻辑性检查。逻辑性检查指相关联的数据项中所填信息的逻辑关系是否正确。针对数据平台中各数据项类型的不同(是否结构化),需使用不同方法进行逻辑检查。结构化数据的逻辑检查方法主要包括:软件系统逻辑自查、逻辑互查和人工合理性纠错三方面。
非结构化数据通常是数据质控的难点。针对这部分数据,应通过语言处理技术,对文本数据后结构化。根据提取到的重要信息生成新变量,之后再对所有数据项进行逻辑性检查。不符合逻辑的数据条目再次核查,并争取追溯原始数据。需要注意,逻辑性检查中,可能由于逻辑规则设定欠完善,发现一些“假阳性”的错误。因此,有些检查出的逻辑问题不能直接认定为数据错误或质控不合格,而是标记为“建议再次核查”。
3.3 准确性检查。数据上传方、数据接收方和平台交互方需要做三方查验,通常按照不低于5%的比例对数据样本进行抽查。重点核对数据项定义内容是否有偏差、样本的医疗逻辑是否合理。三方根据数据核查结果改进数据质控方式,校正数据库或定义等相关内容。上传方、接收方和交互方每年至少有1 次的沟通交流形式,交流数据相关内容,以期改进。
3.4 交互结果统计与数据导出。在完成数据质控检查的同时,数据库交互软件本身的稳定性也需要质控。数据导出是把平台中的数据导出成可供进一步分析使用的文件格式(excel 等)。软件应该提供数据导出功能。当大数据云平台有一定量的数据积累后,应定期通过导出的功能核查导出阶段是否有数据损失。若发现异常,需联系软件公司处理漏洞。
4.云数据处置(Act)
4.1 数据清洗。基于不同数据平台建设用途的不同,有的样本数据来源是可溯源或重新核查的,而有的即使发现问题也难以重新核对原始数据。因此,数据质控后,需要根据数据情况和质控结果的不同分别进行数据清洗,包括:对缺失值和异常值的溯源填补;关键变量的逻辑校正;采用统计学方法根据数据缺失的机制和比例进行填补等。
4.2 交互结果处理。多数据库平台交互后交互成功并通过质控检查的归为可用数据;交互成功但是质控检查未通过的归为待查数据,交由平台交互方进行二次人工核查;交互失败的归为不可用数据,交由数据接收方负责安排与上传方核查原始资料并更正问题数据。
结果
1.数据质量管理。经过一轮的“策划—实施—检查—处置”PDCA 循环,应该对数据平台整体进行综合的质量分析和评价,具体质控点见表2。
表2 数据质量管理评价节点
从微观的角度,针对云平台中的某一个数据样本的质控评价,可以得出质控合格率。质控合格的,归为可用数据;质控不合格的,返回数据收集和整理部门,确定是否重新采集。从宏观的角度,每一次循环都能发现整个质控体系可能存在的一些问题,或提出更高效的质控流程,从而对数据库以及质控方案整体进行新一轮的优化和提升(见图1)。
图1 数据库质量优化过程解析
2.组织与制度。基于PDCA 形成的各项组织与制度的建立,能够有效的保障数据平台平稳运行,制度列表见表3。
表3 组织与制度清单
3.规范与技术。医疗大数据平台的建立与运行,应该严格遵循各医疗学科或病种的技术规范,设计唯一的交互编码(或交互编码组)与交互规则。这样才能保证数据库的真实性和可利用性。例如在数据平台设计或数据质控处理时,可通过国际通用的ICD-10 编码对疾病的种类或诊断进行区分或结构化处理。数据平台中的关键内容应该做到有章可循,有规范可依。
此外,医疗领域尤其注重患者信息安全与隐私保护。一方面,数据平台软件的设计应按照各项医疗技术的信息安全要求和患者因素保护制度,通过加密算法或个人数据的匿名化,对隐私数据进行加密处理;另一方面,质量控制过程中涉及到的诸多环节的操作,也应该遵循隐私保护的原则,建立合理的安全验证和信息流转制度。
讨论
1.统一的交互编码规则是大数据交互平台质控的关键。目前我国包括“出生医学证明”等国家级出生缺陷监测数据库在内的诸多研究型医疗数据库,均较为分散且来源不同[8],在数据信息项和格式、疾病判断标准及依据、观察期限及观察节点、数据采集和上报方法、每个数据库各自的质控方案等均各不相同。因此,本研究基于重大出生缺陷防控大数据云平台包括先天性心脏病、神经管缺陷疾病、唇腭裂等多个数据库的建设,通过确定统一交互编码(或交互编码组)和交互规则,制定大数据交互平台质量控制方案,为实现各类医疗大数据平台中数据的可靠性提供有效保障。
2. PDCA 循环可持续改进医疗大数据交互平台的质量。随着信息化技术在各领域的广泛应用,已有研究将PDCA 循环运用到信息化技术中[9],但尚无针对医疗大数据交互平台的详尽的质控方案研究。本研究以PDCA 循环和ISO9001 质量管理体系方法论为理论基础,形成包括数据质量管理体系、组织与制度、规范与技术三位一体的大数据质控体系,确保数据的规范性、完整性、准确性和一致性。
数据平台质量控制的很多步骤都涉及数据库的维护与管理。在数据库的使用过程中,使用者通常需要循环往复的补充和更新数据,修正错误数据,删改过时或失效的数据等。因此,这种基于PDCA 循环的医疗数据库管理不是一朝一夕所能完成的。只有按照一定的质量控制规则和标准,采取适当而有效的质量控制措施,才能构建起严密的质量控制体系,进而不断优化数据质量、逐步建成高质量的大数据库,持续提高医疗大数据交互平台的数据质量与使用效率。
3.PDCA 循环是医疗信息及时共享的基础与保障。医疗数据库体量巨大且具有多样性和可变性[10],PDCA 循环可以相对及时的发现数据库中可能存在的问题,并及时对数据库的质量或可用的数据集给出指示或判断。已有研究提出,多方位的临床大数据研究对于构建重大疾病的分析模型,以及解决临床医疗和科研业务之间的矛盾有着重要的意义[11]。但是,如果想整合不同学科、临床或科研等不同来源的医疗数据到同一个数据平台上,几乎是不可能的。若改换思路,以质量控制为抓手,建立相对统一的交互编码体系与质控标准,不断优化和统一质控要求,进而可以为实现多种类多来源的大数据共享提供可能。