浅谈智能化快速部署医院健康档案数据集质量控制
2021-10-13王浩周娟曾雪孟祥峰张超李佳戈
王浩,周娟,曾雪,孟祥峰,张超,李佳戈
1. 中国食品药品检定研究院 医疗器械检定所,北京 102629;2. 中国人民解放军总医院 医学计量室,北京 100853
引言
健康档案数据集是临床诊疗、健康服务、医保、临床队列研究等各个领域的重要资源。根据卫生行业标准WS 365[1],其含义是:医疗卫生机构为城乡居民提供医疗卫生服务过程中的规范记录,是以居民个人健康为核心,贯穿整个生命过程,涵盖各种健康相关因素,满足居民自我保健和健康管理、健康决策需要的系统化信息资源。健康档案数据集是医院信息化的重要对象,在慢病防治[2]、居民健康管理[3]、公共卫生[4-5]、疫情防控[6]等方面具有重要的支撑作用。
在人工智能、组学技术蓬勃发展的今天,健康档案数据集的内涵日益丰富,涉及多源异构数据的交叉融合。从数据来源看,可能包括来自院内的检查、检验数据,也可能包括院外的家用医疗器械、移动健康终端、社区筛查设备等。这些数据是人工智能医疗器械的重要研发资源,需要建立标准规范。目前,健康档案数据集在元数据方面已有相关行业标准[1],但质量评价规范相对薄弱[7-9]。
在抗击新冠疫情期间,智能化快速部署医院、方舱医院作为公共卫生应急的重要基础设施,在我国获得了很大的发展,也成为医院信息化建设和人工智能医疗器械研发的重要场所[10-11]。此类医院具有快速、机动、灵活的特点,部署和调度具有动态性和临时性。在新冠疫情防控的特殊背景下,数据的采集、随访、跟踪频率更高,处于动态变化中,健康档案数据集的建设和质量控制面临更多的挑战[12-16]。
本文结合人工智能医疗器械对数据集的通用要求[17],研究健康档案数据集的特殊问题和质量控制要点,旨在促进智能化快速部署医院等特殊场景下的数据集建设。同时,在实践环节,本文使用不同方法开展了数据集抽样检验,为健康档案数据集的质量评价工作积累经验。
1 健康档案数据集质控要点
1.1 健康档案数据集的特殊问题
数据集作为人工智能医疗器械研发、训练、验证、确认、日常质控等各个环节的重要材料,已纳入医疗器械监管的关注范围[18]。在参考现有的标准规范和前人研究[17-20]基础上,在智能化快速部署医院的背景下,健康档案数据集在质控方面应关注4项问题。
(1)多模态数据的融合。在现代医学背景下,检验数据、文本数据、影像数据和视频数据等都有可能纳入健康档案数据集。模态之间的关联和一致性、单一模态及组合的质量,都应纳入考量。
(2) 敏感数据范围的扩大。在新冠疫情防控的特殊时期,社区筛查与监控数据、流行病学调查数据、个人活动轨迹都可能与健康档案数据集相关联,数据集的建设需要对更广泛的个人隐私、生物特征识别信息进行保护,质控工作在数据脱敏、匿名化方面需要加强。
(3)标注的不确定性。在应对重大突发公共卫生事件时,临床诊疗规范和数据标注依据可能出现快速的迭代变化,意味着健康档案数据集的数据标签具有不确定性,对数据标注的组织管理和动态更新提出了更高的要求。
(4)管理的动态性。对于智能化快速部署医院,医疗方舱的编组和部署是动态的,医务人员和患者/受试者也是快速流动的。数据采集、标注、人员、来源、存储设施都具有动态性,数据集的可追溯性、版本控制、标志标识都面临更大的挑战。
1.2 对数据集说明的特殊要求
基于以上考虑,对照《人工智能医疗器械质量要求和评价 第2部分:数据集通用要求(报批稿)》[17],健康档案数据集的说明文档宜增加6项特殊要求。
(1)数据形态。健康档案数据集说明应描述健康档案数据集包含的每一种数据模态对应的数据格式、数据量、存储方式,明确哪些数据模态可独立使用,哪些数据模态需联合或组合使用。
(2)版本控制。对于可独立使用的数据模态、需要联合使用的数据模态组合,特殊需要(适当)时,可作为子集分配额外的版本号。
(3)数据元属性。对于新型疾病或未知疾病,应设置专用的数据元名称。特殊需要(适当)时,对该名称进行动态更新,并确保可追溯性。
(4) 标注信息。健康档案数据集说明应描述数据集整体、每一种可独立使用的数据模态、需要联合使用的多个数据模态是否具有标注信息。
(5)隐私保护。健康档案数据集说明应描述受试者隐私保护的范围、技术手段和规则。隐私保护的范围至少考虑个人敏感信息、医疗健康数据、流行病学调查数据等。
(6)标识。健康档案数据集应显示唯一的标识,与数据采集相关的医院、方舱的标识建立关联。当医院、方舱的部署发生变化时,数据集标识应相应改变。
1.3 对质量测度的特殊要求
在健康档案数据集的具体质量测度方面,应增加5项特殊要求。
(1)对于多模态、多阶段的健康档案数据,各个模态时间戳的同步性、数据流转的时效性应纳入检查范围。
(2)在数据管理人员、数据来源动态变化的情况下,数据的用户权限、访问控制机制、隐私保护/加密机制应足够快速,防止出现非授权访问和隐私泄露。
(3)数据集的访问、预览、检索工具及辅助工具应考虑单一模态、模态组合,确保数据集的用户能充分地利用数据集的信息。
(4)健康档案数据集整体、各独立模态及其组合的数据特征层次、流行病学统计、样本来源多样性、数据多样性等应符合数据集陈述的应用场景。
(5)健康档案数据集各个模态的标注结论应不出现矛盾;数据集的一致性需考虑模态之间的一致性,对离群值、缺失数据进行解释和处理。
2 数据集抽样检验
2.1 生产验收抽验方法
健康档案数据集的质量评价,需要开展必要的抽样检验。一般来说,数据集的抽样检验可分为生产验收检验、质量监督检验两种方式,但需要的样本量不同,将影响成本和操作的可行性。
在生产验收检验方面,业内通常参考GB/T 2828.2-2008[21](计数型抽样检验)、GB/T 8054-2008[22](计量型抽样检验)等标准,对产品进行抽检。如果把数据集中的数据元看作产品,那么静态的数据集符合孤立批的定义,而连续采集、动态增长的数据集符合连续批的定义。
一般来说,人工智能医疗器械训练、测试使用的健康档案数据集在一定周期内保持静止,因此可看作孤立批,质量评价可采用极限质量(Limit Quality,LQ,不合格品百分率)作为主要指标。根据生产验收评价思路,宜采用GB/T 2828.2-2008[21]规定的方法进行抽样检验。此种情形下,应选用标准描述的模式A,根据数据集制造责任方声称的LQ、数据集的容量N查阅标准[21]中的表1,确定抽样总量n和接收数(Accept,AC)。当抽样数据中的不合格数量低于AC时,认为该数据集可接受。
2.2 质量监督抽验方法
在质量监督检验领域,业内通常参照GB/T 2828.4-2008[23](计数型抽样)、GB/T 6378.4-2008[24](计量型抽样)等标准开展产品抽验。当健康档案数据集作为核查对象时,由于样本量一般大于250,可采用GB/T 2828.4-2008[23]规定的方法进行抽样检验。检验时,应根据数据集制造责任方声称的声称质量水平(Declared Quality Level,DQL,单位为每百单位产品不合格数)、极限质量比(Limit Quality Ratio,LQR)水平、核查样本总数N,查阅标准[23]中的表2~9相关内容,确定抽样样本数n、不合格品限定数L。当抽样样本中的不合格数量低于L时,认为通过检验。此处应注意,GB/T 2828.4-2008的生产方风险为5%,消费方风险为10%。
DQL与LQR的乘积为实际不合格品百分数。LQR水平包括O、I、II、III四种水平。LQR的水平越高,意味着实验允许的样本量越大,LQR取值越小,实际不合格品百分数越小。LQR水平的选择,由经济成本和抽样检验的严格程度权衡决定。对于健康档案数据集,本文建议选用水平II,样本量较大,严格程度较高。
2.3 比对试验
为了直观比较上述两种思路的评价方式与样本量需求,本文设计了比对实验。实验材料是带标注的肺结节封闭测试集,包含600个CT序列。具体评价对象是标注结果的形式有效性,考察肺结节的标注框是否充分包裹结节区域,属于计数型抽样检验。对于每一个被抽中的CT序列,核查人员需要进行手动操作,对每一层图像上的标注框和实际的结节图像进行检查。
本次实验分别参照GB/T 2828.2-2008[21]和GB/T 2828.4-2008[23],进行生产验收抽样检验和质量监督抽样检验。由于抽样方案依据的主要参数量纲相同,以LQ/DQL为横坐标,以抽样样本量为纵坐标绘制图1,可以比较两种方案对样本量的需求。以LQ/DQL为横坐标,以接收数/不合格品限定数为纵坐标绘制图2,可以比较两种抽样方案对不合格品的宽容程度。根据图1展示的曲线,可见对同等要求的LQ/DQL,质量监督需要的样本量低于生产验收需要的样本量,降幅为50%~80%。根据图2展示的曲线,可见对同等要求的LQ/DQL,质量监督对不合格品更宽容。假设数据集制造责任方约定LQ/DQL为2%,那么生产验收抽样检验需要抽取125个CT序列,且全部合格后判定通过检验。质量监督抽样检验需要抽取50个CT序列,其中至少48个序列合格后判定通过,工作量为前者的40%。假设检查每个序列平均用时20 min,则后者比前者节省25 h,能够明显减少人力和时间。
图1 两种思路的样本量需求比较
图2 两种思路的不合格品限定数比较
3 讨论与总结
本文围绕健康档案数据集开发与质控开展研究,针对数据来源和层次的多样性、数据采集与标注的动态性、执行单元的灵活部署与调度等问题,提出了数据集说明文档、质量特性方面的特殊要求,扩展了对这一专业领域的数据集质量意识和质控要求。这些要素适合智能化快速部署医院等特殊场景下的数据集建设背景,有助于促进相关的数据集开发和人工智能医疗器械研发活动。
同时,本文针对数据集质量评价的实操问题,对具体案例设计了抽样检验比对试验,直观地比较了GB/T 2828.2、GB/T 2828.4两个常见标准的抽样方案设计。本文采用胸部CT肺结节数据集作为试验对象,评价角度为数据标注形式的有效性,作为数据集质量评价的一种简单情形进行举例。试验中发现,质量监督抽样检验比生产验收抽样检验节省50%以上的人力和时间。在实际工作中,根据人工智能医疗器械数据集通用要求[17],数据集质量评价的维度远比本次试验丰富,单一样本需要投入的人力和时间成本更高。健康档案数据集具有多模态交叉融合的特点,评价难度和成本将大于单模态数据集。因此,质量监督抽样检验更具有经济性、可行性,建议在成本受控的情况下,使用质量监督思路开展质量评价工作。同时,本文的研究工作还存在一定的限制,主要考虑静态的健康档案数据集和孤立批数据的检验。对于动态、连续采集的数据集,有必要继续研究每批数据的检验策略,兼顾经济性与合规性。