APP下载

融合数据分析算法的临床科研平台研究

2023-07-06林志刚

中国信息化 2023年6期
关键词:聚类病例样本

林志刚

一、引言

在各级各类医疗机构中,科研水平已成为衡量其发展程度的重要依据。近年来,人工智能、大数据等信息技术的蓬勃发展对医疗领域的科研模式产生了深远影响。国家先后出台了《“健康中国2030”规划纲要》《关于促进和规范健康医疗大数据应用发展的指导意见》《关于印发国家健康医疗大数据标准、安全和服务管理办法(试行)的通知》等政策文件,鼓励推进医疗大数据的开放共享、深度挖掘和医学科研应用,造福于民。医疗领域的科研需要精确的实验方法设计,更需要大量的实验样本、高质量的实验数据、及时的数据分析结果。人工智能、大数据等信息技术为医疗领域的科研注入了新的技术活力,使实验设计更具有针对性和前瞻性,样本收集更快捷高效,数据分析结果更准确直观。

从学科建设和医院的长期发展来看,基于临床大数据的专科、专病科研是未来的发展趋势。许多医院已在这些方面进行了有益的尝试,例如,上海市儿童医院以儿童专科为特色,搭建了医疗大数据平台。首都医科大学附属北京天坛医院立足医院特色,建设了神经脑血管病专科大数据科研平台,自2017年部署实施后,应用效果良好。厦门大学附属第一医院建立了专科临床科研管理平台,提高了临床数据的科研利用率。

借鉴相关医院的成功经验,我院基于已有的临床信息系统,建设了大数据智能平台,在科研平台上融入高效的数据分析算法和工具,进一步增强了临床科研平台的功能。本文重点介绍临床科研平台的架构、科研平台的数据采集和数据分析功能,并以“2型糖尿病人颈动脉斑块形成的危险因素”的临床科研案例进行说明,而科研项目的全过程管理不在本文进行讨论。

二、临床科研平台的架构

打通各个信息子系统的障碍,构建共享的数据平台是我院构建临床科研平台的重要任务。我院构建的临床科研平台整体架构如图1所示,根据实际的业务分布,整体平台由5个层次构成,各层的内容如下:

(1)数据层主要由临床信息子系统及其他信息系统构成。临床数据囊括了医院信息系统(Hospital Information System, HIS)、病案系统(Electronic Medical Record, EMR)、实验室(检验科)信息系统(Laboratory Information System, LIS)、放射信息管理系统(Radiology Information System, R I S )、医学影像存档与通讯系统(Picture Archiving and Communication Systems, PACS)等的数据;其他数据包括生物信息、病例报告表單(Case Report Form)等信息系统的数据。

(2)安全认证层利用技术手段来保障数据的安全,主要采用了诸如身份认证、受限数据访问、数据留痕、数据日志技术。

(3)大数据采集与存储采用Hadoop平台技术,经过对初始数据层的数据脱敏和预处理后,进行医院全维度数据采集。

(4)部署层主要采用SaaS(Software as a Service,SaaS,软件即服务)架构,实现数据统计、报表、评价模型等业务逻辑的处理,将主要应用以WEB的方式提供给应用层的用户。

(5)应用层根据临床科研的实际需求,重点实现了病例分析、数据洞察、样本搜索、CRF管理、患者随访、科研项目管理、数据补录等功能。

三、科研平台的临床病例采集功能

传统的临床科研往往需要从各个子系统中逐个抽取病例样本进行手动管理,效率较低且出错率高,临床医生可以直接获得的临床数据质量普遍较低,这直接影响医院临床科研人员产出的水平;同时,由于临床病例数量大、噪声多,这些问题集中到基于临床病例的科研中,导致广大科研人员对第一手病例的分布特征缺乏直观认识,科学假设从提出到验证周期长。

本平台利用高效的数据采集算法,能极大地降低假设到实验验证的困难,满足人工智能和数据挖掘技术应用于临床科研的需求,有效提高科研效率。以临床科研中分析“2型糖尿病人颈动脉斑块形成的危险因素”为例,在纳排研究对象时,如图2所示,采用的纳入标准为:年龄介于40到70岁,体质指数(BMI)介于20到28,诊断名称包含“2型糖尿病”,设置时限后,科研平台自动采集到1351名患者,1475例病例。同时,如图3所示,设置排除标准为:患有患有肿瘤、糖尿病急性代谢紊乱综合征、肝脏疾病、资料不完整的病人,进行病例筛除。

在搜集到科研病例后,科研人员可以预览或导出病例数据。在本平台中,可以利用纳排的病例创建单独的“2型糖尿病人颈动脉斑块形成的危险因素”科研项目,设置病例与科研项目的对应关系,设置团队成员后可以共享科研项目数据,展开研究。

根据搜集到的科研病例,可以根据需求设置指标,从病例中抽取相关数据,例如,可以在“2型糖尿病人颈动脉斑块形成的危险因素”的科研项目中收集病人的年龄、性别、身高、体重、血压、丙氨酸氨基转移酶、同型半胱氨酸、尿酸、糖化血红蛋白等指标,进行研究。

四、科研平台的数据分析功能

基于收集的科研病例和数据指标,在本平台可以进行数据分析,初步验证科学假设。本平台的数据分析算法主要包括特征描述、类别分析、回归分析、知识图谱分析等。

(一)数据特征描述

在特征描述中,本平台提供了数据分析的平均性指标,包括算术平均数、中位数、众数、四分位数,还包括简单调和平均数、加权调和平均数、几何平均数等指标。特征描述也包括诸如极差、平均差、标准差、四分位间距、标准差系数等离散性指标,还包括数据形态分布的指标,如原始数据服从正态分布情况下的偏度系数、峰度系数等。在用户选定需要计算的数据属性或特征指标后,本平台可以直接利用平台算法按用户要求计算指定的数据特征。

基于平均性指标和离散性指标还可以进行数据标准化,本平台提供了极差标准化、Z-Score标准化、归一化等算法。

在特征描述中,基于本平台的数据分析算法还可以利用可视化工具,绘制不同特征值的散点图、折线图、面积图,演示数据特征;或利用异质性指标、集中性指标等进行探索性的复杂数据分析,其中的异质性指标包括Gini指标、熵指标等。在特征描述中,还包括二元数据的协方差、 Pearson系數、Spearman系数、多元数据的方差-协方差矩阵等测定指标。

(二)类别分析

类别分析包括聚类算法和分类算法,聚类算法主要根据病例样本的选定属性或特征,将病例样本划分为有意义的类或簇。本平台集成了K均值聚类算法、层次聚类算法、密度聚类算法等。科研人员根据选定的属性或特征,可以选用不同的聚类算法对病例进行划分,并用图示方法展示,方便科研人员反复调整参数取得满意结果。聚类算法不必要使用样本病例的标记,是根据选定属性或特征的自然聚集。而分类算法则要根据已有样本病例所属不同类别的标记结果,预测未知病例样本的所属类别或标记。本平台的分类算法包括决策树算法、贝叶斯算法、SVM算法、KNN算法等。

(三)回归分析

本平台主要利用回归分析算法帮助科研人员在临床数据用一个或多个属性值(自变量)去解释另一个属性值(因变量)。一般来说,临床病例的样本具有多维特征,本平台的回归分析主要提供单因素和多因素回归分析算法,在多因素回归分析算法中,进一步包括多因素线性回归算法、多因素Logistic回归算法等。以“2型糖尿病人颈动脉斑块形成的危险因素”科研项目为例,在本平台的单因素逻辑回归和多因素逻辑回归方法中,能提供详细的结果说明,并提供回归模型诊断和可视化结果。

(四)知识图谱分析

知识图谱能对领域知识进行显性化的沉淀和关联,在搜索到的科研病例中,本平台通过自然语言切分技术处理历史诊断数据中的专业术语,并利用深度学习技术构建领域本体;关联病历记录中的结构化数据,利用共现分析技术、模式匹配技术、统计机器学习技术进行属性抽取;通过相似度挖掘、聚类等方法进行知识整合和关系属性链接。通过知识图谱的可视化展示,能给科研人员更清晰的关联知识表达,为后续的研究方向和数据分析角度提供有力工具。图4展示了动脉粥样硬化在ICD10词表中利用多个下位词构建的知识图谱。

五、科研平台的其他特点与优势

(一)标准化程度高

我院的临床科研平台基于医疗行业标准,采用的行业标准既考虑国际标准的领先性,也与医院实际数据情况相结合,确立了医院标准化的数据管理规范,并提供相应的标准化组件功能实现标准化管理服务(比如数据标准化、术语服务标准化)。这些都节约了医院持续发展的成本,简化了持续发展的复杂性,使复杂的医疗数据管理和整合成本有效降低、改善了数据整体的利用效率。

(二)平台支持了既有业务的需求,也兼顾了未来的增长性需求

在我院临床科研平台的建设中,充分发挥已有系统的功能,利用现有的数据库,通过平台提供数据集成和业务价值的增值,不仅保存了业务系统的原有历史数据,而且满足了接入和管理未来数据增长的需求。平台采用了模块化的设计,便于医疗服务业务的变化和扩展,提供了丰富的开发环境,支持多种应用的开发,能够实现跨平台数据库间的数据管理,提供了用户应用层的组件支持。

(三)注重顶层设计,强化安全设计

我院临床科研平台的建设从医院的现实需求出发,统一规划、统一设计。平台架构采用了整体化的设计理念,可以覆盖业务系统数据的完整接入,并可进行逐一的数据校验服务以及对历史数据的关联性存储,还可以按需扩展并支撑第三方系统的数据利用。平台也进行了全面的安全性设计,防止对数据的非法访问、破坏和泄露。由于平台将管理医院全部数据,平台架构提供了严谨和完善的安全和隐私管理策略及服务。

六、结语

我院通过对接临床信息子系统,建成了融合数据分析算法的临床科研平台。依据医院实际的业务需求,平台提取了临床信息子系统数据和生物样本数据(脱敏后的数据),实现了病例分析、样本搜索、CRF管理等功能;并提供了特征描述、类别分析、回归分析、主成分分析、知识图谱分析等数据分析算法和工具;由此,实现了临床信息子系统和生物样本库的数据共享,集成了数据分析算法,满足了临床科研的数据处理需求。

作者单位:福建医科大学附属第一医院信息中心

猜你喜欢

聚类病例样本
用样本估计总体复习点拨
“病例”和“病历”
推动医改的“直销样本”
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
随机微分方程的样本Lyapunov二次型估计
一例犬中毒急诊病例的诊治
村企共赢的样本
一种层次初始的聚类个数自适应的聚类方法研究
妊娠期甲亢合并胎儿甲状腺肿大一例报告