APP下载

面向医院电子档案用户的画像技术及精准服务应用策略

2021-11-28吴蔚

中国卫生产业 2021年21期
关键词:画像特征用户

吴蔚

福建医科大学附属第一医院党委宣传部,福建福州 350000

医院电子档案是宝贵资源,我国在该类资源建设方面仍存在诸多不足:①重保存,轻服务;②档案资源分散,信息孤岛;③数据格式不统一;④缺乏与用户粘合度的个性服务[1-5]。

对于医院电子档案用户画像,在国内外的相关研究有:赵建建[6]分析了档案用户画像行为特征,给出运用群体用户画像指导资源融合和共享的实现方法,提升了档案资源的整合效果,但是该方法存在设计简单、智能化程度低等不足。周林兴等[7]从用户画像角度,剖析智能化档案信息服务价值、运行逻辑等,为实现高质量、智能化档案服务建设提供思路,但是其未给出具体的技术路线。张亚兵[8]阐述了用户画像的数据获取方法以及画像模型的框架构建,这对于画像模型的构建具有指导意义,但是其未给出具体的技术实现路线。此外,基于用户画像的个人隐私安全研究、基于知识图谱的知识挖掘等成果相继出现。在国外,医院电子档案信息化建设水平较高,近几年来,先后出现了档案服务机器人、智能服务推荐等一批先进的研究成果。

该文从研究方案角度,对用户画像及其应用进行详细阐述,旨在为新一代信息背景下的我国电子档案信息化建设提供参考。

1 档案用户画像概念

用户画像的概念最早是由Alan Copper[9]提出,其实质是综合用户特征、行为和偏好,对真实用户或用户群体的虚拟刻画。近些年,用户画像受到了人们的极大关注,目前关于用户画像的概念界定、构成要素和构建技术基本成熟,它被广泛应用于电子商务、广告推荐、银行客户管理、学校师生管理等活动。我国档案智能信息管理中的难题是如何准确地捕获用户的需求,而对档案用户实施精准的画像能够为解决这一难题提供有效的技术手段。图1 是医生用户群体的画像的可视化展示实例,画像中特征关键字的大小体现了用户关注的重要程度,即字体越大越能体现该用户群表现出的特征或行为。

图1 医生用户群体的画像可视化示例

2 画像技术原理

档案用户画像目标是为了描述人、理解人,这是画像最大的目标,在为目标对象画像时,常用的描述方式可以分为两种:①非形式化的手段,例如医院管理活动中形成的大数据中的语音、文本,都是非形式化的;②形式化的手段,例如医院患者就医卡、患者的病案、医务人员的信息等,当面对这些海量复杂的信息时,需要对它们进行一系列的信息抽取、数据标准化和规则化、逻辑关系表达和抽象、知识挖掘等处理及科学计算,建立一套标准的知识体系。与此同时,需要一套数据化、符号化、形式化的方式来描述知识体系。因此,在进行用户画像研究时,需要使用到大数据的统一表示及数据标准处理技术、信息抽取与多分类技术、数据挖掘机器学习技术以及评估预测模型建立技术等[10]。在使用和发展这些技术时,目前已有图模型表示与建模方法、基于注意力的数据分类方法、支持向量机、深度学习算法等都为画像的研究提供了良好的条件,也有着丰富的理论依据。深度融合大数据与机器学习算法,形成新型人工智能应用,从而在对海量教育数据分析的基础上,快速地实现数据间的知识挖掘和预测。针对教育原始大数据,对奇异值分解、主成分分析经典方法进行集成和创新研究,以此提高算法对剪裁教育海量数据的无效特征、降低数据维度的计算能力;选择适用于多模态档案大数据的分类和方法,适时运用深度学习算法,以迭代演化的形式,最终形成完整的大数据智能处理体系。以此不断地提高多模态数据统一表示模型的质量,进而提升面向档案大数据的分析与知识挖掘能力。项目技术原理的直观描述见图2。

图2 用户画像技术原理

针对医院电子档案用户画像技术及其应用研究,重点需要解决面向大数据的异构多源大数据统一表示及数据标准化处理技术、档案用户画像信息抽取与多分类关键技术以及用户的综合评估预测模型构建技术的问题,其中采用图模型表示多元关系及建立适用于档案用户画像的知识图谱将是档案信息智能化建设任务中非常有特色的一项工作[11]。

3 画像技术及其应用研究策略

为构建基于医院电子档案用户的画像模型及其应用系统,需要着重开展的研究内容为:①多源异构多模态数据的统一表示及数据标准化技术研究;②基于医院大数据的用户画像信息抽取与多分类算法研究;③数据可视化技术研究;④用户综合评估预测技术研究[12]。

按照数据标准规范建立、数据采集、科学建模过程、用户像及应用的研究思路,下面对4 个研究阶段所采取的总体技术路线作简要介绍。

①构建档案大数据应用标准。根据我国大数据特点,依据大数据应用要求,建立完整的数据存储、交互、传输等一系列数据处理的规范体系。

②数据采集处理。构建多种类型数据的采集接口,然后利用SFFT、插值补偿法等技术,对原始数据做清洗、过滤、校正、补全等数据质量检测和优化操作。接着严格按照档案大数据的规范标准,对数据进一步的格式规范、脱敏处理、安全保护处理。最后形成多种主题的数据集,为上层的模型构建与应用提供服务。

③科学建模过程。通过系统化数据采集,采用科学方法建立数据模型,包括语义分析、词汇判断、实体抽取、关联挖掘、实体连接等操作,最终建立用户画像知识图谱和多主题数据模型。

④用户画像模型与应用。在第2 步基础上,进一步对提取低层次数据特征,选择高层次特征,进而构建多维结构模型,据此研构用户画像。同时,根据病例分析、医生技能评估、个性化服务推荐等功能需求,构建多个主题应用模型,并把模型迁移至实际应用中。具体的研究总体策略见图3。

图3 用户画像技术及精准服务应用研究策略

4 关键问题分析

(1)用户画像分类体系的细分。给谁画像,画什么像,为什么画这个像,画像的分类和预期结果是怎么样的,这些问题都不是系统完全自动产生的。当然,在大数据足够多的程度下,可形成客户的关键信息画像,但是现在应用更为广泛的是人工+系统结合的用户画像,即人工设计画像的方向和体系。这样的优势是体系化和结构化,应用性更强,比如要进行档案内容敏感画像、借阅时间敏感画像等。即应当对分类体系进一步细分,获取用户敏感的主要对象,基于这些分析后,可以把细分后的敏感类别单独分析,这在一定程度上能够帮助建立完整的档案敏感体系[13]。

(2)画像特征的重要性区分。当确立了画像的方向,即确定了需要的数据信息和力度。客户画像的数据要做到真实、可关联应用、存在一定的周期可供偏好类模型构建。在众多属性中,各个属性的重要性必然有差别,应充分使用数据挖掘方法,发掘电子档案中的属性。从用户的角度出发,有多个角度需要综合考虑[14]。

(3)特征处理与特征选择。在特征处理阶段,需要筛选部分主要特征数据,对于单表数据,重点工作是数据缺失处理、冗余剔除、特征数据编号等;对于多表数据,主要工作是求和合并计数特征、最大值合并定性特征、生成新的特征属性、多表连接等[15]。当数据预处理完成后,需要选择有意义的特征输入机器学习的算法和模型进行训练。根据特征选择的形式又可以将特征选择方法主要分为Filter 和Wrapper 两种,但该文重点推荐使用以分类错误率为评价函数的前向浮动选择SFFS 算法来进行特征选择。在此基础上,可选用SFFS 选出来的avg_score 得分最高的特征集,此特征集可被作为档案用户画像的最终特征源[16]。

(4)用户标签及其关系挖掘。档案用户标签是指用户对于档案的注意力,例如病档诊断报告敏感用户是指医生用户对于诊断结果关注度较高的人群,因此,对于该类用户敏感度研究,是通过分析用户多种多样的查询行为,如查询次数、医生用户职称情况等,反映该类用户对病案诊断结果的敏感程度的差别,并使用数据挖掘技术的量化手段,构建预测模型,对诊断结果敏感特性进行刻画[17]。在具体研究过程中,对此可以通过构建模型来分析,可从如下3 个方面进行考虑:①选择适当的模型。在得到好的属性后,针对数据的特征,如离散值众多等特点,选用适当的模型进行预测;在比较各个模型的优劣后,选择较为合适的模型进行细致的调参,这是有效辨别敏感用户的另一种方式[18]。②多个维度分析建模。可以从多个角度入手来分析,并建立模型,例如抽取用户档案使用时间进行研究,构建阅读时间分析模型,从中分析用户的行为。③不同模型的集成。不同模型具有不同的偏好,当从多个角度用不同的模型对问题进行预测,由此就可以得到多个具有不同偏好、对结果具有不同偏差的模型,利用这些模型,并让各模型互相纠正,这可以大幅提升用户标签及其关系的挖掘精度,从而有利于提高用户画像模型的质量[19]。

5 结论

该文从当代信息技术视野下,以我国医院电子档案管理和用户需求为出发点,面向未来,重点阐述了医院电子档案用户画像的重要性和必要性,进而简要概述了用户画像的基本概念和相关的构建技术,接着详细论述用户画像技术及其精准服务的建设路线,并给出各个阶段需要完成的技术工作内容,最后重点阐述了档案画像技术及应用中的关键问题。

综上所述,在该文提出的用户像技术及其应用研究策略中,使用的技术新颖,采用信息类项目的工程化建设流程和框架,可操作性强。文中提出的方法可为当代医院电子档案智能化信息管理系统的构建提供借鉴。

猜你喜欢

画像特征用户
威猛的画像
“00后”画像
画像
如何表达“特征”
不忠诚的四个特征
抓住特征巧观察
关注用户
关注用户
关注用户
如何获取一亿海外用户