APP下载

利用数据属性建立企业卫生健康信息(数据)标准体系研究

2024-05-26冯牧青毛云鹏王于峰王峥洋黄勃高雪建冯昌琪

中国标准化 2024年6期
关键词:企业

冯牧青 毛云鹏 王于峰 王峥洋 黄勃 高雪建 冯昌琪

摘 要:由于卫生健康软件企业难以知晓和掌握卫生信息数据元的增加、更新和修订,卫生健康软件企业跟踪卫生健康信 息标准的变化并执行是一件极为困难的事情。反之,卫生健康企业按卫生信息标准建立企业自已的信息(数据)标准体系相 对比较容易。本文尝试利用数据本身属性建立企业自已的卫生健康信息(数据)标准体系,如数据元目录及其元数据标准、数 据元值域代码、数据集(子集)以及与卫生行业信息标准的对照体系,既满足企业自身研发应用软件需要,又为执行国家卫生 信息标准找到了可行的方法。

关键词:数据属性,企业,卫生健康,信息标准,数据标准

DOI编码:10.3969/j.issn.1002-5944.2024.06.005

执行国家卫生健康信息(数据)标准大势所 趋。由于从事卫生健康领域信息化的软件企业无 法知晓和掌握国家《卫生信息数据元目录》标准的 制修订,卫生健康軟件企业获得最新《卫生信息数 据元目录》标准非常困难。因此,卫生健康软件企 业有必要构建自己的《企业卫生健康信息数据元目 录》,有利于自身软件产品开发和行业信息标准的 执行。企业卫生健康信息(数据)标准体系包括企业在开发卫生健康信息系统(软件)过程中使用的 数据元目录(数据元及元数据)标准、数据元值域 代码、数据集(子集)、统计指标等。

1 数据类型

建立企业卫生健康数据元目录首先要确立数 据元分类及其编码,分类包括大类和小类。由于软 件企业不熟悉卫生健康业务,所以软件企业按卫生 健康业务域对数据元进行分类是困难的,但利用数 据天然属性分类就容易得多。

1.1 数据属性分类

常用主流数据库都有各自的数据类型及其描 述,定义差异不大,常见关系数据库系统的数据类 型多达数十种,据不完整统计,SQL Server不少于22 种[1],Oracle不少于9种[2],MY SQL不少于18种[3]。从 文献1-3中不难发现,这些数据类型可归为字符、数 值、日期时间和二进制四类,由这四类派生出多个 子类,这就为数据元分类提供了可能,而且容易被 学习和接受,这些数据类型完全满足卫生健康信息 应用系统对数据类型的需求。

1.2 数据分类代码

利用关系型数据库系统提供的数据类型属性, 对数据大类和小类进行分类并赋于代码,即得到企 业卫生健康数据元分类及编码表(见表1),该分类 表含盖了SQL Server、Oracle和MY SQL绝大多数数 据类型,完全满足数据元分类需求。

2 数据元标识符与企业数据元目录

2.1 数据元标识符

数据元标识符是数据元目录中为数据元分配与 语言无关的唯一标识。将表1作为数据元分类架构, 采用WS363.1—2011[4]中数据元标识符(DI)编码规 则编制《企业卫生健康数据元目录》(见表2),其代 码结构与WS363.1—2011中数据元标识符编码结构 一致,既符合卫生行业信息标准,又满足企业对建 立企业卫生健康信息(数据)标准体系的要求。

2.2 企业数据元目录

《企 业 卫 生健 康数 据元目录》是 企 业自己 建立的数据元目录。建立《企业卫生健康数据元 目录》的目的是为了避免企业花大量人力和财力 去跟踪行业WS 363.1—2011《卫生信息数据元目 录 第1部分 总则》等16项标准的变化,利用企业 数据元标识符编码规则(见表2),按WS/T 303— 2023[5-6]和WS 363.1—2011编制《企业卫生健康信 息数据元目录》(见表3)。数据元的元数据包括数 据元标识符、数据元名称、定义、数据元值数据类 型、表示格式和数据元允许值,内容与WS/363.1- 2011等16个标准要求一致。

3 企业标准数据集(子集)

企业卫生健康数据集(子集)是企业采用自己 的《企业卫生健康数据元目录》中数据元及元数 据构建的数据集(子集),供企业自己开发使用, 其表达形式分为数据集(子集)的标准表达和生 产表达两种。标准表达是书面表达形式,主要用于 书面交流和阅读,而生产表达则是直接用于系统 开发的数据库表。企业在确定开发一个卫生健康 应用信息系统时,必须先设计出该系统数据集(子 集)的标准表达,然后再将数据集(子集)的标准 表达转换成生产表达。对数据元内部标识符作用 研究[7]提示:应将数据集(子集)标识符和数据元 内部标识符建立紧密联系,有利于数据溯源、治 理、组织和分析,有利于区块链的应用,有利于数 据安全传输和存储。

3.1 数据集(子集)标识符

数据集是数据子集的总称。按照WS/T 306— 2023《卫生健康信息数据集分类与编码规则》[8]中 “主分类框架与代码规则”和WS 370—2012《卫生 信息基本数据集编制规范》[9]中“数据集标识符编码 规则”进行数据集(子集)标识符编制(见图1)。

本文定义的数据集(子集)标 识符结构(规 则)与卫生行业信息标准一致,只是编码含义不同, 更有利于企业信息系统软件产品的开发。标识符第 1-3位代表卫生信息领域用HDS表示(与卫生行业 标准一致),第4位在GB 4757—2017[10]中明确卫生 行业代码为L,第5位为应用系统数据库代码,第6位为数据库中数据子集(数据表)代码的百位代码, 第7位为小数点,第8-9位为数据库中数据子集代码 的十位+个位代码。按这个规则,一个应用系统中的 数据库可用代码空间为0-9,意味着一个应用系统 中最多可有10个数据库(Database)存在,每个数据 库最多允许999个数据子集或数据表(Table),数据 库和数据表的代码容量足够卫生健康行业应用系 统开发使用。

3.2 数据元内部标识符

笔者认为,一个数据元内部标识符不仅在该数 据集(子集)中具有唯一性,还应内含该数据元所 在数据集(子集)和所在数据库的标识,应该将数 据集(子集)标识符作为数据元内部标识符的组成 部分,这样的数据集标识符和数据元内部标识符才 具有应用价值。比如可以通过数据元内部标识符来 改变源数据表的形态进行存储和传输,使用时再还 原成源数据表,这样可以增加数据存储和传输的安 全性;还可通过数据元内部标识符对数据进行溯 源,对数据标准符合性检验,数据治理手段和方法 更多更科学,更有利于区块链模式的应用。因此, 在数据集(子集)标识符编码(见图1)后加上4位(1 位小数点和该数据元在该数据子集中的3位流水 号),则构成该数据元在该数据集(子集)中内部标 识符,且满足WS/T 306—2023和WS 370—2012中 对数据元内部标识符的结构(见图2)。

3.3 数据集的标准表达

设计出数据集(子集)的标准表达的目的是为 了方便地获得数据集(子集)的生产表达形式,以 便软件开发者转换成在关系数据库中的生产用数 据表(生产表达)。表4是作者的一个软件产品,根 据自己的《企业卫生健康数据元标准目录》设计的 一个卫生机构基本信息子集的标准表达。

从表4中可知,HDSL10.02代表机构基本信息子 集。在子集HDSL10.02中,第3列第4行“组织机构代 码”的内部标识符是HDSL10.02.004,其中HDS为 保留字,L为卫生行业代码(GB 4757—2017),1是该 系统第一个数据库(Database)代码,02是该数据库 中第2个数据子集(Table)代码,003是这个子集中 数据元(字段)序号,本方法编制出的数据元内部 标识符与《卫生信息基本数据集编制规范(WS370 2014)》中数据元内部标识符结构完全一致,同时 又满足将数据集(子集)标识符作为数据元内部标 识符组成部分的目的。

3.4 数据集的生产表达

数据集(子集)的标准表达形式并不能被数据 库设计者或程序员直接使用,还需要将数据表(子 集)的标准表达转化成数据集(子集)的生产表达 (可用于程序员编程的数据表),如SQL Server、 Oracle、MY SQL、DB2等的数据表。如果开发使 用数据库系统是SQL Server,则机构基本信息子集 (HDS101.02)数据表的标准表达转化成生成表达 形式后,方可用于开发(见表5)。

需要指出,使用不同数据库系统,其数据表的 生产数据表的表现形式有所不同,数据库设计者需 要了解各关系数据库系统的差异,针对不同数据库 系统,将设计的数据集(子集)标准表达转换成生 产数据表,才能供编程人员使用。

4 映射和对照

执行卫生健康信息标准是卫生健康信息化发 展刚性需求。因此,企业卫生健康信息标准体系理 应与国家已颁布的卫生信息标准体系建立对照或 映射。在卫生健康信息标准体系的数据类标准中, 《企业卫生健康数据元目录》中数据《卫信息数据 元目录第2部分:标识》(WS363.22011)等16个标 准中数据元标准建立对照或映射;企业信息标准体 系中S3类型(可枚举字符型)数据代码必须与《卫 生信息数据元值域代码第2部分:标识》(WS 364.2 2011)[11]等16个值域代码标准建立映射或对照建 立映射或对照。此外,同时还应与其他不同政府部 门,不同统计口径的S3类型(可枚举字符型)数据代码建立映射或对照,如医疗保险、公安户籍、人口 计生、法定调查、临床科研等。做到内部运行完全 执行企业信息(数据)标准体系,外部交换执行国 家卫生健康信息(数据)标准体系。

5 结 语

(1)严格企业卫生健康信息数据元目录入选 条件

建立《企业卫生健康数据元目录》的目的是为 了快速从数据元目录中找到该数据元及元数据的 标准和描述,以便高效设计生产数据表,提高开发 效率。因此,入选企业数据元目录的数据元要严格 限制,由于数据元目录中的数据元并不具有业务场 景,因此,只收入具有高度概念聚合能力的一元词, 避免或少用二元概念词进入目录。如中文姓名、医 生姓名、护士姓名、技师姓名等含有“姓名”二字的 词,本质上它们的元数据标准是一致的,只是在不 同应用场境或角色才有这些不同的称谓,而收入数 据元目录的数据元的基本要求就是不具有任何场 境、角色和语义。因此,在企业数据元目录中只需收 入“姓名”,并定义其元数据及表达标准,其它就不 必收入目录,避免造成数据元概念交叉,目录“雍 肿”导致混乱,严格控制入选数据元目录的数据元 对信息标准体系建立极为重要。

(2)企业数据标准体系是执行卫生信息标准 橋梁

主观上,医疗卫生软件企业都愿意执行行业卫 生健康信息标准,但在实际中难以落地。其原因是 卫生健康信息标准量大,新的数据元和值域表不断 增加,就WS 363.1—2011《卫生信息数据元目录 第 1部分:总则》等16个数据元目录标准而言,10多年 来新增的数据元个数已远远超过2011年发布时的数 量,而WS 363.1—2011至今没有最新修订版发布,医 疗卫生软件企业完全不知究竟新增了多少个数据元 和数据集(子集)。在这种现况下,按照编制《卫生 信息数据元目录》的上位标准建立企业自己的卫生 健康信息(数据)标准体系,并建立与行业卫生信息 标准的对照和映射,并可方便地进行管理,不失为 执行卫生信息标准的有效方法。

(3)软件企业必须建立自己的卫生数据标准 体系

从软件企业自身长远发展来看,建立自身的卫 生健康信息(数据)标准体系极为重要。软件企业有 了自己的卫生健康信息(数据)标准体系,输出或上 传符合行业或国家数据标准的数据就不是难事了。 所以,有关部门应倡导医疗卫生软件企业建立企 业卫生信息(数据)标准体系,并将其视为卫生健 康信息系统基本功能的重要组成部分纳入监督范 筹,为执行卫生健康信息(数据)标准提供保障。

(4)卫生健康信息(数据)标准管理必须信息化

《企业卫生健康数据元目录》和《企业卫生健 康数据元值域标准》等企业信息(数据)标准体系用 人工完成制修订是不现实也是难以做到的,更难长 期维护,必须采用信息化手段设计和开发相应的管 理软件或管理模块。有人尝试了这方面的研究[12]。 其软件功能模块至少具有数据元及元数据、S3类数 据元值域表、基本数据集(子集)、信息(数据)统 计指标、国家和行业信息(数据)标准参照体系等管 理,并具备自检自测功能;应鼓励或要求医疗卫生 健康软件企业在其产品中建立“信息(数据)标准体 系管理”模块。

参考文献

杨晓春,秦婧,刘存勇.SQL Server 2017数据库入门到实战 (第一版)[M].北京:清华大学出版社,2020.

王英英,李小威.Oracle 12C从入门到精通(第一版)[M]. 北京:清华大学出版社,2018.

胡同夫.MY SQL 8从零开始学(第一版)[M].北京:清华大 学出版社,2019.

中国卫生信息标准委员会.卫生-信息数据元目录:WS 363.1—2011[S].2011.

中国卫生信息标准委员会.卫生-信息数据元标准化规 则:WS/T 303—2023[S].2023.

中国卫生信息标准委员会.卫生信息数据集元数据标 准:WS/T 305—2023[S].2023.

冯牧青,贺云,严梅,等.数据集标识符与数据元内部标识 符现状和应用研究[J].医学信息杂志,2022(8):47-51.

中国卫生信息标准委员会.卫生-信息数据集分类与编码 规则:WS/T 306—2023[S].2023.

中国卫生信息标准委员会.卫生信息数据集编制规 范:WS/T 370—2012[S].2011.

国家统计局.国民经济行业分类和代码:GB/T 4754— 2017[S].2017.

中国卫生信息标准委员会.卫生信息数据元值域代码第2 部分:标识:WS 364.2—2011[S].2011.

冯牧青,贺云,高雪健,等.卫生信息标准服务平台设计[J]. 医学信息杂志,2021(7):48-52.

作者简介

冯牧青,本科,工程师,主要研究方向为卫生健康信息标准 的应用与管理。

(责任编辑:张瑞洋)

猜你喜欢

企业
企业
企业
企业
企业
企业
企业
企业
企业
企业
敢为人先的企业——超惠投不动产