中医诊疗信息数据元构建初探
2013-11-26韦昌法黄惠勇罗铁清晏峻峰
韦昌法,黄惠勇,罗铁清,占 艳,晏峻峰
(1.湖南中医药大学管理与信息工程学院,湖南 长沙410208;2.湖南中医药大学中医诊断研究所,湖南 长沙410208)
数据元标准化是卫生信息标准化的基础,是实现信息共享和利用的重要保证。“十二五”期间是中医药实现跨越式发展的重要时期,也是深化医改、实现中医药信息化快速发展的关键时期[1]。2012年7月2日国家中医药管理局发布了《中医药信息化建设“十二五”规划》,规划中明确指出要开展中医药信息标准体系建设,构建中医药信息标准体系,制(修)订中医药数据元及值域代码标准、中医药数据集标准等基础标准和规范[1]。在此背景下,开展中医药数据元标准化研究工作具有十分重要的价值和意义。本文以中医诊疗信息的数据元构建为例来探讨如何构建中医药数据元标准。
1 数据元简介
数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元[2]。
数据元的基本模型是由数据元概念和数据元两部分组成[3],见图1。
图1 数据元的基本模型
一个数据元概念是由对象类和特性两部分组成,是能以一个数据元形式表示的概念,其描述与任何特定表示法无关。一个数据元是由对象类、特性和表示三部分组成。当一个数据元概念与一个表示联系在一起时,就产生了一个数据元。一个数据元概念对应多个数据元[3]。
对象类是可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合;它是我们希望采集和存储数据的事物。特性是一个对象类的所有成员所共有的特征。特性用来区别和描述对象,是对象类的特征,但不一定是本质特征,它们构成对象类的内涵特性。表示可包括值域、数据类型、表示类(可选的)和计量单位4 部分,其中最为重要的部分是值域。值域是数据元允许值的集合,一个允许值是某个值和该值的含义的组合,值的含义称为值含义[3]。
下面我们通过一个实际的例子来说明上述概念。例如,“患者”是现实世界中某类事物的集合,它是一个对象类。“性别” 是每个患者都具有的特征,可以用来描述患者,因此“性别”是“患者”这个对象类的一个特性。“患者的性别”就是一个数据元概念,它是由对象类“患者”和特性“性别”组成。“患者的性别代码”就是一个数据元,它是由数据元概念“患者的性别”与“代码”这个表示联系在一起而产生的。“患者的性别代码”这个数据元的值域是:1 表示男,2 表示女,9 表示未说明的性别。其中,1、2 和9 是值,其值含义分别是男、女和未说明的性别。
2 研究中医信息数据元标准的重要性
《中医药信息化建设“十二五”规划》中指出:虽然中医药信息化建设取得一定成效,但是还不能完全适应中医药事业发展,中医药信息标准体系尚需完善,信息资源共享和有效利用不够,信息孤岛依然存在。十二五期间要把中医药信息化建设作为深化医药卫生体制改革的重要组成内容,逐步建立统一高效、资源整合、互联互通、信息共享的中医药信息系统[1]。
要打破目前中医药信息化建设领域中信息孤岛多、信息资源共享率和有效利用率低下的局面,必须构建中医药信息标准体系,其中最重要的一项基础工作就是要制订中医药数据元及值域代码标准。在这种背景下,对中医信息数据元进行研究,探讨如何构建中医信息数据元标准具有十分重要的价值和意义。
3 中医诊疗信息数据元构建举例
中医学是由基础、临床、预防、康复等众多学科和交叉学科构成的庞大的学科系统,构建中医药信息数据元标准是一项复杂庞大的工程,因此在探讨如何构建中医信息数据元标准时,我们需要选择一个小的切入点,从小处着手,待研究工作有明显进展之后再进一步扩大研究范围。
问诊是医生通过对病人或陪诊者进行有目的的询问,以了解病情的方法。问诊是中医诊察疾病的最基本的一种方法,在中医诊疗过程中占有十分重要的地位。因此,我们从中医问诊入手来探讨中医信息数据元的构建。下面我们以中医问诊中的问汗为例来说明如何构建中医诊疗信息数据元。
中医认为,汗是阳气蒸化津液经玄府达于体表而成。询问病人汗出的异常情况,对于判断病邪的性质和机体阴阳的盛衰有着重要的意义。中医问汗不同于西医的只问有汗无汗。中医问汗有其特色:如有汗,则要问汗出的时间、多少、部位及其兼症;若无汗,则重点询问兼证[4]。
我们对中医问汗过程中获得的信息进行分析,从中提取出8 个数据元,如表1(中医问汗信息数据元目录)所示。其中,第1 个数据元是“汗出标志”,用来标识个体是否有汗出,数据元值的数据类型是L(布尔型),表示格式是T(True)或F(False)。第2 个数据元是“汗出部位”,是对个体汗出部位的详细描述,数据元值的数据类型是S3(字符型,见相应的代码表),表示格式是N1(固定长度为1 位的数字);部位代码表列出了汗出部位的数据元允许值,因篇幅关系未放在本文中。第3 个数据元是“汗出时间”,是对个体汗出时间的详细描述,数据元值的数据类型是S3,表示格式是N1;时间代码表列出了汗出时间的数据元允许值,因篇幅关系未放在本文中。第4个数据元是“汗出程度代码”,是汗出的多少程度在特定分类中的代码,数据元值的数据类型是S2(字符型,以枚举的形式列出来,但列举值不超过3 个),表示格式是N1,数据元允许值有:1(微汗)和2(多汗)。第5 个数据元是“特殊汗出标志”,用来标识个体是否有特殊汗出,数据元值的数据类型是L,表示格式是T 或F。第6 个数据元是 “特殊汗出类型代码”,是特殊汗出类型在特定分类中的代码,数据元值的数据类型是S3,表示格式是N1,表2(特殊汗出类型代码表) 列出了相关的数据元允许值。第7 个数据元是“局部汗出标志”,用来标识个体是否有局部汗出,数据元值的数据类型是L,表示格式是T 或F。第8 个数据元是“局部汗出类型代码”,是局部汗出类型在特定分类中的代码,数据元值的数据类型是S3,表示格式是N1,表3(局部汗出类型代码表)列出了相关的数据元允许值。其中,表2中对特殊汗出的说明和表3中对局部汗出的说明引自朱文锋教授主编的《中医诊断学》[5]。
表1 中医问汗信息数据元目录
表2 特殊汗出类型代码表
表3 局部汗出类型代码表
4 结论
本文介绍了数据元的基本概念并以实例进行说明,论述了研究中医信息数据元标准的重要性。以中医问诊中的问汗为例来说明如何构建中医诊疗信息数据元,通过对中医问汗过程中获得的信息进行分析,从中提取出8 个数据元,提出了中医问汗信息数据元目录及相应的值域代码表。本文的研究工作对构建中医信息数据元进行了积极的探索,有一定的示范作用,对构建中医药信息数据元标准具有一定的参考价值和指导意义。
[1]国家中医药管理局.中医药事业发展 “十二五” 规划[EB/OL].(2012-07-10)[2012-10-05].http://www.satcm.gov.cn/d/file/2012-07-13/f00a06c07b24bb3fe0647e7e1692e68a.doc.
[2]王 丹,王文生.元数据与数据元的内涵及其应用[J].农业网络信息,2005(11):27-30.
[3]卫生部.卫生信息数据元标准化规则[EB/OL].(2009-01-22)[2012-10-05].http://www.chima.org.cn/pe/Article/UploadFiles/200906/2009 0618163221757.pdf.
[4]哈孝贤.漫谈中医对病证的诊断(三)——问诊之二[J].开卷有益(求医问药),2008(2):28-29.
[5]朱文锋.中医诊断学(第2 版)[M].北京:中国中医药出版社,2007:18-19.