SNOMED编码校验位算法解析及其对中医术语编码的意义
2015-09-19成福春张平刘华房敏
成福春 张平 刘华 房敏
摘要:本文讨论了编码之中常用到的按位累加取模、多项式乘法累加取模等校验位算法的优缺点,尤其是对系统化医学术语集(SNOMED)编码采用二面体群D5校验位算法作了较深入的讨论。二面体群D5算法不仅可以校验出所有一位错误及相邻位置换位错误,而且不需要增加字母x,是一种非常理想的校验位算法。国内目前尚无一套既具有信息技术特征,又具有中医学科本身特征的编码化的术语集,SNOMED编码采用二面体群D5校验位算法,对于中医术语编码具有重要的借鉴意义。
关键词:中医术语;术语编码;系统化医学术语集;校验位算法;二面体群D5
医学术语及其编码化,对于规范临床数据采集,数据检索分析利用、提升医疗质量以及研究的深度,具有重要意义。系统化医学术语集临床术语(systematized nomenclature of medicine clinical terms,SNOMED CT)通过编码进行世界范围内的统一术语交流,即代码唯一,或称概念唯一。但是代码所代表的内容其形式可以多样,如英文形式、中文形式或者各国语言形式。通过定义代码与代码之间的关系,来体现学科本身的逻辑与语义。
1.系统化医学术语集一临床术语编码简介
在SNOMED CT术语体系中,赋予每一个特定术语一个代码,即扩展版的SNOMED CT概念标识符(SCTID字段)。代码本身不要求有特别的含义,只是代表这个术语本身,利于计算机处理。
在代码结构中,具有相关的属性信息,如extension item identifier(扩展项目标识符),共8位,代表具体的项目编码;namespace identifier(名称空间标识符),共7位,代表维护代码的机构;partition identifier(部分标识符),2位,10代替概念,20代表描述,30代表关系;最后一位是check-digit(校验位),便于计算机自动纠错。SNOMED通过3张表来体现,即概念表、定义表、关系表。SCTID是概念表中的最重要的字段。目前扩展版的SCTID字段结构如图1。