APP下载

DICOM标准在医学CT图像语义自动标注中的应用构想

2012-10-24张腾

和田师范专科学校学报 2012年4期
关键词:分词本体语义

张腾

(北方民族大学计算机学院 宁夏银川 750021)

DICOM标准在医学CT图像语义自动标注中的应用构想

张腾

(北方民族大学计算机学院 宁夏银川 750021)

如今医学 CT图像的标注还处于人工标注和半人工标注,使用的技术与其他图像的标注技术一样,都是从图像特征入手,对图像的纹理、颜色、外形等信息进行处理,之后进行标注,面对一些失真图像无法进行准确的标注。为解决这个问题,本文提出了结合DICOM标准对医学CT图像进行语义标注,并在一定程度上实现语义自动标注。

DICOM;CT图像;本体;语义标注;自动标注

一、引言

随着计算机技术和数字成像技术的发展,医学信息化也在快速发展。核磁共振(MRI)、计算机断层扫描(CT)、超声成像(US)等医学成像技术也在逐步走向成熟,由这些技术所生成的 DICOM图像不仅为医生诊断病例提供了重要的诊断依据,而且可以进行远程传输,面对疑难杂症医生不仅可以利用自身医院的医学资料,还可以通过网络获取其他医院的图像信息等,从而对病例做出更加准确的判断,在一定程度上减少误诊的出现频率,使患者可以得到有效的治疗。影像归档与通讯系统(PACS)是对医学图像信息进行数字化采集、存储、管理、传输和重现的系统。而如何快速有效的寻找到所需图像资料便成为摆在人们面前的一个新问题。以往的检索方式是基于关键词的检索,如果需要某一种病例的信息,必须将这种病例作为关键词进行检索,使用简单且方便,但是所得到的图像信息比较局限,与其相关的信息比如并发症等无法显示出。于是医学图像的语义标注由此产生,结合语义技术与医学图像可以更好的实现医学图像的检索,使得检索结果更加丰富且准确,对医生诊断病例提供了更加准确的医学资料。

DICOM标准即数字影像和通信标准,在医学影像信息学的发展和 PACS的研究过程中,由于医疗设备生产厂商的不同,造成与各种设备有关的医学图像存储格式、传输方式千差万别,使得医学影像及其相关信息在不同系统、不同应用之间的交换受到严重阻碍。为此美国放射学会(ACR)和全美电子厂商联合会(NEMA)认识到急需建立一种标准,以规范医学影像及其相关信息的交换,DICOM标准就是在这样的背景下产生的。

如今医学 CT图像的语义标注仍处于人工标注和半人工标注阶段,所使用技术与对其他图像进行标注的技术一样,一般有两种:①提取图像视觉信息,从纹理,颜色,外形等方面入手,对图像信息进行加工处理,之后进行标注;②从图像的内容入手,通过算法对图像进行标注。这两种方法都暴露出一个问题,面对失真图像无法标注。

DICOM文件不仅包含了图像信息,还包含了患者姓名、时间、地点和病历信息等后期附加信息。这些附加信息的加工便可对医学 CT图像进行准确标注,而且面对失真图像也不会出现无法标注的情况。

二、DICOM标准在医学 CT图像语义自动标注中的应用构想

(一)DICOM标准

DICOM标准从属于医学信息学领域。在这个领域内,它负责医学成像设备之间数字信息的交换。因为医学成像设备可以与其他的医学设备互操作,标准的范围需要与医学信息学领域的其他部分重叠,DICOM 3.0由下面九个部分组成:

第一部分:介绍和概述;第二部分:兼容性;第三部分:信息对象定义;第四部分:服务类规范;第五部分:数据结构和语义学;第六部分:数据字典;第七部分:消息交换;第八部分:消息交换的网络通讯支持;第九部分:消息交换的点对点通讯支持。各部分关系描述图见文末图1。

(二)dcm4che和dcm4chee

dcm4che是使用Java语言开发的一个开源类库,官方网站为 h ttp://www.dcm4che.org/,支持JDK1.4以上。dcm4che的核心是实现了 DICOM 标准的应用。dcm4che-1.x中的工具包在世界上许多应用产品中得到应用,现阶段在 dcm4che-2.x在 dcm4che-1.x基础上重新设。目前为止,最新的版本为2012年1月24日发布的dcm4che-2.0.26。由于完全符合DICOM标准,所以就其本身而言对于学习 DICOM标准的研究人员来说学习dcm4che也是学习DICOM标准的一个方法。

dcm4chee使用的是 J2EE架构,基于 JBoss服务器,提供了一系列的临床应用,主要有两种用处,一种是用于 DICOM图片的存储管理;另一种是结合OsiriX,K-PACS,ClearCanvas,Ginkgo CADx等查看器形成一个图片存档通信系统,也就是 dcm4cheePACS,这个系统开源,支持多平台,免费且是企业级的 PACS服务器,支持 DICOM和 HL7协议,可在 dcm4 chee PACS上轻松管理上 T级别的数据(1 TB=1000 GB=1000,000 MB=1000,000,000 KB)。

③查询报销凭证。对于一些财务档案管理规范、账目清楚的村庄,如果机井建设时间确定,可以通过查询报销凭证的方法获得机井设备型号。

在dcm4che2中包含了一系列的连接dcm4chee和存储器的方法,还提供了一些处理 DICOM对象的方法,比如 dcm2txt,dcm2xml,dcmdir,jpg2dcm,pdf2dcm,txt2dcm,xml2dcm等等。其中 dcm2xml是在设想中需要用到的一个方法。

(三)语义标注

在了解语义标注之前,首先需要明确提出语义标注的目的在哪,语义标注的最终目的就是智能化,让计算机知道操作者的目的,之后对应目的使用本体和推理作出正确的反馈,其中的本体原本是一个哲学理论中的概念,用于描述事物本质,现在作为信息抽象和知识描述的工具被计算机领域采用,本体的构建需要领域专家与计算机人员合作完成。本体构建的基础是领域概念的抽象表示和描述,以及领域中概念的层次描述和潜在的关系及公理,在构建本体的过程中一般不会考虑实例,因为在一个领域中实例往往很多而且动态性比较强,不可能描述所有的实例,所以只有当本体和实例结合时才有意义,找到实例中的对应的领域本体,构建映射实例与本体的映射关系,这就是语义标注,在语义层面上指出资源的特征,比如,图书馆里给书分类可以视为语义标注,它使用本体(分类法)为资源(书)赋予语义特征(分类号),为博客文章添标签也可以视为语义标注,它使用本体(已有标签集合)为资源(文章)赋予语义特征(标签),语义标注的结果是语义元数据,如一本书的分类号是什么,一篇文章的标签是什么都是语义元数据,可以用于检索,owl是本体表示语言。

语义标注的方法一般有两种,第一种是人工标注,将标注信息手工标注到需标注的事物上,建立标注信息与需标注事物之间的联系,这种方法标注准确率最高,除非出现人为差错,不然不会出现问题;第二种方法是自动标注,通过算法,模型,机器学习等一系列的方法将信息标注到需标注事物上,建立标注信息与需标注事物间联系,自动标注相较于人工标注准确率上有所下降,但排除了人为差错,且节省人力资源,减少资源浪费,自动标注已成为时下研究的重点。语义标注工具如SHOE Knowledge Annotator,Annotea,SMPRE,Yawas,Melita,GATE等,有很多。

(四)基于 DICOM标准的医学 CT图像语义自动标注实现方法构想

1.本体构建

本体作为共享的概念模型的形式化的规范说明,它反映的是某一个领域的概念层次描述和潜在的关系及公理,在构建本体的过程中一般不会考虑到实例,因为在一个领域中实例往往很多且动态多变,不能能描述出所有的实例。

本体构建工具很多,Ontolingua Server、Ontosaurus、WebOnto、Protégé-2000、OntoEdit、WebODE、OILEd和DUET都比较著名,其中 Protégé是斯坦福大学基于 Java语言开发的本体编辑和知识获取软件,属于开放源代码软件,主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具软件,由于其优秀的设计和众多的插件,已经成为目前最广泛使用的本体编辑软件之一,相较于其他的本体构建工具而言,Protégé最大的好处是支持中文,且插件很多,所以使用的越来越广泛。

医学 CT图像本体构建方法很多,下面介绍两种划分方法,第一种是按照 CT的检查范围来进行划分,分为头部、胸部、腹部、脊柱和四肢。其中头部疾病又分为头骨类、脑类等;胸部可分为肺部病和骨类;腹部可分为结石类和肿瘤、出血、炎症等;脊柱四肢可分为骨类、结核、肿瘤等。第二种按照所属病变来进行划分,分为炎症、肿瘤、骨类、出血、外伤、结核、结石等。炎症中有脑部炎症、胸部炎症和腹部炎症等。肿瘤分为脑部肿瘤、胸部肿瘤和腹部肿瘤等。骨类分为脑部骨类、胸部骨类、腹部骨类、脊柱和四肢骨类。出血分为脑部出血、胸部出血和腹部出血等;外伤分为脑部外伤、腹部外伤、脊柱四肢外伤等。结核分为肺结核、脊柱四肢结核病等;结石分为胆结石、泌尿系统结石等。

按照这两种划分方法可以构建出这些概念之间的层次关系和潜在的关系等,之后再使用 Protégé软件进行本体的构建。

2.工具的编写及工具目的

对医学 CT图像进行语义自动标注时首先需要读取到 DICOM图像中的文本信息,所以需要编写一款可以对DICOM图像进行编辑的软件,可以实现 DICOM图像的显示以及图像内部文本信息读取及修改。除此之外,还需要自动生成 XML文档,文档具有对专业词汇的标注信息。

由于有 dcm4che这个开源的 Java类库,所以使用Java相对于其他语言在编写工具软件是会有很大的优势。在 dcm4che类库中有许多方法可以调用,比如dcm2txt,dcm2xml,dcmdir等等,可以通过这些方法来实现所需要的功能。

3.对文本信息的处理

在读取到 DICOM图像中的文本信息之后,需要对文本信息进行处理得到专业词汇,而如何得到专业词汇便成为自动标注的一个关键问题。对于这种问题一般会使用中文分词算法,传统的中文分词算法有很多,比如机械分词法(基于字符串匹配的分词法),基于理解的分词法,基于语义的分词法和基于统计的分词法。而与Java结合比较紧密的是庖丁解牛分词器,庖丁系统是个完全基于 lucene的中文分词系统,庖丁解牛分词器有一个很明显的缺点,在分词时无法根据语境来进行分词,可能会出现分词错误,比如对“发展社区老年活动场所和服务设施”进行分词,有可能会将“和服”分解出来,根据语境这两个字完全没有意义。DICOM图片中的文本信息十分专业,观察一段CT诊断报告:“左侧基底节区见不规则片状低密度影,右侧内囊前肢小片状低密度影,脑室系统未见明显异常,脑沟裂显示清晰,中线结构无移位”,由此可见,CT诊断中的用语十分专业,语义确定,且简单无修辞,所以当使用庖丁解牛分词器对其进行分词时,在一定程度上会减少上述情况的发生。

4.专业词汇的标注

使用分词器对 DICOM图像中的文本信息处理完之后就会得到一个个的专业词汇,之后的工作便是对专业词汇进行标注,使之与对应本体建立联系。

可扩展标记语言(Extensible Markup Language,XML),用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。在工具软件编写阶段还会编写出自动生成 XML文档的功能部件,这个部件的主要功能就是对专业词汇进行自动的语义标注,并生成 XML文档,在文档中有语义标注信息。当分解出的专业词汇与本体名完全一致时,会自动生成相应的 XML文档,而当专业词汇与本体名不完全一致时,会进行语义相似度计算,通过算法将相似度最高的本体标注到专业词汇上,并生成 XML文档,当然这种情况会降低标注的准确率,最好的解决办法就是在本体构建阶段将所有本体构建出来。

三、结束语

通过本文的分析,我们会发现医学 CT图像的语义自动标注是可行的,而且不仅 CT图像,任何 DICOM图像的语义自动标注都是可行的,惟一的影响因素就是本体的构建,若想自动标注任何 DICOM图像就需要在本体构建阶段将所有的医学概念、概念之间的层次关系、隐含关系以及公理构建出来,这个工程十分庞大,不是单独个人可以完成的,但是可以预想的是这个本体库可以构建完成,医学图像的语义标注会向前迈进一大步,再加上语义检索技术,往后医生看病时出现误诊的几率会大大降低,这对与人类的健康事业无异于是一个巨大的贡献。

[1]H Lilian Tang,Rudolf Hanka,Horace H S. Histological Image Retrieval Based on Semantic Content Analysis[J]. IEEE Transactions on information technology in biomedicine,2003(l).

[2]Hong SHAO,Ji-Wu ZHANG, Wen-cheng CUI,etal.Automatic Feature Weight Assignment Based Genetic Algorithm for Image Retrieval[C]. IEEE International Conference on Robotics,Intelligent Systems and Signal Processing,2003,P731-735(ISTP收录000189506600128).

[3]W. Wei,P. M. Barnaghi. Semantic support for medical image search and retrieval. Proceedings of the Fifth IASTED International Conference on Biomedical Engineering. Anaheim,CA,USA:ACTA Press,2007,P315-319.

[4]Xiaohang,Ma.Semantics Modeling based Image Retrieval System Using Neural Networks[C]∥IEEE Conf. Image Processing,2005(1),P1165-1168.

[5]向前.基于本体的图像检索系统[博士学位论文].北京交通大学,2008.

[6]卢汉清,刘静.基于图学习的自动图像标注.计算机学报,2008(9),P1629-1639

[7]韦娜,耿国华,周明全.基于相关反馈的文物图像语义标注[J].西北大学学报,2008,P387-390.

[8]王梅,周向东,施伯乐,et a1.基于扩展生成语言模型的图像自动标注方法[J].软件学报,2008(9),P2449-2460.

张腾(1988-),男,山西省垣曲县人,北方民族大学计算机科学与工程学院计算机应用技术专业硕士。

2012-03-11

猜你喜欢

分词本体语义
Abstracts and Key Words
对姜夔自度曲音乐本体的现代解读
语言与语义
结巴分词在词云中的应用
值得重视的分词的特殊用法
“上”与“下”语义的不对称性及其认知阐释
《我应该感到自豪才对》的本体性教学内容及启示
认知范畴模糊与语义模糊
Care about the virtue moral education
高考分词作状语考点归纳与疑难解析