APP下载

医学装备基础数据的挖掘与应用

2013-11-12孙卫星

中国医疗器械杂志 2013年3期
关键词:搜索引擎医疗器械装备

孙卫星

湖州市中心医院设备科,湖州市,313000

0 引言

随着计算机技术在医学领域广泛应用,医学装备管理信息化日益引起人们的关注,面对海量的信息,怎样及时、有效、准确、可靠收集到有用信息,利用信息抽取技术将半结构化、非结构化的文本、电子和网页信息转化和提取为结构化的行业基础数据,形成共享平台并加以有效利用,已成为医学装备信息化建设的关键。自2006年起,在完成卫生部委托的“全国大型医用设备管理信息系统”和浙江省卫生厅委托的“浙江省医学装备管理平台(www.zjyxzb.org.cn)”等信息化项目的同时,我们对医学装备基础信息进行收集和数据挖掘。不仅建立了满足医学装备信息化管理项目所需要的基础信息数据库,更有价值的是探索了其获取的方法和策略。

1 基础信息的确定

医学装备基础信息,其涉及内容广泛、数据庞杂、边缘模糊、标准化程度低。在收集时,确定信息对象是非常重要的基础工作。为保证信息收集的质量和利用价值,必须做到所收集信息的准确性,全面性和时效性。包括收集时间、地域、国别和语言等。该项目确定的基础信息有:

(1) 医疗器械命名、分类与代码 国家卫生部颁布《全国卫生行业医疗器械、仪器设备(商品、物资)分类与代码》 (WS/T118-1999);国家食品药品监督管理局颁布《医疗器械分类目录》(国药监械[2002]302号);《医疗器械分类目录》2005版(征求意见稿,食药监械函[2004]96号);国际标准化组织公布《ISO/FDIS5225命名-用于管理资料交流的医疗器械命名系统规范》;

(2) 生产企业信息 包括境内、外的生产企业信息,获得国家食品药品监督管理局医疗器械生产许可证企业的官方网站等;

(3) 经营企业信息 取得属地食品药品监督管理局医疗器械经营许可证的经营公司的信息;

(4) 医疗器械产品信息 获准在我国上市的医疗器械产品信息,包括产品注册证、产品标准(国际标准、国家标准、行业标准和企业标准)、医疗设备技术参数(Datasheet)等;

(5) 市场销售信息 包括医疗器械产品的价格(对应医疗器械具体型号及配置)、市场分布、代理公司及销售人员;

(6) 医疗设备应用信息 医疗设备操作规程,预防性维护模板,各种应用分类:高风险医疗器械、医用计量器具和管理ABC等;

(7) 维修和售后服务信息 境内、外医疗器械产品的售后服务机构信息(含原厂、授权机构和第三方)及维修工程师信息。配件信息:包括生产商、供应商、配件的代码等。维修资料:包括维修手册、故障代码和故障排除案例;

(8) 报废和淘汰设备信息 已报废和淘汰医疗设备信息,特别是大型医用设备,包括设备类别、规格型号、制造商、使用单位等;

(9) 常用表格模板 提供大型医用设备配置和使用管理所需常用表格,包括采购选型、装机验收、效益分析、故障排除和安全质控等工作流程的模板;

(10) 人员和机构信息 省内医学工程、设备使用部门(影像医学技术等)人员信息。机构信息:包括招标、资产评估和计量检测机构等;

(11) 相关政策法规 省级及以上行政主管部门颁布的,与医学装备管理有关的政策法规(包括等级医院标准);

(12) 其它 包括与医学装备有关的主要网站、行业协会、研究机构、学术团体和报刊杂志等。

2 基础信息收集方法

医学装备信息收集,包括搜索、整合、保存和利用,是数据挖掘的基础工作,直接关系信息应用的质量。信息从来源可以分为:实物型、文献型、电子型和网络型。根据不同信息类型,采取不同的收集策略。

搜索是网络信息收集重要的一步,搜索引擎是当今主要的网络信息检索工具。随着互联网技术的发展,搜索引擎数量越来越多,功能越来越强,包括通用和专业的。收集医学装备信息,需要选择合适的搜索引擎。对于比较专业的信息,用通用搜索引擎,会存在搜索结果数量过大、相关性不强、利用率底的局限性,所以要找到和选用专业的搜索引擎,特别是与医疗器械有关的专业搜索引擎,即“垂直搜索引擎”的概念。由于医学装备是一个交叉的学科,我们所要的信息,可能是通过医学或者药品专业,甚至是与商业有关的搜索引擎中得到。目前,我们能使用到的搜索引擎已有100余个,大部分是商业化的,相对管理方面的信息要少。

医学装备信息具有全球性,大部分高精尖设备产自发达国家,对于收集的信息,有语言翻译处理要求。现在很多知名的搜索引擎都带有在线网页翻译的功能,且提供的语种较多,如谷歌有50多种。这些工具虽然为解决语言问题提供了途径,但性能不够稳定,对网站整体翻译时有阻塞现象,更困难能是专业化程度不高,特别是专业和缩写词汇误译严重,因此需要人工处理。

另外,医学装备信息还可以通过一些国外与医学装备有关的网站取得:包括专业数据库(产品、标准、专利和企业),以及各个国家政府的医疗器械监管(FDA、SFDA),学术团体、协会和研究机构等非盈利机构。因为在这些系统中,也有类似的搜索引擎功能存在。当然,这些网站的发现也与搜索引擎有关。目前,我们已收集到了与医学装备相关专业网站7000余个,涉及120余个国家,30多种语言。通过对这些网站的在线翻译,为我们收集信息提供丰富的基础素材。

3 信息处理及策略

我们所收集的信息,特别是依靠软件自动获取的,必须经人工处理,包括甄别、剔除、补充和组合等。这项工作也贯彻于数据挖掘的整个过程,也是信息的价值所在。通过用人工智能的方法,获取有价值的信息,一直是人们追求的目标。但就目前而言,医学装备基础数据的挖掘必须用计算机和人工相结合的方法,采取更合理的解决方案,更多利用现有的技术。

搜索引擎的工作过程为我们提供一个信息处理的思路。首先,搜索引擎派出一个称之为“蜘蛛”的程序,在网上发现新网页并“抓取”,存入数据库中。在这个过程中还会跟踪网页中的链接,访问更多的网页,我们称为“爬行”。这些新的网址又会被存入数据库,等待抓取。其后,蜘蛛抓取的页面文件,经分解、整理,并以表格形式存入数据库,这个过程称为“索引”,在索引数据库中,网页文字内容及关键词信息都有相应记录。然后,用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理。最后,对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并根据排名算法进行排序。我们从搜索引擎的工作过程可以看出,搜索引擎技术策略是建立在手工收集信息方法的基础上,所以再好的搜索引擎也无法与人的智慧相比,为了要取得最相关、最权威、最有用的信息,就要不断根据应用的实际需求,对搜索引擎进行优化。同样道理,搜索引擎及其优化方法的反向应用,成为取得医学装备管理基础信息的策略之一。

在有合适的搜索引擎后,关键词又是一个我们关注的问题,如称谓不同但内容相近:医疗器械、医疗设备、医疗仪器、医学装备;称谓不同但内容相同:CT、X射线计算机断层扫描仪;西门子、德国西门子、西门子医疗等。对此,我们收集和建立了相关的关键字库。另外,有些词需要专业人员来分析之间的关系,如一些医疗设备的品牌与制造商,对于飞利浦品牌,其制造商除了荷兰飞利浦医疗系统公司,还有在美国、芬兰、英国、以色列及中国的医疗设备制造企业。这些词建立关系后,我们在系统中称之为“基础字典”。数据挖掘结构示意图如图1所示。

图1 数据挖掘结构示意Fig.1 Data mining structure schematic diagram

4 数据结构化处理

医学装备基础信息,具体到实物型、文献型、电子型,其来源:(1) 医学工程相关文献、出版物等。对于文本信息的处理,首先要将其电子化,目前主要使用光学字符识别技术(OCR软件),对文本资料进行扫描,用电子设备(例如扫描仪或数码相机)检查纸上的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。(2) 医学工程相关的管理系统,如医疗设备管理信息系统。使用导出方法,或经整理生成一定格式的数据。(3)网络资源。

收集信息时,会涉及到数据的存储,保存在某个指定的关系数据库中。如果医疗器械产品基本信息是电子文档,则产品名称(英文名称)、规格型号、制造商、产地、性能与组成、适用范围、注册证号及有效期等,建立一个对应的product表,然后,将对应的信息保存到表中。我们称其为结构性数据。

所谓非结构性数据,是不能用一个表中的字段就能对应的:包括办公文档、文本文献、图片、XML、HTML、各类报表、图像和音/视频信息等。一般是建立一个包含三个字段的表,通过编号引用,通过内容描述检索。这种对非结构性数据的处理,突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段,并实现了对变长数据和重复字段进行存储和管理,在处理包括连续信息在内的非结构化信息时,有着传统关系型数据库所无法比拟的优势。

除了结构和非结构性数据外,还有其它数据,如在用医疗器械不良事件管理中,其进行持续改进(PDCA)的情况大不相同。有的处理过程很简单,有的很复杂,还有可能有一些预料外的信息。虽然其数据具有结构化的特点,但变化很大,无法简单建立一个表与其对应。而这些数据,互相有关系,要查看细节,无法按照非结构性数据处理。解决方式如下:

(1) 化解为结构化数据,对现有的对象中的信息进行整理分析,总结出不良事件中信息所有的类别,同时提取关键的信息。对每一类别建立一个子表,比如上例中我们可以建立计划子表P、实施子表D、检查子表C和改进子表A,并在主表中加入一个备注字段,将不关联和未考虑到的信息保存在备注中。这样处理,优点是查询统计比较方便,但不能适应数据的扩展及其检索,特别是不能对信息管理系统设计阶段没有考虑到的,同时又是要关心的信息的利用。

(2) 借助XML来存储数据,在考虑一定的数据检索效率情况下,同时为了能够灵活进行数据扩展,采用更改XML中对应的DTD或者XSD,将不同类别的信息保存在相应的节点中。目前虽然要借助XPATH来完成查询统计,但随着数据库对XML的支持提升,性能有望很好地解决。同时,将XML数据保存到数据库的相应字段,完成信息的存储,达到非结构性数据的利用。

5 基础数据应用与展望

目前,我们将挖掘到的医学装备基础数据,不断应用到与医学装备有关的信息管理系统中,包括,医疗机构的设备科信息管理系统、医疗器械物资管理系统,卫生行政部门的医疗器械集中招标采购管理系统、大型医用设备管理系统,食品药品监督局医疗器械监督管理系统、医疗器械不良事件管理系统等。为医疗机构和行政管理部门提供信息化管理和决策支持,也推动管理的规范化进程和信息共享。但从目前应用的广度设深度来看,医学装备基础数据的挖掘与应用工作尚处于起步阶段,需要进一步完善和扩展,使其更具实用价值,以满足信息化管理的更高需求,服务于人民群众健康。随着计算机技术的发展和实践探索深入,我们相信医学装备基础数据,在医疗器械的生产,流通、使用及监管等方面将会发挥出积极作用。

[1] 谢松城,徐伟伟,孙卫星.医疗设备管理与技术规范[M].杭州:浙江大学出版社,2004.

[2] 沈光宝,张映芳.医药信息检索与利用 [M].北京:中国医药科技出版社,2007.

[3] 倪颖杰,王律科,张军.基于高性能数据挖掘的网络海量信息处理平台[J].计算机工程与科学,2009,(S1):129-132.

[4]呼万秀,陆涛,焦强.数据挖掘技术在制药行业中的应用[J].信息技术,2012,10:63-66.

[5] 俞凯君.浅谈医疗器械标准信息的检索[J].科技情报开发与经济,2010,20(21):109-110,119.

猜你喜欢

搜索引擎医疗器械装备
这些精锐与装备驰援泸定
港警新装备
医院医疗器械维修中存在的问题及维修管理策略
欧盟医疗器械法规MDR正式执行
世界表情符号日
防晒装备折起来
北京市医疗器械检验所
北京市医疗器械检验所简介
网络搜索引擎亟待规范
基于Lucene搜索引擎的研究