医学信息检索与利用的探讨
2016-11-02薛萌
薛萌
摘要:随着信息技术的发展和网络设备的普及,大数据时代下信息的需求量逐渐增加。对于专业要求性强且发展迅速的医学来说,信息检索技术的优化和利用对于促进医学信息建设,加强信息的互动性和层次性有重要意义。本文就目前医学信息检索技术展开研究,并基于医学专业信息检索特点,提出了更为便捷的信息检索方式,以期促进医学信息检索技术的发展。
关键词:信息检索;医学信息;检索技术
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)23-0241-02
随着信息技术的发展和大数据时代的到来,医学理论和医学专业技术的革命速度加快,信息量逐渐增大。大量的信息为医务工作者的学习和研究提供了便利,同时海量的数据也为其带来了信息检索和筛选的障碍。传统的医学信息检索方式通过文本检索的方式得到的返回结果数量过多,需要额外对返回结果进行过滤和选择,难以满足人们对医学信息检索精准和快捷的需求。因此,本文在分析了医学信息检索相关技术的基础上,探讨了短语检索方式在医学信息检索与利用中的优势,为医学信息检索与利用提供参考和借鉴。
1 医学信息检索的概述
1.1 医学信息检索的概念
信息检索是指利用一定的方式将信息进行有序地组织,根据信息检索者的需求来找出其需求信息的过程与技术。那么医学信息检索的概念就是指,从信息资源的大集合中,查找所需要的医学文献或者是查找医学文献中所需要的医学信息内容的过程和技术。从概念中我们得知医学信息检索是医学信息重新匹配的过程,包括了医学信息的处理和检索两个部分。
信息检索的方式包括手工检索、机械检索和计算机检索,其中计算机检索是信息检索的重点部分,是指利用互联网终端和信息技术,查找和获取信息的检索方式,这种方式符合大数据时代的要求,也是未来发展的主要方向,本文就计算机信息检索展开研究。
1.2 医学信息检索的特点
专业性。医学是一项非常严谨的专业研究,从事医学工作的医务人员都有非常具体而明确的研究目标与方向,对相关的信息资源有着非常深入的了解,且关注的范围和内容有针对性,有强烈的专业特征。
时效性。由于医学技术的迅速发展,在知识不断更新、技术不断优化的医学领域中,对于医学信息的实时了解与研究非常重要。医学专业的工作者对于医学信息检索的时效性需求更为强烈,及时、高效的医学信息对于医疗技术的发展和进步也有至关重要的作用。
价值性。对于医学而言,高质量、高效率的医学信息资源利用是提升医学专业理论水平,加深专业深度的重要方面。在大数据时代下,海量的信息中不乏虚假、质次、不准确的信息,这种信息的存在给医学的发展和医学信息检索带来不利。医学信息检索和利用中的价值性非常重要。
2 医学信息检索与利用的相关技术
2.1 网络爬虫技术
网络爬虫技术是根据一定的规则和方法自动的抓取万维网中信息的程序或者脚本技术。网络爬虫技术是信息检索与利用的主要技术,为医学信息的检索提供了必要的信息来源。
网络爬虫技术的模块包括了初始的URL集合、页面库、待抓取URL队列、页面下载模块、页面分析模块和链接过滤模块六部分。常见的信息抓取策略有深度优先策略和广度优先策略两种。深度优先是指在抓取信息时以深度为最优先的选择,随着链接逐渐往下跟踪,直到达到这条链条的重点,再从其他页面开始抓取信息。广度优先是将页面所有链接都进行提取,放入带抓取URL队列,逐层抓取页面信息。
2.2 结构化信息
信息在经过分析之后可以分解为多个有联系的组成部分,各个部分之间存在着明确的层次结构被称之为结构化信息,结构化信息的使用和维护可以通过数据库进行有效管理和操作。医学信息多数由文本、图片、表格、档案、多媒体内容等形式组成,这类信息内容不可预知,其内容无法直接进行组织排列,被称为非结构化信息。非结构化信息难以实现高效的流转,增加了检索中的信息处理难度,非结构化信息的结构化是信息检索和利用的重要步骤。利用网络爬虫技术抓取的网页并非是结构化信息,需要进一步对信息进行提取和过滤,增加信息检索的精确度,将信息以结构化的形式进行保存。
2.3 索引技术
索引技术是提高非结构化信息的检索和提取效率的有效方法,利用索引技术能够有效地提取非结构化数据信息,使得数据信息得以重新组织,加强其结构性,加快信息检索的效率。索引技术包括了前向索引和倒排索引两种。
前向索引是较早也较成熟的索引技术,利用前向索引技术对文本信息进行分词组分析,获取文本信息中的词元token、频次等信息。这种技术进行信息检索颇为不便,然而利用前向索引获取的词,可以为倒排索引建立条件。
倒排索引通过关键字来获取信息,一般情况下倒排索引包括了词典和倒排链表两部分。词典是根据索引词的规则排列而成的,是对索引词、频次和指针的记录。倒排链表是对文本的集合,倒排链表的节点数是根据词典中的document frequency来制定。
倒排索引能够对复杂信息进行高效查询,将信息转变为几个集合的交集,通过一定的计算方法获取所需的数据信息,减少了信息读取的时间,降低了数据运算的难度,提升了检索的效率。
2.4 搜索结果排序技术
信息索引完成之后,利用关键字进行查询能够快速获得所需的信息。然而对于专业程度高、信息量巨大且更新快速的医学信息来说,在通过信息索引完成信息检索,其检索的结果是大量的相关信息但排列无序仍然无法满足信息检索与利用的需求。对信息搜索结果的排序非常重要。信息搜索结果的排序需要先利用关键词查询获取相关信息文本,再通过一定的计算方法对本文的相关度进行计算或者评分,根据计算的结果来进行排序获取结果集。通常情况下,搜索结果排序中的计算方法包括PageRank计算法和Hits计算法两种。
PageRank计算法是利用入链的数量来判断网页信息的重要性的,页面的入链数量越大则判断页面越重要,在实际计算中需要多次的迭代来确定信息的评分。Hits计算法是根据枢纽值和权威值互相增强的关系来进行计算的。枢纽值是指页面中包含的链接所指向页面的权威值的和。权威值是指包含页面链接中页面的枢纽值的和。在计算过程中根据Root Set结合内页面的出入度建立数据矩阵,对矩阵进行迭代计算,枢纽值和权威值达到既定的收敛阈值获取结果。
3 医学信息检索与利用的优化——基于短语检索方法的查询扩展
随着大数据时代的到来,对于医学专业而言,在海量信息中精确获取目标信息变得越来越重要。基于短语检索方法的查询扩展能够引导医学信息的需求者发现需要的信息,实现信息的高效利用。
基于短语检索方法的查询扩展能够利用富含语义信息的概念来取代传统信息检索方式,传统信息检索方式有耗时耗力、增加索引存储空间的弊端。短语信息检索模型在医学信息检索与利用中以自身比单词长比句子段的单位特点,能够更好地表达概念结构,消除歧义,确定上下文环境,以提升医学检索的性能。在短语检索中分为句法层面的短语构造和统计学意义的短语构造,为了提升检索精确度,句法层面的短语构造更有利用价值。
在医学信息检索与利用中,短语检索方式和查询扩展包括三个步骤。第一是借助MetaMap工具自动实现在检索查询中识别短语词组phrases;第二步是利用检索引擎Indri和自带的信息结构化语言实现在文本中识别短语词组phrases;第三步同样利用Indri和自带的信息结构化语言组合短语和原始查询中的词项,生成新的查询并进行搜索结果排序计算完成最终的检索。
这种基于短语的医学信息检索与利用方式相对于传统检索方式在各个性能方面都有很大的提升,能够缩短信息检索时间,提高信息检索的精确度,面对较为复杂的医学信息查询亦能应付自如,是较为理想的医学信息检索与利用方式。
参考文献:
[1] 陈永莉,洪漪. 检索语言在医学信息管理与检索中的应用综述[J]. 图书情报知识,2015(3):72-79.
[2] 胡德华,种乐熹,邱均平,等. 国内外知识检索研究的进展与趋势[J]. 图书情报知识,2015(3):93-106.
[3] 郭少友,李亚菲,梁园园. 基于细粒度语义化描述的医学文本检索[J]. 情报理论与实践,2015(8):130-134.