基于前向对向传播神经网络的信息检索技术研究
2012-06-09余素雅
余素雅
(空军航空仪器设备计量总站 北京 100070)
信息检索(Information Retrieval)广义的定义是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。 狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,即信息查寻(Information Search或Information Seek)。信息检索是获取知识的捷径,是科学研究的向导,是终身教育的基础。信息检索的全过程包含两个方面,一是信息标引和存储过程,二是信息的需求分析和检索过程。人工神经网络(Artificial Neural Network,ANN)是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。人工神经网络是通过直观性思维方式模拟人的思维,是一种非线性动力学系统,将分布式存储的信息综合起来,在忽然间产生想法或解决问题的办法。这种思维方式的根本之点在于信息是通过神经元上的兴奋模式分布储在网络上,并且通过神经元之间同时相互作用的动态过程完成信息处理。将人工神经网络应用于信息检索技术中,可以建立一种更高效的信息检索模式。
1 信息检索技术概述
1.1 信息检索的基本概念
1.1.1 检索的意义
信息具有共享性,信息资源共享 (Information Resource Sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,即检索(Searching)。信息的检索、利用和创造是一个循环和增值的过程,通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充。
1.1.2 信息检索的基本原理
信息检索的基本原理是指用户信息需求与文献信息集合的比较和选择,是两者匹配(Match)的过程,它既是用户的信息需求,也是组织有序的文献信息集合。信息检索从用户特定的信息需求出发,对特定的信息集合采用一定的方法、技术手段,根据一定的线索与规则从中寻找出相关的信息。信息检索原理如图1所示。
图1 信息检索原理Fig.1 Principle of information retrieval
1.1.3 信息检索的对象
1)文献检索(Document Retrieval):以文献(包括题录、文摘和全文)为检索对象的检索,分为全文检索和书目检索。
2)数据检索(Data Retrieval):以数值或数据(包括数据、图表、公式等)为对象的检索。
3)事实检索 (Fact Retrieval):以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。
1.2 信息检索方式
信息检索从技术上分为手工检索 (Manual Retrieval)(手检)和计算机检索(Computer-based Retrieval)(机检)两大类。
1.2.1 手工检索
手工检索使用的多为印刷型或书本型检索(Paper-based Retrieval)工具,早期有检索卡片,现在使用最多的是检索刊,它定期地将最新收集到的信息、文献加以汇总、组织和报道。手工检索的技术要求不高,以人的劳动为本,由人来翻阅、比较、选择、完成匹配。手工检索工具能提供的检索点十分有限,检索结果往往不尽人意。
1.2.2 计算机检索
计算机检索是通过数据库系统实现的,其检索系统包括计算机主机设备、外部存贮器、输入输出设备、终端设备、通信设备等硬件设施,还需要控制、提供检索的软件系统,包括通信软件、操作系统、应用程序等,以实现对数据库的信息存取。计算机检索过程是在人与机器的合作、协同下完成的,它们经常用实时(Real Time)、交互(Interactive)的方式从计算机存贮的大量数据中自动分拣出用户所需要的信息。计算、比较、选择的匹配任务由机器执行,而人则是整个检索方案的设计者和操纵者。计算机检索的性能明显优于手工检索,主要表现在检索的信息量大、数据更新快、检索功能强、检索结果输出的多样性等方面。
1.3 信息检索的4个要素
1.3.1 信息意识
信息意识是信息检索的前提,它是指人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。信息意识含有信息认知、信息情感和信息行为倾向这3个层面。
1.3.2 信息源
信息源,及信息的来源,它是信息检索的基础,其构成按文献载体可分为印刷型、缩微型、机读型、声像型,按文献内容和加工程度可分为一次信息、二次信息、三次信息,按出版形式可分为图书、报刊、研究报告、会议信息、专利信 息、统计数据、政府出版物、档案、学位论文、标准信息。
1.3.3 信息获取能力
信息获取能力是信息检索的核心,它用来了解各种信息来源、掌握检索语言、熟练使用检索工具、以及对检索效果进行判断和评价。判断检索效果的两个指标,即查全率=被检出相关信息量/相关信息总量(%)、查准率=被检出相关信息量/被检出信息总量(%)。
1.3.4 信息利用
信息利用是信息检索的关键,社会进步的过程是一个知识不断的“生产-流通-再生产”的过程。为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,创造出新的知识和信息,从而达到信息激活和增值的目的。
1.4 常用信息检索技术
1.4.1 布尔逻辑检索
利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种技术。常用的布尔逻辑算符有 3 种,逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。
1.4.2 截词检索
截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀就可以派生出许多意义相近的词等等。这是就要用到截词检索。
1.4.3 位置检索
位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。
1.4.4 字段限定检索
字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。
1.4.5 加权检索
加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。
1.4.6 聚类检索
聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。
1.5 科技信息检索的基本流程
科技信息检索的流程如图2所示。
图2 科技信息检索流程Fig.2 Sicence and technology information retrieval process
2 前向对向传播神经网络
1987年美国计算机专家Robert Hecht-Nielsen将Kohonen特征映射网络与Grossberg(格劳斯贝格)基本竞争网络相结合提出了对向传播神经网络 (Counter Propagation Network,CPN),也称作对传网,它是一种新型特征映射网络,提供了一个输入模式和输出模式之间的双向映射,并被广泛地应用于模式分类、函数逼近、统计分析和数据压缩等领域。CPN让网络的隐藏层执行无监督学习,它是解决多级网络训练的另一个思路。CPN是将Kohonen特征映射网络与Grossberg基本竞争型网络相结合的一种新型特征映射网络[4-7],它是监督学习和无监督学习相结合的神经网络,既具有监督网络分类准确精细的优点,也具有无监督网络分类灵活、算法简练的特点,将二者有机的结合起来。CPN一般分为前向对传网(Forward Counter Propagation Network,Forward-CPN)和全向对传网(Full Counter Propagation Network,Full-CPN)两种。
Forward-CPN的结构由输入层、竞争层、输出层3部分组成,如图3所示,输入层和竞争层构成自组织特征映射(Selforganizing Feature Map,SOM)网络,竞争层与输出层构成基本竞争网络。Forward-CPN属于监督学习和无监督学习相结合的网络,它从整体上分析属于监督型网络,从输入层和竞争层构成的SOM网络上分析属于无监督型网络。
Forward-CPN的隐层为竞争层,竞争层获胜神经元调整其内星和外星权值向量。内星权值向量采用无监督学习算法,权值调整的目的是使得权值向量不断靠近当前的输入模式类,从而将该模式类的典型向量编码到获胜神经元的内星权值向量中;外星权值向量采用监督学习算法,权值调整的目的是使得外星权值向量不断靠近并等于期望输出,从而将该输出编码到外星权值向量中。
图3 Forward-CPN模型Fig.3 Model of forward-CPN
Forward-CPN从输入层到竞争层,网络按照SOM学习规则产生竞争层获胜神经元,并按照这一规则调整相应的输入层到竞争层之间的连接权值。从竞争层到输出层,网络按照基本竞争网络学习规则得到输出层各神经元的实际输出值,并按照有监督学习规则的误差校正方法调整相应的竞争层到输出层之间的连接权值。经过上述反复学习,将任意的输入模式映射为输出模式。
Forward-CPN算法可以分为两个阶段,第一阶段对输入层-竞争层的权值矩阵进行训练,使权值向量不断靠近当前的输入模式类;第二阶段对竞争层-输出层的权值矩阵进行训练,使权值向量不断靠近并等于目标输出。
3 基于前向对向传播神经网络的信息检索
3.1 基于Forward-CPN的信息检索原理
1)将服务器系统中的每个分类主题词分配给Forward-CPN输入层的每个神经元,建立“输入层-竞争层”权值矩阵。
2)将用户的初始检索提问词集和作为神经网络的输入模式集合提供给网络,通过提问词集和的输入模式通过网络的竞争层,到达输出层。
3)不断地将输入模式集合中的输入模式反复提供给网络,让网络完成学习,直到某一时刻,网络的输出神经元能够满足用户期望输出的结果,网络达到稳定。
4)对网络输出端检索出的信息进行智能分类,使用户获得更多的想得到的结果。
3.2 基于Forward-CPN的信息检索算法设计
步骤1:输入模式预处理
将每个输入模式进行归一化处理,将二进制离散数据{a1,a2,…an}转换为双极式数据{x1,x2,…xn},即
步骤2:初始化权值矩阵 w1和w2。
步骤3:将利用检索提问词建立的输入模式集合提交给网络。
步骤4:通过网络的权值矩阵w1和w2,对输入模式进行学习。
步骤5:当网络检索到所有信息时,网络处于稳定状态,停止运行,同时输出检索结果。
3.3 仿真实验
假设现有 6 篇文献分别为 D1、D2、D3、D4、D5、D6,将其存储于服务器进行检索。Forward-CPN输入层神经元为3个,隐层神经元为7个,输出层神经元为6个。利用6篇文献建立输入模式,即
将其转换为双极数据模式,即
然后,利用Forward-CPN进行仿真,与传统方法比较,前者具有更好的效果,如表1所示。
表1 Forward-CPN方法与传统方法比较Tab.1 Compare between Forward-CPN and traditional method
4 结束语
通过对信息检索技术的基本概念、原理、检索方式、以及科技信息检索流程的分析,在对前向对向传播神经网络的基本模型和算法的研究的基础上,提出了基于前向对向传播神经网络的信息检索的原理和算法,并将这种算法与传统方法通过仿真实验进行对比,在保持100%的查准率的情况下,将查全率由79.63%提高至85.59%,获得了较好的效果。
[1]周瑛.神经网络作为分类器的算法研究及其在信息检索中的应用[D].合肥:安徽大学,2006.
[2]刘斌,黄铁军,程军,等.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24.LIU Bing, HUANG Tie-jun,CHENG Jun, et al.A new statistical-based method in automatic text classification[J].Journal of Chinese Information Processing,2002,16(6):18-24.
[3]Salton G,McGill M J.Introduction to modem information retrieval[C]//New York:McGraw Hill,1983.
[4]Hecht Nielsen R.Counter propagation network[C]//Proc.of IEEE First Int’l Conference on Neural Networks,1987(2):19-32
[5]Kuzmanovski I,Novic M.Counter-Propagation neural networks in matlab[J].Chemometrics and Intelligent Laboratory System,2008(90):84-91.
[6]金明曦,武妍.基于对向传播神经网络的人脸识别方法[J].电子科技大学学报,2004,33(5):573-576.JIN Ming-xi,WU Yan.Face recognition based on counter propagation network[J].Journal of University of Electronic Science and Technology of China,2004,33(5):573-576.
[7]葛哲学,孙志强.神经网络理论与MATLAB R2007实现[M].北京:电子工业出版社,2007.
[8]Hagan M T,Demuth H B,beale M H,著.神经网络设计[M].戴葵,等译.北京:机械工业出版社,2006.
[9]Fredric M.Ham,Ivica Kostanic,著.神经计算原理[M].叶世伟,王海娟,译.北京:机械工业出版社,2007.