基于语义的智能信息处理技术的研究
2014-07-24张晓孪
张晓孪
基于语义的智能信息处理技术的研究
张晓孪
智能信息处理是模拟人或者自然界其他生物处理各种信息的行为,是当前信息处理技术向多样化、集成化与智能化方向的发展,具有很高的理论研究和应用价值。经过多年的研究和探索,智能信息处理技术已经取得较大的发展,但在实际应用中还存在许多问题需要解决和完善。分析了基于概念图的语义研究在智能信息处理中的应用,并设计与实现了一个基于概念图的智能答疑系统CGQAS,通过实验结果验证了基于概念图的智能信息处理的可行性和有效性。
智能信息处理;概念图;语义研究;答疑系统
0 引言
信息与人类社会的发展密不可分,人类的生产和生活离不开对信息的收集、存储、处理和传送,信息是人类认识和改造世界的重要途径之一。信息处理是指人们对获取的信息进行加工处理,将其转化为有用信息并发布出去的过程。它主要包括信息的获取、存储、加工、发布和表示等环节。为了适应信息时代对信息处理的要求,当前信息处理技术已经逐步由单一化向多样化、集成化和智能化方向发展,从信息传播中携带信息的媒介到以上信息处理的各个环节都试图尝试通过对人类智能的模拟方法来处理各种信息。智能信息处理是面对不确定性现象和非线性系统模拟人与自然界其他生物处理信息的行为,建立处理复杂系统信息的理论、算法和系统的方法和技术[1]。近年来,智能信息处理是计算机科学的人工智能中的前沿研究方向和热点,其目标是针对处理各种类型的海量、繁杂、多样信息研究一些新的、前沿的理论方法和技术,广泛应用在系统建模、分析、决策、控制、优化和设计等领域[2]。智能信息处理中的基础理论问题研究和应用研究不仅有很高的理论研究价值和应用价值,而且对于社会的经济建设、发展及整个国家信息产业的发展都具有重大意义。
1 研究现状
智能信息处理技术涉及信息科学的多个学科,应用领域广泛,是计算机技术、通信技术、电子技术和控制技术等多种技术的融合。一般来说,智能信息处理分为基于传统计算机的智能信息处理和基于神经计算的智能信息处理两大类。近些年,计算机技术和智能信息处理技术水平不断提高,发展突飞猛进,大量已开发的信息处理系统中都应用了智能信息处理技术。就目前的研究状况来看,智能信息处理技术主要有:自然语言理解、模式识别、信息融合、云计算、人工神经网络、模糊理论、进化、混沌、分形、专家系统、遗传算法、模拟退火算法、蚁群算法、免疫算法、克隆选择算法和粒子群算法等等。智能信息处理的基础理论应由自然语言理解和计算智能共同组成,前者提供其理论架构,后者提供其技术实现,二者结合形成对智能信息处理的完整基础理论支持[3]。
近年来,智能信息处理的研究热点集中在以下几个方向:(1) 以Internet应用为主要背景的特定领域智能信息处理:包括网络信息智能处理、物联网智能信息处理、大规模文本处理、图像视频信息检索与处理、基于 Web的知识挖掘、知识提炼和集成等。随着互联网的发展,国内很多高校及研究所专门组建了实验室,对互联网和搜索引擎的研究方兴未艾,其中比较有名的有:清华大学智能技术与系统国家重点实验室、中国科学院智能信息处理重点实验室、上海市智能信息处理重点实验室、南开大学智能信息处理实验室、大连理工大学智能信息处理实验室WISDOM等。(2)商务和金融活动中的智能信息处理:包括电子商务、电子政务、电子金融等,推动智能信息技术在国民经济各领域的应用,努力实现并提高信息处理技术的社会效应和经济效益。(3)以数据挖掘为研究对象的智能信息处理:随着互联网的不断发展和海量数据不断增加,对数据挖掘的研究越来越活跃。中科院研究组2008年底开发完成国内首个基于云计算的数据挖掘工具平台PDM iner,已成功应用到中国移动、国家电网、电信、信息安全等行业领域。
2 概念图及在智能信息处理中的应用
因为Internet上的信息、知识与日俱增,人们对信息处理的要求越来越高,因此,智能化的信息处理系统不仅要能实现信息的自动检索,还应能完成一些基于语义理解的较高层次加工,例如对知识和信息进行自动分类、过滤、提炼、翻译等。目前,汉语智能信息处理研究中的瓶颈问题是如何实现智能化,解决这个问题的关键是语义理解与应用。语义理解即是对语义的理解能力,让机器能够理解我们所说的话,更进一步让机器学会人类的说话逻辑。目前,计算机和人类相比,理解自然语言的水平还有一定的差距,但是,我们可以借助一些知识表示方法或者自然语言处理中的学科知识,使计算机逐步模拟人的部分乃至全部语言能力,近似地理解我们人类的语言。在众多的知识表示方法中,概念图(Conceptual Graph)以它独特的优势脱颖而出,研究概念图在汉语智能信息处理方面的应用,旨在进一步提高信息处理与自然语言理解的水平,以改善信息处理中的智能化的水平,具有一定的理论意义和应用价值。
概念图是一种语义模型,其中的两大组成要素概念与关系是通过有向连通图中的结点体现。概念表示问题领域中的一个具体的或抽象的实体,用一个矩形表示。概念与概念之间不是孤立的,它们的关系有多种,例如施事、受事等等,用椭圆表示。概念结点和关系结点间用有“→”连接起来[4]。例如:A boy, Peter is reading book carefully. 其概念图如下图1所示:
图1 例句的概念图表示
图1概念图同其他知识表示方法相比,具有结构简单、直观、可读性好、表示范围广、数学基础严密和能够确切地表示自然语言的语义等优点,代表了知识表示的发展趋势。一个概念图可通过限制、拷贝、连接、化简等操作进行扩充或生成新的概念图。国内外很多研究者在1964年Sowa首次提出概念图理论后,经过不懈的研究与探索,基于概念图的智能信息处理被广泛应用到不同智能信息处理研究领域,例如语义检索、逻辑推理、信息抽取、查询扩展与语义计算[5,6,7,8,9]等等。
3 基于概念图的智能答疑系统
为了验证前文提出的基于概念图的智能信息处理的可行性,使用C++和JSP技术开发了一个基于概念图的智能答疑系统CGQAS,系统主要由问题理解、信息检索和答案抽取3个模块组成。对于用户输入的问题,系统首先会交给问题理解模块进行处理,进行问题类型分类,并提取问题的关键词。然后将提取的概念及关系交给信息检索模块进行搜索。最后由答案抽取模块提取出正确答案,将问题的答案返回给用户。系统的体系结构如图2所示:
图2 智能答疑系统的体系结构
系统的执行流程为:
Step1: 通过系统界面用户输入问题,借助哈尔滨工业大学IR-Lab的语言技术平台LTP 2.01实现问题的预处理,对问句进行自动切分、词性标注和句法分析;
Step2: 根据知网Hownet和句法关系到语义关系的转化规则对句法分析的结果进行修正;
Step3:初步提取出问题中的概念和概念间相应的关系;
Step4: 将提取出来的概念和关系建立概念图,并存入概念图库中;
Step5: 保存Step 4中提取的概念并提交搜索引擎,下载网页,进行概念抽取和关系抽取并建立相应的概念图后存入概念图库中;
Step6: 对查询概念图和资源概念图进行匹配,最后根据计算的结果对资源文档排序并把查询最终的结果提交给用户。
智能答疑系统的结果测试采用3个常用的评测指标:准确度P(precision)、召回率R(Reeall)以及F-measure。计算公式如公式(1-3):
我们选择了480条简单问句,分别对8种类型的问题进行了测试,其结果如表1所示:
表1 答案抽取结果测试表
对表中结果进行分析,可以看出CGQAS整体的召回率和正确率还是不错的,F-measure的平均值达到了0.73,这个结果还是令人比较满意的。系统对人物、地点和定义类问题回答效果比其他类型的问题好,今后需要对其他类型的抽取策略进行改进。这样的测试结果使得CGQAS具备了一定的应用价值,验证了基于概念图的智能信息处理技术与方法的可行性和有效性。
4 总结
随着计算机科学的不断发展,信息处理已经成为计算机最大的应用领域之一。智能化的信息处理是研究如何运用计算机实现信息处理的智能化,它是计算机技术发展的必然趋势,其中的关键技术与应用研究不但具有较高的理论研究价值,并且对于我国的信息产业的发展甚至是国民经济的发展与建设都有十分重大的意义。虽然近年来智能信息处理技术已得到很大发展,但还存在各种问题有待研究和解决,本文提出的基于概念图的智能信息处理思想是解决这些问题的一个思路和探索,下一步的研究工作是将概念图与其它语法和语义分析技术相结合,完善语义计算的方法,细化语义分析的深度与粒度,拓宽概念图的应用领域,进一步提高智能信息处理的水平。
[1] 孙红、徐立萍、胡春燕. 智能信息处理导论[M]. 清华大学出版社, 2013.
[2] 王国胤, 杨勇, 朱振国. 智能信息处理专题序言[J]. 重庆邮电大学学报(自然科学版), 2009
[3] 叶鹰. 智能信息处理的基础理论探讨[J]. 情报科学, 2008, 26(9): 1281-1285.
[4] 张蕾, 李学良. 概念结构及其应用[D]. 西北工业大学博士论文, 2001.05.
[5] 张瑞霞, 杨国增, 吴慧欣. 基于《知网》的汉语未登录词语义相似度计算[J]. 计算机应用, 2012, 26(1): 16-21.
[6] 刘培奇, 凡星, 段中兴. 倾向性文本的概念图过滤技术的研究[J]. 微电子学与计算机, 2012, 29(12): 84-87.
[7] 杨飏, 陈玉泉. 需求概念图导引下的检索模型研究[D].上海交通大学硕士论文, 2013.01.
[8] 张晓孪. 基于概念图的自然语言处理中的语义研究与应用[J]. 宝鸡文理学院学报(自然科学版) , 2014, 34(1): 55-58.
[9] 熊李艳, 陈建军,钟茂生. 基于E-A-V结构的概念图匹配算法[J]. 计算机应用研究, 2014, (31)8: 2290-2293
The Research of Intelligent Information Processing Technology Based on Semantics
Zhang Xiaoluan
(Department of Computer Science, Baoji Univ. Arts & Sci., Baoji 721016, China)
Intelligent Information Processing is a behavior that simulates human or other creatures of the nature to process all kinds of information. It is the intelligent, integrated and diversified direction development of the current information processing technologies and has high theory research and application value. A fter years of research and exploration, Intelligent Information Processing technology has made great advancement. However numerous issues in practical application remain to be solved and improved. On basis of the status quo of Intelligent Information Processing technology’s research, the semantic research of Intelligent Information Processing based on Conceptual Graph is analyzed and an intelligent Question Answering System CGQAS based on Conceptual Graph is designed and implemented. The experiment result verifies the feasibility and validity of intelligent information processing technology based on Conceptual Graph.
Intelligent Iinformation Processing; Conceptual Graph; Semantic Research; Question Answering System
TP391
A
2014.08.27)
宝鸡市科学技术研究发展计划项目(2013R1-9)
张晓孪 (1978-),女,陕西宝鸡人,宝鸡文理学院计算机科学系,副教授, 硕士,研究方向:智能信息处理,宝鸡,721016
1007-757X(2014)11-0055-03