图书馆智能化咨询问答机器人系统设计与语料技术研究
2017-11-22来云
来云
〔摘 要〕图书馆智能化咨询问答机器人是图书馆智能化机器人中的一种重要类型,系统设计是研究的首要内容,语料技术则是其服务效能的核心要素。本文从图书馆智能化咨询问答机器人的系统设计方案、问题语料库和答案语料库的建设与来源、分类类型、语料问题的分类与扩展、个性化分析与处理等方面,对图书馆智能化咨询问答机器人系统设计与语料技术进行了研究。此项研究对于图书馆智能化咨询问答机器人的全面研究具有参考和借鉴意义。
〔关键词〕图书馆;智能机器人;咨询问答机器人;系统设计;语料技术
DOI:10.3969/j.issn.1008-0821.2017.11.020
〔中图分类号〕G258.94 〔文献标识码〕A 〔文章编号〕1008-0821(2017)11-0121-04
Research on System Design and Corpus Technology of Intelligent Advisory Question and Answering Robot in Library
Lai Yun
(Library,Qinzhou University,Qinzhou 535000,China)
〔Abstract〕The intelligent question answering robot in library is an important type of intelligent robot in library.Its system design is the primary content of the research.Its system design is the primary content of the research.Therefore,the system design and corpus technology of intelligent question answering robot were studied in this paper from many aspects,including the system design,the problem corpus and answer corpus construction and source,the classification type,the corpus classification and expansion,the personalized analysis and processing of intelligent advisory question answering robot in library.This research had reference and reference significance for the comprehensive study of intelligent question answering robot in library.
〔Key words〕library;intelligent robot;robot of advisory question and answer;system design;corpus technology
圖书馆智能化机器人技术在图书馆的多个应用领域已经发挥了十分明显的优势,目前已经扩展应用到图书馆智能化参考咨询问答服务、图书馆智能化24小时自助图书馆服务、图书馆书库自动巡架检查服务、图书馆外借阅览读者自助借还书服务、图书馆智能化机器人图书自动上架与自动取书服务等方面。图书馆智能化咨询问答机器人的系统设计是其研究的首要内容[1],而图书馆智能化咨询问答机器人语言体系中的语料技术则是其服务效能的核心要素,二者在图书馆智能化咨询问答机器人技术研究中具有关键作用。对图书馆智能化咨询问答机器人技术中的系统设计方案和语料技术的研究,将为图书馆智能化咨询问答机器人的全面研究提供借鉴和参考。
1 系统设计方案研究
1.1 接收问题和处理问题
接收问题部分是处理问题的前道程序,所以,在图书馆智能化咨询问答机器人的系统设计方案中,只有能够全面准确地接收问题,才能够为后续的处理问题提供条件。其中,存在一个接收度和接受率的问题。接收度是指图书馆智能化咨询问答机器人在多大程度上可以接收读者的问题。问题的语种既包括常见的汉语问题,也应当包括可能遇到的英语、日语、韩语、俄语问题等。问题处理部分是对读者用自然语言提出的问题进行预处理,包括进行词汇分解、语义分析、句法分析,主题词提取等。需要注意的一个问题是,在系统接收语料问题时,要在自动学习语言部分设置有效的受限语料词汇库,防止发生类似于清华大学咨询机器人“小图”被“教坏”的情况[2]。通过上述分析对读者提出的问题进行分类,通过复述技术寻找语料库中的相似和类似问题。
1.2 问题检索和问题分类
问题检索部分是运用传统的信息检索理论,加入现代的互联网信息搜商技术,结合计算机信息检索技术,以及互联网信息检索技术,获得问题答案大概率可能发生的文档,并对相关和近似的文档进行排序处理。问题分类部分是对系统中所有存储的问题进行分类处理,可以采用的分类标准除中国图书馆分类法外,还可以采用问题专题分类法,以及涉及到问题诸元素的时间分类法、地点分类法、人物分类法等多种方法。对读者提出问题中的所有关键词因素,与系统中所有存储的问题进行分类处理。
1.3 答案抽取和答案排序
答案抽取部分是对读者提出问题中的所有关键词,包括可能运用到的标题词和叙述词,以及计算机系统中进行排列组合词汇所经常使用到的单元词进行语料词汇元素的抽取,以便为后续的答案排序提供基础元素[3]。答案排序部分是将已经抽取出的关键词、标题词、叙述词和单元词等语料词汇元素,利用系统设定的固定排序方式、交叉组合排序方式、叠加排序方式等多种不同的排序方式进行排序。如时间排序法、地点排序法、人物排序法、事件排序法等。其中人物排序法还可以进一步包括根据人物的姓名、生卒年、籍贯、学科、成就等元素进行细化分类排序。endprint
1.4 答案优选和答案反馈
图书馆智能化咨询问答机器人在接收到读者的咨询问题后,需要自动到语料问题资源库中寻找答案。由于相同的答案可能有多种,所以,需要从中进行优选,或者根据进一步向读者提问,从中获得可以进一步细化和优选的信息。再根据语料资源库的问题元素进行组配选择,最终优选出最佳的答案回答读者,从而满足读者的咨询问题需求[4]。对于图书馆智能化咨询问答机器人对于读者问题的回答,可以通过设定必要的读者信息反馈机制,或建立必不可少的读者信息自动反馈系统予以收集。系统将收集到的读者反馈信息再自动回输到语料资源库中,形成对于答案语料资源库的有效补充,建立动态化的最佳答案抽取模板,为后续读者咨询同样的问题提供更为优化的回答语料元素,这也是答案反馈的重要意义和作用所在。
1.5 答案统计和答案存档
答案统计是指图书馆智能化咨询问答机器人在回答读者的咨询问题后,需要利用系统内的程序设计自动进行读者提问问题和系统回答问题的数据统计,同时对统计数据按照预先所设定的分类标准进行统计数据的各级分类。答案存档是指对经过数据分类统计的读者提问语料问题信息,以及系统回答语料问题信息进行分类存档,并由此形成读者提问语料问题资源库的存档信息资料和系统回答读者问题语料资源库的存档信息资料[5]。这些答案存档资料对于后续的语料信息资源库利用具有重要的作用,它类似于计算机中的缓存信息资源,可以在后续读者提问语料问题和系统回答语料问题的利用过程中,起到快速调取的作用,大大节约系统对于相关语料的反映和处理时间,同时也节约了相应的语料问题资源库的存储空间。
2 语料库的建设与来源研究
2.1 问题语料库和答案语料库的建设
问题语料库和答案语料库的建设是图书馆智能化咨询问答机器人的一项关键技术,其建设的内容类型应当遵循通用语料为主、本馆语料为辅、特色语料为补的原则。即以绝大多数读者所需要提问和回答的通用问题,作为问题语料库和答案语料库的主要语料元素,以能够体现本馆特色、具有本馆(含本校)特点的语料元素作为问题语料库和答案语料库的辅助语料元素,以通用和本馆特点外的其他语料元素作为问题语料库和答案语料库的补充语料元素。除此之外,还可以在这3种类型范围内继续细分。所以,问题语料库和答案语料库的建设,可以包括建设通用性咨询内容的通用语料库,建设图书馆专业通用性咨询内容的图书馆专业通用语料库,建设针对本馆特色咨询内容的本馆特色语料库,建设专门针对本校各学科专业咨询内容的本校学科专业化特色语料库,建设针对本馆特殊读者各种个性化类型咨询内容的读者个性化语料库。
2.2 问题语料库和答案语料库的来源
问题语料库和答案语料库的来源主要有3方面,一方面是来源于互联网上的百科知识资源库,如“百度百科”资源库、“维基百科”资源库等。此类语料问题元素的来源范围广泛,内容既有很大的宽度,又有相当的深度,受到图书馆智能化咨询问答机器人问题和答案语料库容量的限制[6],需要对这些语料进行不同级别的筛选,从中选择出那些利用频率最高或次高的语料元素予以保留,其余则予以剔除,以防止语料问题资源库过于庞大。另一方面是来源于图书馆专业知识数据库,其中包括全国各类图书馆的FAQ(Frequently Asked Questions,即经常会被问到的问题)资源库[7]。此类语料问题元素的来源范围相对较小,其广度和深度都较为有限,是比较容易选择的语料元素集合。第三方面是来源于本馆专门建设的,具有本馆、本校特点以及本馆特定读者个性化特点的特色知识资源。此类语料问题元素的个性化程度很强,是最能体现本馆智能化咨询问答机器人特色的语料问题元素。
3 语料库的分类类型研究
3.1 一般通用语料库
利用互联网搜索引擎上的通用百科知识资源,可以建立图书馆智能化咨询问答机器人问题语料库和答案语料库的通用语料资源库。如问:利用互联网可以检索到本校图书馆的文献资料吗?答:只要输入本馆的中文名称或正确网址就可以检索到本校图书馆的文献资料。再如,问:利用常用的互联网搜索引擎,可以搜索到免费全文的电子图书和电子期刊资源吗?答:可以的。只要在搜索引擎中输入带有书名号的电子图书或电子期刊的名称,后面增加合适的后缀,如“.PDF”等,在一般情况下,就可以搜索到所需要的电子图书或电子期刊资源。
3.2 图书馆专业通用语料库
利用图书馆专业问题和答案资源,可以建立图书馆智能化咨询问答机器人问题和答案的图书馆专业语料库[8]。如问:本校图书馆图书和期刊索书号中的U46代表什么内容的图书和期刊?答:U46是《中国图书馆分类法》的分类号,它代表“汽车工程”类的图书和期刊。又如,问:中国最早的公共图书馆是什么图书馆?答:1902年,湖广总督张之洞和湖北巡抚端方联合奏请清廷设立湖北省图书馆获准,并于1904年8月27日开馆(是利用武昌兰陵街的博文书院改建而成,1935年在武昌的阅马场重修了馆舍),它是中国最早的公共图书馆。
3.3 本馆特色语料库
利用本校图书馆的特点,可以建立图书馆智能化咨询问答机器人问题和答案的本馆特色语料库。如问:本校主校区图书馆的详细地址在哪里?本校鹿泉校区图书馆的详细地址在哪里?两者之间有多远的距离?有方便的公交车吗?答:本校主校区图书馆的详细地址在河北省石家庄市高新技术开发区和平西路256号,本校鹿泉校区图书馆的详细地址在河北省石家庄市鹿泉区山前大道32号,两者之间有16多公里的距离,乘坐通达5路公交车或鹿泉9路公交车均可以到达。
3.4 本校专业化语料库
利用本校所开设的学科专业特点,可以建立图书馆智能化咨询问答机器人问题和答案的本校专业化语料库。如问:本校图书馆适合高尔夫专业阅读的图书资料是什么分类号?架位在几楼?本校图书馆适合马术运动与管理专业阅读的图书资料是什么分类号?架位在几楼?答:本校图书馆适合高尔夫专业阅读的图书资料是G849.3,架位在图书馆6楼的第5架位。本校图书館适合马术运动与管理专业阅读的图书资料是G882.1,架位在图书馆6楼的第12架位。endprint
3.5 读者个性化语料库
根据本馆特定读者的个性化特殊需求,可以扩展建立图书馆智能化咨询问答机器人问题和答案的读者个性化语料库。如问:本校图书馆有没有设立个人捐赠图书专柜,我(李诗坤)过去捐赠的图书还可以看到吗?在图书馆的什么位置?答:本校图书馆鼓励和欢迎各界人士踊跃捐赠图书等各类文献资源,已经设置捐赠图书专架,经过检索,李诗坤女士过去捐赠的图书在图书馆3楼的第1架位,书标上标注有“李诗坤女士捐赠”字样,欢迎你前来参观和阅读。
4 语料问题的分类与扩展研究
4.1 语料问题的分类
图书馆智能化咨询问答机器人要回答读者的咨询问题,首先需要对问题进行系统的分类和归类。问题的分类和归类是相辅相成的两个方面,分类就是把不同类别的问题进行区分,归类就是把相同性质的问题集中归纳到同一类别中。系统对问题进行分类和归类后的下一步,就是要根据问题所属的类别和内容进行计算机逻辑思维理解。所以,对读者提出问题的内容和类型进行分类和归类,是决定系统如何回答问题,以及回答问题的完美程度的重要因素。这里需要首先为图书馆智能化咨询问答机器人建立一个较为完善的和实用性较强的语料问题分类系统[9]。该分类系统要尽可能地包含读者咨询问题的各种分类元素,如大类中的时间元素,其小类则需要包含世纪、年代、年度、季度、月度、半月度、旬度、周度、日度、小时度、分钟度、甚至精细到秒度。除了常用的公元纪年法以外,还要包含各种不同的纪年方法,如我国的农历纪年法、台湾的民国纪年法,伊斯兰教的回历纪年法等,用以适应更为广泛的读者问题咨询范围。
4.2 语料问题的扩展
语料问题的扩展可以表现在多方面进行扩展,如对于相同问题和概念的不同说法[10]。例如,“自行车”这一概念,不同的读者可能会另外使用“单车”、“脚踏车”等说法来提问;有关“西红柿”类文献的问题,有可能被读者用“番茄”、“火柿子”、“狼桃”等同义词来提问;有关“土豆”内容的文献,有可能被读者用“马铃薯”、“洋芋”、“山药蛋”等同义词来提问。甚至会出现两个或两个以上概念同时被读者提问的情况,如读者向图书馆智能化咨询问答机器人提问:“土豆”和“洋芋”和“马铃薯”是同一种东西吗?凡此种种,都属于语料问题的扩展范畴。因此,在语料问题库中,必须十分注意语料问题的扩展,以便可以更好地满足读者从多方面和多角度提出问题的需求,满足图书馆智能化咨询问答机器人语料库丰富性的需求。
5 语料问题的个性化分析与处理研究
5.1 语料问题的情感个性化分析与处理
语料问题情感个性化分析是一个分析的重点[11]。由于读者类型和身份的多样性因素,读者在咨询问题的提问语言方面,往往不可避免地带有一些感情化的色彩。正是这种感情化的提问语言色彩,往往会直接决定着图书馆智能化咨询问答机器人对于问题答案的回答结果,并且直接影响着读者对于咨询问题答案的满意度水平。例如,对于问题的褒义和贬义提问,反映着读者提问的喜好和希望得到的答案。对于这种类型的语料问题分析,被称之为“情感分析”,它是通过对语料问题情感的分析和判断,往往可以获得更好的问题答案。通过对语料问题中情感词语的分析和判断理解,能更好地有助于图书馆智能化咨询问答机器人自动回答问题。不过,有些情感词语也需要在特定的语言环境下才能进行判断,否则,读者得到的问题答案极有可能是相反的结果。
5.2 语料问题的地方个性化分析与处理
语料问题的地方个性化分析也是语料问题个性化分析的一个重点内容。因为它在很大程度上体现了本馆读者的地方特色,其中不仅包括本校读者的生源地方特点,还可能包括本馆对社会开放服务后,本地民众读者的地方特点。如地方语言特点,地方习惯特点,地方少数民族读者特点等[12]。最为典型的例证就是一些与台湾相关高校保持密切教育学术交往的高校图书馆,在他们的图书馆智能化咨询问答机器人语料问题的地方个性化分析中,就需要将具有台湾地方特点的语料加入到语料库中。因为在台湾的语料问题中,对于同一个问题和概念,具有明显不同于大陆地区的语料元素,除了中文的简体字和繁体字的分别外,如大陆地区与台湾地区对于相同语料词语的不同对应各系词汇:网络——网路,软件——软体、数字——数位,鼠标——滑鼠,幼儿园——幼稚园,菠萝——凤梨,普通话——国语,班主任——班导,短信——简讯,学位论文计量单位的“篇”——学位论文计量单位的“笔”,等等。这些都需要在语料库中予以体现,以便图书馆智能化咨询问答机器人在回答有此类需求的读者问题时做出读者所需要的回答。
6 结 语
始于20世纪90年代的图书馆智能化机器人技术,由于符合21世纪信息时代现代化图书馆的发展趋势,所以,正在以前所未有的速度快速进入到各类图书馆中[13]。图书馆智能化机器人技术的引进,极大地改变了图书馆的现代化水平和自动化程度,为实现智能化图书馆打下了坚实的基础。图书馆智能化咨询问答机器人是图书馆智能化机器人系列类型中的一种重要类型,它是读者进入图书馆后首先要接触到的智能化机器人设备,所以,其功能的完善与否以及服务效果的优劣,将会直接关系到读者对于图书馆现代化和智能化水平的第一印象,因此,加强图书馆智能化咨询问答机器人的相关研究是十分必要的。
参考文献
[1]杨艳飞.智能化IM咨询机器人在数字图书馆信息服务中的应用[J].图书馆学刊,2016,(9):117-120.
[2]曹畋.基于Android平台的图书馆咨询机器人探究[J].内蒙古科技与经济,2014,(20):65-67.
[3]王艳.IM咨询机器人在公共图书馆的实现与应用:以深圳图书馆为例[J].数字图书馆论坛,2015,(5):42-46.
[4]解娜.图书馆服务机器人语音指令深层信息识别系统[J].农业图书情报学刊,2016,28(2):48-50.
[5]孙翌,李鲍,曲建峰.图书馆智能化IM咨询机器人的设计与实现[J].现代图书情报技术,2011,(5):88-92.
[6]陈雨祺.机器人技术在图书馆智能化IM咨询中的应用研究[J].河北科技图苑,2016,29(1):67-69.
[7]罗涛,朱莹.图书馆微信机器人的研究与应用[J].图书馆杂志,2014,(11):55-61.
[8]罗涛.图书馆IM机器人的应用研究[J].图书馆论坛,2013,33(3):113-117.
[9]王文,赵群飞,朱特浩.人-服务机器人交互中自然语言理解研究[J].微型电脑应用,2015,31(3):45-49.
[10]闵腾超.微信机器人在图书馆实时虚拟咨询服务中的应用研究:以上海闵行区图书馆为例[J].新世纪图书馆,2015,(8):54-57.
[11]李雪婷,李莘.图书馆微信平台自动问答机器人语言体系研究[J].现代情报,2016,(10):99-101,122.
[12]熊志恒,闵华松.基于自然语言的分拣机器人解析器技术研究[J].计算机工程与应用,2017,53(8):113-119.
[13]赵辰陽,李波.服务机器人在图书馆发展趋势的应用前瞻[J].中国科技信息,2016,(16):94,96.endprint