APP下载

基于常问问题集的中文问答系统研究

2021-09-13朱木清文谧

河南科技 2021年12期
关键词:信息检索服务器模块

朱木清 文谧

摘 要:中文问答系统作为一种新答疑模式,依托于自然语言处理和人工智能等相关技术,具有高效、快速、准确等特征。而基于常问问题集的中文问答系统是一种检索效率较高的实现模式,可以在原有基础上,提高用户信息检索效率和精准性。基于此,本文概述常问问题(FAQ)和问答系统的基本内涵,分析候选关键词和类别关键词算法,对问句方法进行探索,研究基于常问问题集的中文问答系统设计,旨在给问答系统创新优化提供一些有益参考。

关键词:常问问题集;中文问答系统;系统设计

中图分类号:TP393.09文献标识码:A文章编号:1003-5168(2021)12-0026-03

Research on Chinese Question Answering System Based on

Frequently Asked Questions

ZHU Muqing1 WEN Mi2

(1. Huali College, Guangdong University of Technology,Guangzhou Guangdong 511325;2. Guangzhou College of Applied Science and Technology,Guangzhou Guangdong 511370)

Abstract: As a new question answering model, the Chinese question answering system relies on natural language processing, artificial intelligence and other related technologies, and has the characteristics of high efficiency, speed and accuracy. The Chinese question answering system based on frequently asked questions is an implementation mode with higher retrieval efficiency, which can improve the efficiency and accuracy of user information retrieval on the original basis. Based on this, this paper outlines the basic connotations of frequently asked questions (FAQ) and question-and-answer systems, analyzes candidate keywords and category keyword algorithms, and explores question methods, and studies the design of Chinese question answering system based on frequently asked questions set, aiming to provide some useful references for the innovation and optimization of question answering system.

Keywords: frequently asked questions;Chinese question answering system;system design

中文問答系统是一种新信息检索形式,相比传统搜索引擎,其在搜索效率、搜索精准性和高效性方面都有很大提升。目前,中文问答系统是人工智能和自然语言处理领域备受关注的对象,其中基于常问问题集的问答系统是新研究方向。常问问题集可以作为中文问答系统的基本组成部分,当用户输入问题语言时,系统先通过问题集查找与之相似的问题,再直接将答案返回给用户。这样既有效避免返回大量相关网页等现象出现,又能提高用户搜索的精准性和快速性,改善用户使用体验。因此,本文在常问问题集基础上,对中文问答系统设计与创新展开进一步探讨。

1 FAQ和问答系统

FAQ通常指用户常见的问题,也指FAQ检索系统。某种程度上来说,FAQ是一种在线帮助用户解决问题的新形式[1]。系统将一些常见问题列举出来,用户根据自身需求,寻找相似的问题答案,以便快速解决难题。目前,FAQ主要作为一种常用的在线客服手段,主要包含一些常见问题以及用户偶尔会遇到的问题。一般情况下,用户直接点击常见问题集,便可快速解决困惑。这样不仅有效减轻网站工作人员压力,也节省了大量顾客服务成本,增加用户满意度。

问答系统是信息检索的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题[2]。自动问答系统一般包含问题分析、信息检索以及答案抽取等三个构成要素。其一,问题分析。当用户使用自然语言进行问题检索时,系统捕捉到信息,并对其进行预处理,再根据处理结果,抽取关键词。其二,信息检索。提取关键词后,构建索引和候选问题集。其三,答案抽取。计算句子相似度,依照计算结果,将该问题对应答案作为用户问题的答案返回给用户。

2 关键词算法

类别关键词提取的主要思路为:针对某一类别,首先提取每篇文档的关键词,之后对文档关键词集合求并集,得到类别关键词[3-5]。目前,类别关键词提取一般是在TextRank算法上进行的,该算法具有多种特征。其一,TextRank是一种无监督的算法,不需要大规模标记语料库,还能有效节约成本;其二,TextRank是在矩阵上展开计算的,其中硬件和软件的支持使得系统运算速度进一步加快;其三,TextRank比较擅长单文本的关键词提取,所以在确定类别关键词之前,需要先获得单文本的关键词。

3 问句定位方法

问句定位一般是在相似度计算基础上进行的。在进行问句定位的过程中,要注意以下几点。其一,在常问问题集进行关键词匹配时,系统需要对常问问题集中的问句进行分类组织,并对用户所提问题进行分类,再将这些类别下的问句放入候选问题集;通过候选问题集,匹配相似度最高的问答对,能提高问句定位效率,缩小定位范围,还能增强系统任务执行实际效果。其二,在候选问题集中进行问句定位时,计算候选问题集中所有问句和用户所提问题之间的相似程度,得出相似值;提出相似值最高的问句,抽取相应答案并返回。由于相似度计算一定程度上能影响系统准确性,因此在进行相似度计算之前,系统要选择合适的计算方案。其三,基于常问问题集的中文问答系统性能受多种因素影响,常问问题集的质量便是其中一项重要影响因素。针对这种情形,设计人员可以采取扩大常问问题集覆盖范围的方法,提高问答系统执行效率。

4 基于常问问题集的中文问答系统设计

4.1 系统设计要素

在系统设计过程中,人机交互界面、问题理解能力、实效性以及安全性是系统设计的前提要素。

4.1.1 人机交互界面。人机交互界面可用于评价系统综合性能,是用户与系统交互的重要渠道。为实现无刷新用户体验,设计人员可以应用Ajax技术。Ajax是一种客户端技术,是支撑客户端和服务器连接的重要桥梁,一般比较适用于数据验证、页面局部刷新等场景。

4.1.2 自然语言理解能力。对自然语言的理解是一切处理进行的基本前提,也是问答系统运行的基础要素。需要注意的是,虽然ICTCLAS分词工具能够充分理解用户问题,但是实际应用效果并不是很理想。对此,设计人员可以融入专业词词典,将其与ICTCLAS分词工具结合起来,有效提高分词准确率和效率。

4.1.3 实效性。为提高系统实效性,设计人员通过采用减少数据库连接次数进而降低时耗的方法来保证系统实际效果。在这个基础上,设计人员还可以将Ajax技术运用到系统中。一是因为Ajax技术能实现客户端和服务器之间的异步通信;二是因为Ajax技术拥有按照实际需要读取数据的能力,有效减少服务器处理冗余信息的时间,帮助服务器缓解工作压力。

4.1.4 安全性。安全性是系统设计的必要元素。为进一步保障系统安全、有序运行,设计人员准备了几种不同类别的服务器,即应用型服务器、备份型服务器以及数据库服务器。应用型服务器主要用于发布业务;备份型服务器主要用于数据备份,防止数据丢失或损坏;数据库服务器主要用于存储和处理数据。

4.2 系统模块的实现

4.2.1 问题分析模块。问题分析模块设计目的在于对用户提出的问题进行分析,即从中提取关键词,鉴别问题类型。首先,用户进行问题检索,中文问答系统中的问题分类模块对问题进行预处理;其次,对照疑问词表、停用词表,对问题进行处理,形成一个关键词集合;最后,结合以上分析结果,对问句进行分类,得出问句类别。最后一个环节主要用于匹配问题库中的问题,再将匹配问题的对应答案返回给用户。问题分析流程如图1所示。

4.2.2 信息检索模块。根据问题分析模块得出的关键词集合,信息检索模块首先将这些关键词与数据库中的问题进行匹配,如果数据库汇总存在与之相匹配的问题,便将该问题相应的答案返回给用户;如果数据库中没有与之相匹配的问题,那么便利用百度搜索引擎对关键词进行搜索,将搜索到的网页进行整理,形成一个候选答案集。这里选择百度搜索引擎的关键原因在于:百度搜索检索能力较强,搜索范围较广。经过百度搜索之后,得到网页名称、网页链接等,这时可以使用HtmlParser库将网页下载到本地,再将超文本标记语言(HTML)的格式去掉,留下文本信息并对句子进行标记,保存到候选答案中。值得注意的是,在将关键词输入搜索引擎之前,要进一步扩展关键词,以便扩大搜索范圍。

4.2.3 答案抽取模块。答案抽取模块的主要作用在于:处理候选答案集,从中抽取相似值高的答案,给用户排疑解难。答案抽取模块运行流程为:首先,在经过问题分析以及信息检索这两个环节之后,得出候选答案集;其次,答案抽取模块对候选答案进行预处理,包括句法分析、词性标注等处理步骤;最后,利用相应算法进行相似度计算,再将计算值较高的答案返回给用户。答案抽取流程如图2所示。

4.2.4 常问问题集模块。首先,信息检索利用关键词现在常问问题集,检索其是否有该问句的答案,如果常问问题集中有该问题的答案,那么系统直接将问题答案返回。在检索过程中,如何进一步确定问题与常问问题集中的问题存在语义相似性是问答系统的关键所在。对此,常问问题集模块一般采用普遍使用的分类法。从不同类型角度出发,按照人物、地点、时间等不同类别,该模块将常问问题集中的问题进行分类整理,其中数据库字段主要由关键字字段、问题字段以及答案字段这几种构成。对常问问题集中的问题进行分类后,当用户提出问题时,通过问题分析模块预处理,得出问题类型;将问题中的关键词与数据库中的记录进行匹配,匹配成功后将答案返回给用户,否则使用搜索引擎进行检索。

5 结语

中文问答系统支持用户使用自然语言,并且可以直接将答案返回给用户,具有简单、便捷的基本特征。目前,基于常问问题集的中文问答系统是一个新研究方向,通过建立常问问题集,系统将用户所提问题与问题集中的问句进行匹配,相似度高的可以直接返回答案。这样既能提高系统执行效率,又能增加用户使用体验。因此,本文从问题分析、信息检索、答案抽取以及常问问题集这四个模块出发,对基于常问问题集的中文问答系统设计做了基本探讨。研究表明,常问问题集的质量会影响中文问答系统性能。对此,未来研究可以从优化常问问题集组织形式和储存形式入手。

参考文献:

[1]柳自强,熊晓芸,张哲也,等.基于FAQ与知识图谱的学分制智能问答系统研究[J].电脑知识与技术,2019(31):49-50.

[2]韩东方,吐尔地·托合提,艾斯卡尔·艾木都拉.问答系统中问句分类方法研究综述[J].计算机工程与应用,2021(6):10-21.

[3]吴佳泽,汤荣亮,冉浩.专业课程问答系统的设计与实现[J].福建电脑,2021(2):97-99.

[4]魏泽林,张帅,王建超.基于知识图谱问答系统的技术实现[J].软件工程,2021(2):38-44.

  • [5]夏艳辉,聂百胜,胡金凤.中文开放域问答系统的问题分类研究[J].价值工程,2019(16):147-149.

猜你喜欢

信息检索服务器模块
浅析开源情报信息检索与信息鉴别
Module 2 Highlights of My Senior Year
Module 4 Music Born in America
2018年全球服务器市场将保持温和增长
高职院校《信息检索》课程教学改革研究
中外档案网站信息检索功能比较研究
必修模块相关知识过关训练
用独立服务器的站长注意了
定位中高端 惠普8路服务器重装上阵