博士后制度智能问答系统构建研究
2019-05-13王修来张玉韬曾苏
王修来 张玉韬 曾苏
摘 要: 博士后制度智能问答系统是对博士后政策相关的问题自动地给予专家解答。文章提出领域分词、问题分类和问题相似度的计算方法,利用自动和手工相结合的方法拟构建一定规模的博士后制度智能问答知识库,将自然语言处理方法和所建知识库结合,开发一个实用的博士后制度智能问答原型系统。拟建设的问答系统功能全面,能够满足博士后工作相关的一般问答需求。
关键词: 博士后制度; 智能问答系统; 知识库; 应用
中图分类号:G2 文献标志码:A 文章编号:1006-8228(2019)03-01-03
Research on the construction of intelligent question answering system for postdoctoral program
Wang Xiulai, Zhang Yutao, Zeng Su
(Center for digital talent research, Nanjing, Jiangsu 210007, China)
Abstract: The intelligent question answering system of postdoctoral system is to automatically give expert answers to questions related to postdoctoral policy. This paper puts forward the calculation method of domain word segmentation, problem classification and problem similarity; Uses the method of combination of automatic and manual to build a certain scale of intelligent question-answering knowledge base of postdoctoral system, combines natural language processing method with established knowledge base, and develops a practical intelligent question-answering prototype system of postdoctoral program. The system has perfect functions and can meet the general needs of postdoctoral groups.
Key words: postdoctoral program; intelligent question answering system; knowledge base; application
0 引言
博士后制度與博士后政策有着密切联系,我国博士后政策制度诞生于改革开放的伟大实践之中,伴随着深化改革扩大开放的前进步伐不断创新,对于提高我国高级专业人才培养质量起到了十分重要的作用。博士后群体与博士后管理人员在工作中会遇到一些需要有关专家才能解决的问题。一般的博士后制度答疑主要是咨询者从网上自行搜索相关政策制度,这种方法往往因为咨询者对制度不甚了解而事倍功半。或者咨询者通过中国博士后官方微信公众号来提问,然后由于相关专家解答,但这种方式存在很多不足,咨询者和专家难以实时交互,咨询者还需要经常上网关注专家的解答,时效性很差;专家需要对问题进行人工回复,浪费宝贵的专家资源。博士后制度问题是博士后群体关注的重要问题,如果提问没有及时得到解答,很可能导致博士后群体研究工作上的失误,造成损失。研究面向博士后制度知识库智能问答系统,能帮助博士后群体及时解决制度理解不清、政策了解不详等问题,提高博士后群体研究效率和博士后工作管理人员的整体水平[1]。
本文主要研究设计并拟实现博士后制度智能答疑系统,旨在构建一个能够满足博士后群体普遍需求的博士后政策制度智能问答系统。该系统结合了人工智能、信息检索和自然语言处理等技术,将用户的问题和相应的解决方案有机地组织起来,存储在知识库中。通过自然语言处理技术,系统可以对用户提出的问题进行分析和自动匹配,并自动提供解决方案。
1 博士后制度知识库构建
知识库是智能问答系统的重要组成部分。在博士后制度智能问答系统中,知识库的内容丰富主要有三个来源。一是将与博士后工作相关的基本规章制度导入知识库,作为知识库初级搜索解答的基础。二是博士后研究工作的常见问题和专家解析,包括在线答案和导入知识库的问题答案丰富。博士后工作常见的问题例如:“博士后人员工作期满出站的去向怎么安排?”,“进站时户口、档案迁入设站单位的博士后人员如何办理退站手续?”,“网上进(出)站申请已经提交,多久可获知预审结果?”这些都是博士后工作中常见且容易混淆的问题。三是可以进行相关网页搜索和提取部分无法搜索的内容,这部分则需要通过网络爬虫模块和网页源代码分析模块,来完成网址抓取和网络页面解析的功能。
网络爬虫是一种程序或脚本,它以某种方式自动获取网络页面信息。同时,它也是一个自动提取网址链接的程序,搜索引擎通过它从网络上把网页下载下来,成为搜索引擎的重要组成部分[2]。网络爬虫程序主要从一个或多个初始网络页面的网址开始,获取原始网络页面的网址链接。在抓取网络页面的过程中,爬虫会从当前页面抓取下一个网址并将其放入抓取队列,直到满足停止抓取条件为止。网页源码解析模块是基于运用Python中的SGMLParser,通过这一模块,能够把网页中的有关问题和解答抓取下来并进行处理,存储到知识库中,方便查询,以此来完善博士后制度的知识库构建[3]。
通过以上三类资料来源,知识库就基本包含了博士后制度权威规章制度模块、博士后管理工作常见问题解答模块以及网络搜索频率较高的博士后制度答疑模块,能够从多方面对问询做出智能准确的应对。
2 自然语言理解方法
通过对智能问答系统所需分词、问题归类、问题相似性计算等相关的自然语言处理技术的研究,提高智能问答系统对问题的理解和答案生成的准确性。通过分析与博士后管理相关的中文信息处理技术,如分词、问题归类、问题理解等,采用统计与领域词典相结合的分词方法;问题归类则采用最大熵分类方法;为了找到最相关的答案,拟使用层次分析法从单词、语义和句子三个方面来计算所提问题和题库中问题的相似性。
2.1 基于统计与领域词典相结合的分词方法
通过将词典信息以特征的方式融入到统计分词模型(使用CRF统计模型,CRF是目前主流的序列标注算法,它在序列标注问题上取得了很大的成功)中使得统计中文分词模型和词典有机结合起来,提高了中文分词的准确率,同时也大大改善了中文分词的领域自适应性。CRF是一种无向图模型或者马尔可夫随机域,它采用一阶链式无向图结构计算给定观察值条件下输出状态的条件概率(图1)[4]。
2.2 问题归类
问题归类是问答系统中的一个重要模块。目前,问题归类的分类算法有很多种,主要包括基于人工规则的方法和机器学习方法。本研究采用的分类方法是基于统计的机器学习方法,适当地在机器学习方法中加入了一些简单的规则。问题分类模块包括训练和识别。在训练阶段,最大熵分类器使用特定的算法得到每个句子类型的特征向量集。在识别阶段,根据已有的问题类别特征和句子的特征向量来判断归类问题。
2.3 问题相似性计算
一般来说,原始问题包含的信息相对较少,可能不包含查询相关文档所需的所有单词,导致召回率较低。因此,有必要对原有的问题进行扩展,加强问题与答案之间的联系,使问答系统产生正确的答案。提取问题中的关键词对于理解问题的语义信息具有重要意义,直接影响到后续的检索结果。关键词的构成可以是名词、形容词、动词、限制性副词等,但事实上,除疑问词之外的大多数词都可以被认为是关键词。在回答句中,有些词不是原问题的关键词,而是这些关键词的同义词外延。例如,问题“博士后人员最早多久可办理出站?”的答案是“博士后研究人员完成科研工作并通过出站考核后,可在网上提交出站申请,在站时间不得少于24个月。”问题中使用了“最早多久”这个词组,答案中却使用了“不得少于”这个词组,这样就造成了关键词语查询失败,因此,需要对关键词进行必要的扩展。
在计算句子相似性时,本研究拟采用了四个方面的信息:关键词、语义、句法结构和句子长度。在使用这种方法描述句子模型时,句子相似度可以分为四个层次:关键词相似度、语义相似度、句法结构相似度和句子长度相似度。摘要句子相似度计算方法的特征权重从句子的关键词信息、语义、句法结构信息和句子长度的四个角度来计算句子相似度,这样句子相似度测量范围更宽、更准确,可以增加一定程度的准确率和召回率[5-6]。
3 博士后制度智能问答原型系统构建
3.1 系统设计
根据智能问答系统的工作流程以及博士后制度智能问答系统存储的知识库,结合用户的使用习惯,本系统可以解决以下问题:设计友好的人机交互界面,简单快速的操作;用户针对博士后领域对象人进行自然语言提问,系统根据用户的提问返回自然语言答案。设计的博士后智能问答系统框架如图2所示。
智能问答系统主要包括用户界面、问题提取模块、搜索模块和知识库模块四个部分。在用户界面部分,用户使用自然语言在对话框中进行提问,然后问题提取模块利用中文信息处理技术来作用于分析问题分词、命名实体识别、关键字提取和相似度计算等过程,系统再基于关键字和相似度计算结果检索本地知识库,并将与这个问题相关的答案返回给用户。如果在本地知识库中没有搜索到这个问题,进一步利用查询关键词通过搜索引擎检索与用户问题相关的网页文档。并利用自动文摘技术对网页文档进行处理,从中找出答案返回给用户[7]。专家也可以对此问题进行解答,并将问题和答案在知识库中更新。
3.2 系统实现
本系统拟采用J2EE技术,同时利用Java企业开发常用的三大框架Struts2、Hibernate、Spring,并结合CSS、Java Script、Html等开发技术设计开发,系统主要开发工具使用Myeclipse8.5,数据库设计采用SQLServer2008。系统采用B/S模式三层体系结构,借助开源的主流框架Struts、Hibernate、Spring实现了Web开发的MVC三层规范。由于系统分层,系统各层之间面向接口编程,大大提高了软件系统的开发效率。系统采用成熟的J2EE开发技术,确保了系统的稳定性和可擴展性[8]。系统用户分普通用户、专家用户和管理员三种级别的用户,用户选择用户类型后输入用户名和密码进行身份验证,验证成功后,登录到其所属主界面。
4 结束语
智能问答系统是眼下IT行业研究的热点领域,是未来发展的必然趋势。本文大致研究了博士后制度智能问答系统所需的特定领域分词、问题归类、问题相似性计算三种中文信息处理方法,提出了使用手动和自动相结合的方法建立一定规模的博士后智能问答知识库,并对知识库中没有的答案采用搜索引擎的方式自动搜索相关答案,最终开发出一套实用的博士后智能问答原型系统。可以预期的是实现系统的基本功能。下一步的工作是提高问答系统的性能,扩大知识库的规模。
参考文献(References):
[1] 王修来.中国博士后发展报告.2015[M].中国人事出版社,
2016.
[2] 金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算
机(上下旬),2012.1.
[3] 朴石峰.基于Web3.0网络爬虫自主学习技术研究[D].吉林
大学,2015.
[4] 蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型
研究及应用[J].西北工业大学,2012.33(1):388-391
[5] 冶忠林,杨燕,贾真等.基于语义扩展的短问题分类[J].计算机
应用,2015.35(3):792-796
[6] 董自涛,包佃清,马小虎.智能问答系统中问句相似度计算方
法[J].武汉理工大学学报(信息与管理工程版),2010.32(1):31-34
[7] 胡小华.基于用户的智能问答系统的设计与研究[D].天津师
范大学,2012.
[8] 邢超.智能问答系统的设计与实现[D].北京交通大学,2015.