基于健身知识图谱的交互式可视化智能问答系统
2021-04-04李学良张树美
李学良,李 雪,张树美
(青岛大学数据科学与软件工程学院 山东 青岛 266071)
1 引言
随着我国经济迅速发展以及公众收入不断增加,伴随而来的是消费观念的升级以及健身意识的增强,健身需求越来越大。近年来,国家持续推进大众健身,全民健身已经上升为国家战略,人们对个性化健身知识需求的不断增加。
研究数据表明,在现如今的互联网时代人们获取信息的主要途径是通过搜索引擎[1]。但是用户会耗费大量的时间来对搜索引擎获取的良莠不齐的冗余信息进行甄别,大大消耗了用户的时间与精力[2],影响了用户的体验感。知识图谱由于其强大功能在近些年得到了飞速发展,随之而来的知识图谱的价值不断地被人们发掘。知识图谱能够捕捉并呈现领域概念之间的语义关系,实现对琐碎、零散知识的连接[3]。随着大数据时代的到来,知识图谱除了通过搜索知识库返回搜索结果外,还能够处理复杂问题的推理,作为一个新领域近年来广受关注[4]。
知识图谱的出现为知识服务改进提供了全新的方法。一个良好的智能问答系统能够便捷地实现健身知识服务的信息化、自动化及智能化,因此构建一个基于知识图谱的交互式可视化智能问答系统具有现实意义。
2 研究目标与设计思想
2.1 研究意义
随着人们生活条件的改善和生活观念的改变,健身走进了千家万户,健身问题逐渐已经成为中国各个年龄段的热点,越来越受到人们的重视。传统的健身信息查找和咨询方式有一定的局限性,因而难以满足很多人对于健身方面的需求。因此一个交互式可视化的智能问答健身知识服务系统可以有效解决多方面的问题,不仅可以有效整合网络、文献等各种资源为广大用户提供更加智能、更有针对性的健身知识,还可以通过饮食训练多方面系统地为用户提供帮助。
2.2 系统目标
系统研究知识表示模型、知识图谱构建、检索和分析方法,建立交互式可视化健身知识服务系统,支持针对用户的体脂诊断和智能问答以及饮食训练建议,作为一个能集成各种类型数据、满足多元化用户的需求、界面操作简单、能提供智能问答服务的健身知识服务平台。主要研究目标为:(1)设计健身知识表示模型。(2)解决问题处理的更新[5],所建知识库能够实现自动更新,保证系统的时效性和可用性。(3)满足用户的个性化输入,能够识别用户个性的问题输入方式。(4)系统能够进行数据分析以及对用户实际情况进行评估,并向其提供饮食和训练的针对性服务。(5)实现领域知识理论更新与技术应用迭代的适应性,系统满足安全性、稳定性、鲁棒性等特点,并且方便系统未来的扩展与升级。
3 健身知识图谱构建
3.1 知识图谱构建流程
该健身知识图谱构建的具体步骤包括:(1)对需要提取的内容进行识别分析;(2)数据预处理;(3)抽取标题,内容主题及术语等;(4)建立三元组关系;(5)数据融合;(6)数据存储及可视化。
3.2 基于知识图谱的实体抽取
实体识别是知识图谱构建的数据功能支撑。该系统知识图谱中的实体、属性等数据,都需要通过实体识别获取,实体识别获取的实体、属性等数据是知识图谱构建的数据功能支撑,所以实体识别对于知识库的构建来说意义重大。
本文实体抽取采用的是基于深度学习的BILSTM+CRF方法。LSTM本质是通过隐藏状态保存输入信息,但LSTM局限于只会从左到右获取而不会联系上下文语义,而我们所采取的双向循环神经网络可以很好地考虑上下文的语义信息,对LSTM来说是一个很大的提升,因此本文采用BiLSTM+CRF的方法来识别命名实体。
3.3 基于知识图谱的关系提取
该研究涉及健身相关领域的标题和关系,其中关系包括主次和从属关系。本次健身知识图谱构建两种形式的三元组,一种是文章的结构,文章的结构又包括标题和内容,而且每级标题的关系也被包含其中;一种是术语的属性,此外包括术语之间的关系。
4 研究内容
4.1 系统架构
针对研究目标,该智能问答系统主要可以分为五大模块:人机交互模块、FAQ问答、语义查询、知识库构建、数据源。系统的数据源主要是从百度百科中关于健身的知识以及权威健身专业书籍中抽取,然后对不同源的数据进行知识融合,概括起来包括健身信息抽取、知识融合和知识推理方法。同时该健身知识图谱检索不到的问题,会将疑难问题转交给人工客服,然后人工客服进行人工审核,最后给用户提供答案,这种处理方式可以大大提高系统的可用性。
4.2 系统模块设计
4.2.1 人机交互模块
人机交互模块位于智能问答系统的顶层,它的主要功能是接收用户的问题,以及最终进行结果的输出。具体来说,人机交互模块可以先对问题进行预处理,通过对问题预处理后就可以判断用户输入问题的范畴,最后将处理后的问题转发给系统模块中的语义查询模块,最终,由FAQ问答模块或者语义查询模块得出的答案将通过人机交互界面传递并展示给用户。
4.2.2 FAQ模块
通过对健身问题统计和分析,发现有相当一部分问题重复性非常高,如果对于这些具有普遍性的重复率高的问题不做归类作答的话,就会耗费大量时间。通过面向FAQ的问答方法可以将这些带有普遍性的问题进行归类统一的回复,节省了大量时间。例如“想要减脂怎么做好饮食”,“怎么吃才能减脂”这种类似的问题,FAQ就可以很快速地解决。FAQ的方法流程包括模板生成与匹配。模板生成可分为三个步骤:(1)首先对问句中的自然语言进行分词,然后判断其词性和类型;(2)根据领域语义和语法规则,将问句词汇划分成领域相关词汇和领域无关词汇。以“无氧运动的运动方法有哪些?”为例,领域无关词汇有“的”,“哪些”等;领域相关词汇有“无氧运动”和“运动方法”等;(3)将划分好的领域相关词汇和无关词汇构造成模板。
4.2.3 语义查询模块
FAQ虽然快捷,可以快速处理具有既有模板的问句解答,但是FAQ并非对所有问句都可以有对应的解决答案与之匹配,那这些FAQ无法处理的问句就要交给语义查询模块来处理。语义查询模块包括语义分析、知识图谱查询、问答结果的评价,还包括对系统无法解决的疑难问题处理等等。语义查询模块流程上首先对问题进行预处理,然后计算健身术语中的问题的语义相似性,通过计算结果将实体和关系分类进行映射,最后将问句转化为可以在知识图谱中进行查询的可识别语言。
假如通过查询出现了多个结果,就需要运用评价机制对查询结果进行评估,挑选出最佳答案展示给用户。假如问题过于复杂或者问句缺少了关键信息使系统无法解析,那么系统将这些问题转发到搜索引擎或者将问题转发给人工客服。
4.2.4 知识库构建模块
知识库是基于知识图谱的问答系统实现的基础。通过对现有数据库的对比发现,Neo4j图数据库有实时数据分析、轻松检索、高可用性等优点,可以可视化显示和轻松地实现检索其他数据库中的连接数据,而且Neo4j图数据库查询速度快,代码量少。因此,该系统采用数据库Neo4j作为存储数据库。
知识库的建立,我们采用自动构建和手工构建结合的方式,首先从百度百科等网站分析问答系统需要的信息并抽取数据源的实体和关系。由于信息抽取的结果中可能包含非常多的冗余以及错误信息,因此需要通过知识融合将多数据源抽取出来的实体和关系进行整合,整合完成后再进行构建知识库。自动方式可以让信息方便高效地进入知识库中去,同时通过循环迭代填充知识库和进行知识库的更新等方法,让数据库知识更加完备和具有时效性。
5 系统实现
5.1 实验分析
我们为了验证智能问答系统的可行性以及分析其性能,收集数据并搭建了一个基于健身知识图谱的智能问答系统的测试平台,该平台以Neo4j图数据库和Java语言为工具实现智能问答测试系统的相关模块与功能。本研究从准确率P、召回率Q和R值共3个指标来进行分析。从实验结果可以看出,系统回答的准确率和召回率都较高,证实了基于健身知识图谱的智能问答系统的实用性。但该实验结果是在少量数据的情况下得到的查询准确率结果,后续需要再做验证。
6 结语
本研究从百科以及健身文献中进行知识抽取与融合,从而构建了健身知识领域的知识图谱,并构建了一个为用户提供健身知识服务的交互式智能问答系统。通过问答系统为用户提供包括饮食、训练计划等方面的知识服务,并通过实验结果证实了该系统的实用性。目前,基于健身知识图谱的智能问答系统还可以通过改进算法提升其准确率,后续将对相似度算法进行改进和尝试使用更过适合的算法,用以提高系统准确率,并且在后续时间不断将信息填充到健身知识图谱中,进一步验证大量数据下该问答系统能否维持其准确性与实用性。