大数据知识图谱的电商领域问答系统设计
2019-11-08廖美红
基金项目:2019年度广西中青年教师科研基础能力提升项目,名称:基于知识图谱的电子商务客服问答算法设计与实践(项目编号:2019KY1519)
摘 要:随着互联网信息技术的快速发展,我国社会经济结构发生了较大的变化,社会各领域信息化技术得到了较为广泛的应用,社会各行各业中都产生了大量的数据。近年来,我国电商行业得到了快速的发展,相关商品的咨询量也变得越来越大,而问答系统可以帮助人工客服缓解相应的压力,并且可以根据用户的相关信息进行功能扩展,从而能够给用户提供比较个性化的智能服务。电商领域具有较为广泛的知识数据,电商平台上大量商品的咨询和商品服务的进行,都需要应用到相应的问答系统。在互联网语义数据不断产生和积累的现状下,问答系统相关的应用可以为用户提供智能的知识服务,所以受到用户们的认可和使用。在知识图谱快速发展的背景下,基于知识图谱的问答系统得到进一步的研究,然而,目前大多数问答系统都是面向英文的,尤其是在当前热门的电商领域,基于中文知识图谱的问答系统也已经成为相关部门重要的研究方向。本文针对电子商务领域问答系统,分析了相应的技术,并探讨了大数据知识图谱的电商领域问答系统的设计。
关键词:电商领域;大数据;知识图谱;相关技术;问答系统设计
在当今信息化社会环境中,随着互联网的发展,电子商务得到了极大的发展和进步,相关电商购物平台上的用户量也在不断增长,商品的种类和数量也在不断增加,每时每刻都会产生海量的数据,在这种情况下,电商领域中用户量的增加,给提供商品服务的客服人员带来了巨大的工作量,问答系统的出现,能够有效缓解人工客服提供商品服务时的工作压力,并提高相应的工作效率。
自动问答系统不仅能够帮助人工客服缓解压力,还可以结合用户信息进行相应的扩展,给用户提供个性化和智能化的服务。知识图谱其实就是一种语义网络,知识图谱上的每个结点,代表的都是一种实体或者概念,而知识图谱的边代表的是结点之间的各种语义关系。在目前的情况下,结构化数据源剧烈增加,对于搜索引擎而言,知识图谱能够实现语义层面上的功能,利用传统的关键词搜索,在当前社会环境下已经不能够满足用户的需求。用户通过使用自然语言查询进而得到自己想要的问题答案,这其中应用到的问答系统也正在成为信息检索技术发展的趋势。
一、知识图谱以及相关技术概述
1.知识图谱
知识图谱最早出现在谷歌上面,其就是一种语义网络,知识图谱上的每个结点,代表的都是一种实体或者概念,而知识图谱的边代表的是结点之间的各种语义关系。在当前的社会中,许多企业都建立了相应的知识图谱知识库,在构建知识图谱时,采用的都是自底向上数据驱动型,该种类型具有灵活的数据语义表达能力,实体覆盖率也比较高,结点之间的语义关系也变得更加全面。对于当前的知识图谱而言,其标准数据是由RDF三元组数据存储形式构成,在知识图谱的信息结构中,还具有一些OWL数据,这些数据中还包含着本体的类、属性、实例等基本概念。
2.问答系统的实体识别技术
实体识别技术在中文知识图谱的问答系统中,能够具体区分相应的中文文本,在一定程度上,该问题得到了较多的关注和广泛的研究。在知识图谱问答系统进行分析的过程中,根据用户不同的表述语句,系统的实体识别技术能够准确找到用户所要表达的词汇,在当前情况下,对知识图谱问答系统设计进行研究时,中文知识图谱问答系统中的实体识别技术,是进行系统设计时需要研究的基础性工作。在自动问答系统中的算法中,对实体识别进行了相应的定义,实体识别主要作用于对命名实体的识别,在一定程度上讲就是其从文本中识别具有特殊意义的实体。
3.实体链接技术
在电商领域问答系统中,实体链接技术可以对构建语言系统和中文知識图谱知识库中的相关应用进行利用,这是电商领域中问答系统应用的基础。在一定程度上,问答系统所研究的范围是清晰表达用户想要表达的问题,并且能够快速了解用户语句的含义。在电商领域中问答系统的设计中,链接客户的表达和知识库是需要重点研究的内容。以往的实体链接任务中所研究的基本是机构名、人名和地名,按照给定的目标,对实体名词进行分析并对相关文档进行查询,然后再根据电商领域相关企业的知识库中已经有的实体词汇,将目标实体名词与之进行匹配,观察能否进行正确的链接。
当前环境下的电商领域知识图谱中的知识不断变化,同义表达也比较多,虽然有关学者研究计算了词汇和近义词汇之间的相似度,但是对于之前的同义词库中的知识词汇,其已经不能满足当前电商领域发展的需求。
二、基于知识图谱的问答系统中存在的问题及解决方法
1.基于知识图谱的问答系统中存在的问题
基于知识图谱的问答系统一般存在着前端语义理解、后端知识图谱的构建两大核心问题。对于问答系统通用的流程,其能够将自然语言进行翻译,转化成结构化的查询语言,比如SQL、SPARQL等,从而查询知识图谱中的实体和关系。对于基于知识图谱的问答系统而言,其可以实现支持推理等更多的复杂问题的解决,像处理包含逻辑判断的问句等。近些年来,我国电子商务相关行业得到了迅速的发展,用户对于商品的咨询量也在不断增加,自动问答系统能够帮助相关平台客服人员缓解一定的压力,在一定程度上能够结合用户信息进行扩展,并为用户提供个性化智能服务,但是其中存在的问题仍然需要重点研究和解决。
基于知识图谱的问答系统虽然可以处理多个语义网资源混合情况下的问答,但仍然无法有效处理需要统计的复杂问题。ORAKEL和Pythia系统虽然准确性比较高,但是在应用的时候需要构建相关领域内的知识库词典,这就造成较高的人工构建的覆盖率和代价。使用传统的语法解析方法,可以通过依存句法分析对初步的语义块进行提取,虽然在一定程度上能够保证相应的准确度,但对于口语类型之类的短文本,只是使用依存句法分析得到的结果,并没有理想的效果。
2.問题相关解决办法
对于问答系统存在的问题,相应的解决方法主要包括三类,与模式相关的问答系统、与统计学习相关的语义提取技术、与依赖树相关的语义提取技术。对于与模式相关的问答系统而言,按照相应的模板和规则,该方法采用的是基于模式匹配的语义提取方法,该方法是在用户的语句中,找到符合相关规则的问句,然后使用提前制定好的模板进行转换。TBSL系统可以按照相应的依赖关系、词性关系,通过构建相应的SPARQL解析器,来生成相应的查询模板,而且在这个过程中使用更多的信息,能够提高对三元组提取的准确率,这要比直接使用依赖关系进行构建查询的准确率高。
三、大数据知识图谱的电商领域问答系统架构
1.问题的分类器
针对电商领域词库而言,在一定程度上将知识图谱中的实体概念和相关属性等词汇引入其中,抽取的标注根据所获取的集成来进行,通常情况下可以定义八种类型的问题。在进行问题分类时,首先要对具体问题进行相应的分类,这样能够对问题的重点进行快速的把握;然后再根据问题种类中提供的关键词,可以有效构造问句的类别向量。而对于问题的分类,其一般都是从统计学的角度进行的。对于本文的问答系统而言,重点关注的是知识图谱的问答链接数据,只有更加清晰地了解这些数据,才能够更好设计相应的问答系统,并充分满足用户的需求。
2.关于序列词性依赖的标注问题
在分析重点词汇的过程中,通常会利用到传统的依存句法,这时比较重要的是实词与实词之间的关系。在一定程度上,有语义关系的词汇需要更加关注。虽然在一定程度上,利用SDP可以对语义相关的词汇关系进行有效的提取,但是在实际的应用中,这其中还存在着较多的问题,所以基于SDP的语义依存序列和特定领域中的实体序列,本文提出了一种依赖减缩的算法,该算法能够进行基于SDP的初始化。从一定程度上来讲,OMT所代表的含义,是对这一条词汇的关系进行删除,所有节点词汇之间的链接需要进行分开删除,在进行合并之后,也要保留词汇之间的缘由节点,之前的原点也可以继续利用,用来做出指向的关系,能够找到对该依赖进行具体操作的实际操作,使其在问答系统中的实际效果得到有效的提升。
3.提取SPARAL
针对上面所涉及到的标注序列,在使用的过程中可以生成相应的SPARAL模板,在实际应用中使用该模板,针对不同类型的问题在很大程度上能够进行针对性的回答。对于事实类的问题,定义了相应的基础查询模板,对于类是完全正确的情况下,对应的类型可以使用c去代替,然后通过利用相关的词汇信息和依存句法分析,对三元组的相关信息进行提取,针对不同用户所提出的问题类型,制定出相对应的语义模板,再结合相应的实体信息,提取出有关问题的答案,从而保证问答系统为相关用户提供所需要的更准确的信息。
四、大数据知识图谱的电商领域问答系统设计与实现
1.系统整体设计
该系统是在MVC的架构上进行设计完成,对于数据存储层而言,主要存在两种数据需要进行存放,一种是电商领域知识库的RDF数据,另一种是Redis数据。整体知识图谱的结构,通常使用的是RDF数据存储,其能够支持调用CEQA的算法包,而Redis只能支持部分调用CEQA的算法,但是Redis可以加速链接过程,提升系统的整体性能。逻辑层对前后端交互和逻辑算法部分进行了隔离,而展示层使用的是HTML5技术,该技术能够根据用户的不同问题类型,完成不同的展示任务。
2.数据缓存的设计与实现
Redis和传统的关系型数据库不同,其是利用key-value类型数据库可以对CEQA算法框架中的link环节进行加速,能够有效提高link算法的工作效率。对Redis的基本存储结构进行定义,进而对RDF的三元组数据进行快速查询,能够避免对jean-api进行直接调用,可以有效缩短三元组的简单链接过程。
3.View层的设计与实现
ECharts是一个具有强大制图和可视化库以及高度可定制的图表,CEQA系统在EChart的基础上进行了前端交互的设计,拥有不同用户不一样的问题类别,可以进行不同形式的展示。系统通过对ECharts关系图部分功能进行修改,能够有效满足用户点击、拖动、悬停相应的知识数据,并且可以重新定义节点和边的基本数据结构。
4.CEQA-Live-Service的设计与实现
CEQA-Live-Service是基于MVC框架进行设计的,能够对外提供HTTP的访问接口,该项目是利用maven2进行构建,通过使用java语言进行编写,具有容易移植和跨平台的优点,Control层能够支持与前端进行交互,并提供3个相应的接口。
五、总结
综上所述,近年来,我国电商行业发展迅速,用户对于商品的咨询量较大,对于电商这样的焦点领域,设计出一种基于知识图谱的电商领域问答系统,能够很好地缓解相关人工客服的压力,并且通过结合用户信息进行相应的扩展,可以为用户提供更好的、个性化的智能服务。通过对基于知识图谱的电商领域问答系统的设计进行研究,也能够更好实现知识图谱的价值。
参考文献:
[1]廖美红.基于中文知识图谱的电商领域问答算法设计与系统实现[J].商场现代化,2019(05):34-35.
[2]杜泽宇,杨燕,贺樑.基于中文知识图谱的电商领域问答系统[J].计算机应用与软件,2017,34(05):153-159.
[3]杨燕.面向电商领域的智能问答系统若干关键技术研究[D].华东师范大学,2016.
[4]杜泽宇.基于中文知识图谱的电商领域问答算法设计与系统实现[D].华东师范大学,2016.
作者简介:廖美红,女,广西南宁人,广西工商职业技术学院计算机教学骨干教师,副教授