基于中文知识图谱的电商领域问答算法设计与系统实现
2019-05-23廖美红
摘 要:最近几年来,由于电子商务的快速发展,其直接促进了人工智能服务的庞大需求,在基于知识图谱的问答中,有很多的问答系统都是面向英文的,然而在中英文之间的语义表述有着极大的差异。在一定程度上我国互联网的语义数据也在大规模地得到发展,在电商领域问答算法设计当中也能够给用户提供一个较为智能的问答系统而受到关注。因此,笔者主要是从电子商务的领域作为初始点,然后针对用户在不同领域以及多样性当中对于中文知识图谱的问答算法系统进行知识库的相关设计优化,并提出了一个基于中文知识图谱的自动问答框架,在一定程度上去实现提升用户体验以及降低客服的工作压力等。
关键词:中文知识图谱;电商领域;问答算法;设计与实现
在一定程度上中文知识图谱是一种网络的语义,知识图谱的节点代表了实体和概念。随着我国电商领域当中的数据结构化不断发展,规模不断增多,互联网的虚拟网络逐渐向实体所转换,这种转换在某种程度上是被称为语义演变。当前我国电子商务领域得到了快速的发展,在电子商务购物平台上的客户量也随之增加,其商品也在不断增多,正是因为这种情况的出现,让其客户量不断加大,客户量的增大就会给很多的人工客服带来巨大的工作压力,因此,基于中文的知识图谱问答系统设计的出现,就会有效降低人工客服的工作压力。在某种程度上,人工客服所需要的企业成本是相对较大的,这些原因的出现也会导致企业很难得到发展。然而在我国电商行业知识数据中,有很多的商品质询服务都是需要依赖问答系统的,目前,我国电商行业就是缺少一套完整的知识问答系统,因此知识图谱对于提升问答系统的实用性研究具有极为重要的现实意义。
一、相关技术分析
1.实体识别技术分析
在基于中文知识图谱自动问答系统当中,实体识别是能够对中文文本进行具体区分的,在某种意义上该问题也得到了广大研究学者的重点关注。在中文知识图谱问答系统分析过程中,其自身的实体识别能够从用户不同表述语句当中去找到用户主要想表达的核心词汇。所以,中文知识图谱问答系统的实体识别也是当前所要研究的基础性工作。因此,在基于知识图谱的自动问答算法当中,实体识别是能够定义为:一个K和所输入查询的s,来计算出所查询的s在K当中的匹配实体得分。一般意义的实体识别主要是包含了命名实体的识别,其又被称之为“专名的识别”,在一定程度上主要说的就是从文本识别当中具有的特殊意义实体,也包含了机构名、人名以及地名等内容。
2.实体链接技术分析
实体链接技术主要是利用了构建自然语言系统以及中文知识图谱知识库当中的相关应用,这也是电商领域中问答系统的基础。在一定程度上问答系统的研究范围,能够清晰地表达出用户所想要表达的问题所在,能够快速地知道用户语句中的含义。在某种程度上,因为客户一直都是多样化的,因此链接客户的表达以及知识库也一直都是研究的重点。以往的实体链接任务的研究对象主要是包含了机构名、人名以及地名等类型的实体名词。在一定程度上所分析的任务是给定一个目标,实体名词以及实体名词的查询文档,然后把目标实体名词和目前电商领域企业中的知识库中已有的实体词汇进行相应的匹配,看其是否能够正确地链接。在电商领域当中,其具有知识不断变化、同意表達层出不穷等领域之内的特征性,在一定程度上根据最近几年的研究分析,相关研究学者通常使用BabeINrt来作为链接的辅助资源,在词汇和近义词汇之间进行相似度的计算,在一定程度上不断去提升所变化的网络语言以及相关语义,这样会让以往的同义词库当中的知识词汇不能满足现阶段的需求。所以,在一定程度上能够有效运用同义词的计算,来让中文知识图谱在电商领域中的问答系统能够体现出其自身的价值,在一定程度上也能够有效解决客户多样化的问题,从而促进工作效率的提升。
二、系统架构
1.问题的分类器分析
在一定程度上把知识图谱当中的实体概念以及相关属性等词汇引入到电商领域词库当中,根据所获取的集成来进行抽取的标注,在一定程度上共定义有八种问题类型。对于相关问题的分类,首先要进行的就是对于具体问题进行具体的分类,这样能够更为快速地知道问题的重点所在,然后根据问题种类当中的关键词去构造出问句的类别向量,在一定程度上问题的分类大多数都是从统计学的角度所进行分类的。因为本文主要是基于LibSVM所进行的分类研究。问答系统时常所要重视的就是基于知识图谱的问答链接数据,只有这些相关数据有一个更为清晰的了解,才能够让问答系统能够更好地去服务客户。
2.序列词性依赖的标注问题分析
本文主要是基于某工业大学的LTP工具进行词标注,来获取标注好的词序列。在传统的依存句法分析重点词汇中实词与实词之间的关系是相对重要的,在一定程度上就需要更为关注有语义关系的词汇。在某种意义上虽然SDP能够有效地去提取语义相关的词汇关系,但是在实际的应用当中由于其所特定的领域问句存在较多的问题,其问题可以概括为两个方面:第一个方面是SDP的依赖相对复杂,与此同时其所针对的很多较短语句不能正常地去进行相关信息的提取;第二个方面是SDP的效果以及训练太过于依赖语料,这种情况的出现让其不能够很好地运用在电商领域当中。基于此,我们在SDP的语义依存序列以及特定的领域当中的实体序列基础上提出了依赖缩减的算法,其中所生成基于SDP初始化。在每一个节点当中所表示一个词汇,每一条边所表示词汇之间的依赖关系,因为在一定程度上缺少领域实体的支持,因此在SDP的描述流程下就会形成较为复杂的依赖结构,从而让其不能够达到很好的问答效果。
在基于中文知识图谱的电商领域问答算法设计系统实现当中,可以有效利用相关软件比如CRF去进行识别实体来合成相关数据,在一定程度上可以把产品的品牌以及型号进行相关的合并,这样是能够有效防止产品标签的过多而出现的各种繁琐步骤,在中文知识图谱当中有很多种的依赖关系都是能够让其成为多种基础操作,具体的相关基础操作可以表示为以下几点:第一是反转、第二是删除、第三是保持、第四是合并。从某种层面上来说OMT所表示的是删除这一条词汇的关系,并且要分开删除所有节点词汇之间的具体链接。在合并之后要保留词汇之间的缘由节点,并且要使用原来的节点做出指向的关系,是能够找到一种实际操作当中对于该依赖进行具体基础操作的,从而提升其在问答中的实际效果体现。
3.SPARQL的提取
SPARQL的模板是在上面所叙述的标注序列当中生成的,这个模板的实际应用能够极大程度地针对不同类型的问题进行针对性的回答。在一定程度上计数最值类问题;其主要包含了一个聚合函数问题的板块。在定义聚合函数有计数和比较器以及过滤器三种问题时,要定义其目标是作为聚合函数的总目标。在聚合函数中需要分开将其运用在问答计算类型以及比较类型的问题当中。事实类问题;在定义的基础查询模板当中,对于类似于完全正确的回答,是能够使用c去代替所对应的类型的,再实际利用词汇信息和依存句法分析进行相关三元组的信息提取,最后针对不同用户所提出的问题类型,去制定出相应的语义模板,然后再结合相关的实体进行详细问题答案的提取,这样能够让问答系统更为准确地回答出用户所需要知道的相关信息。
三、结语
总而言之,在基于中文知识图谱的电商领域的自动问答系统中,有效运用自然语言处理技术和实体识别技术以及实体链接技术,能够提取相应的语义槽,从而去构建SPARQL的查询。在一定程度上去结合电商领域的特征在实体识别中引入特定的实体识别,能够促进LTP的使用,本文所提出的系统是具有一定局限性的,其所制定的规则式确定标签,比如对于“给我所有电脑和电脑的颜色”这种类型的语句是不能得到信息的提取的。当前随着电子商务的不断发展,有很多的电商领域企业对于缩减规则的研究相对较少,除此之外,相关人员还需要把问答系统当中的用户所提出的答案进行优化和调整,只有这样才能够有效促进中文知识图谱在电商领域问答系统中的应用。
参考文献:
[1]马晨浩.基于甲状腺知识图谱的自动问答系统的设计与实现[J].智能计算机与应用,2018,v.8(3):108-113.
[2]肖庆都,屈亮亮,侯霞.基于Neo4j图数据库的课程体系知识图谱系统设计与实现[J].电脑知识与技术,2017,13(36):130-132.
[3]基于多种数据源的中文知识图谱构建方法研究[D].华东理工大学,2015.
[4]刘自强,王效岳,白如江.多維度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例[J].中国图书馆学报,2016,42(6):67-84.
作者简介:廖美红(1979.10- ),女,汉族,广西南宁人,硕士,副教授,主要研究方向:计算机应用技术