基于自然语言处理的微信纳税服务平台
2020-07-23李文峰宗佳佳唐善成张镤月李大娟陈熊熊
李文峰 宗佳佳 唐善成 张镤月 李大娟 陈熊熊
摘 要: 移动互联网时代,信息种类丰富,获取途径多样,税务信息对专业性和准确性的要求尤为严格。针对由此产生的检索难度上升、检索精准度下降的问题,结合国家税务总局“互联网+税务”行动计划,提出基于主流即时通信软件的纳税服务平台,以人工智能技术辅助税务信息的检索。利用以自然语言处理为核心的智能信息检索技术,对检索人输入文本进行文本提取、特征项提取、利用夹角余弦法进行语义相似度计算并检索输出,实现税务信息的智能问答功能,提供纳税人办税所需的各项税务服务信息。最终实现以纳税人为中心,以实际问题为导向的税务服务,助推税务服务的现代化、信息化、智能化发展。
关键词: 微信纳税平台; 互联网+税务; 自然语言处理; 人工智能; 智能信息检索; 语义相似度计算
中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2020)05?0019?03
WeChat tax payment platform based on natural language processing
—A case of tax service of Weinan city in Shaanxi province
LI Wenfeng, ZONG Jiajia, TANG Shancheng, ZHANG Puyue, LI Dajuan, CHEN Xiongxiong
(School of Communication and Information Engineering, Xian University of Science and Technology, Xian 710054, China)
Abstract: There are many types of information in the era of the mobile Internet and the ways to get the information are diversified. The requirements for professionalism and accuracy of tax information are particularly strict. In view of the resulting problem of difficulty increase and accuracy decrease of the retrieval, a tax service platform based on mainstream instant messaging software is proposed in combination with the "Internet + tax" action plan proposed by the State Administration of Taxation (SAT), which assists the tax information retrieval with artificial intelligence technology. The intelligent information retrieval technology which takes natural language processing as the core is utilized to exert the text extraction and feature item extraction upon the retriever′s input text, and semantic similarity calculation and retrieval output are performed with the included angle cosine method, thus realizing the intelligent question?and?answer function of tax information and providing various tax service information required by taxpayers for tax payment. Finally, the taxpayer?centered and practical issue?oriented tax service is realized, which promotes the modernization, informatization and intelligent of tax services.
Keywords: WeChat tax payment platform; Internet + tax; natural language processing; artificial intelligence; intelligent information retrieval; semantic similarity computing
0 引 言
稅收是国家财政收入的主要来源,随着社会发展,财税体制也进行着不断探索与改革。我国现行增值税、消费税等十余项税种[1],办税指南信息涉及信息报告、发票办理、申报纳税、优惠办理、证明办理、出口退(免)税、国际税收、清税注销、信用评价、权益保护、涉税专业服务等多方面,针对不同纳税主体的不同税务服务信息需求,精准推送报送资料、办理渠道、办理时限、注意事项及相关政策依据等纳税服务信息,简化优化纳税人办税流程,需要特别关注。
同时,伴随互联网技术的不断发展成熟,即时通信软件已经成为常见的日常通信手段,根据2017年11月腾讯官方发布的《2017微信数据报告》,截至当时微信日登录用户已超9亿,较前一年增长[2]17%。庞大的用户基数为基于微信开发的各项服务平台提供了可能,催生出多种产业在互联网时代下新的运营发展模式,充分利用网络资源,构建智能化、一体化的服务平台。
而目前,陕西省渭南市国地税税务服务系统主要采用税务服务大厅现场咨询和税务系统官网查询,在税务大厅放置的二维码虽然也可以为纳税人提供在移动端查询获取各自所需的办税信息的渠道,如图1所示,但是,经粗略统计,省税务局“办税指南二维码”上就有110个二维码,纳税人在扫描二维码获取所需税务服务信息时时常会遇到“选择困难症”而无所适从,无法及时高效地获取有效税务服务信息。
针对上述情况,本文提出了基于自然语言处理的微信纳税服务平台,通过智能检索实现模糊匹配的自动问答系统,在大大降低了对用户专业性的需求、减少了纳税人大量时间成本的同时,也能针对用户需求,为智能推送定制化的税务服务信息提供依据和渠道,以降低征纳成本、提高税务服务质量、构建智能化税务服务体系。
1 自然语言处理
信息的检索本质上是用户的信息检索需求和数据库存储信息之间的匹配过程[3]。随着互联网技术的跨越式发展,综合利用互联网技术、通信技术、数据库技术进行信息的检索得到了广泛关注,如何在海量的多媒體信息中过滤掉无用部分,检索到有用信息,相关检索技术的研究取得了丰硕成果,其中就包含了对于自然语言的处理。
自然语言处理就是计算机对人类所使用的口头或书面形式的自然语言进行各种处理、加工的技术,这种技术能够将自然语言翻译为计算机语言,以便计算机更容易地接受和执行人类以自然语言形式输入的指令,是发展人工智能技术的基础[3]。将自然语言处理应用于信息的检索,使得检索技术迈向了智能检索的方向,检索的效率和准确性将得到进一步的提升。智能信息检索的核心在于文本相似度的计算。文本相似度计算主要从分词、去停用词、特征项提取、权值计算、相似度度量等方面着手,以取得更高效、更精确的处理结果[4]。
1.1 分词处理
中文区分于英文的最大特点在于中文没有明确的分割符,而是通过字与字之间的不同组合来表达词义,甚至在不同语境中,相同的字词还会表示不同的语义,极大提升了自然语言理解的复杂性。进行分词处理可以将文本优化为更具结构化的表示后再进行后续处理。目前主流的中文分词方法主要有基于字串匹配的分词方法、基于统计的分词方法和基于理解的分词方法[5?7]。
1.2 去停用词
停用词是指文本中大量出现的但没有实际意义或对句子语义理解作用不大的词,如叹词、连词、冠词等均属其中。停用词对句子语义的贡献非常小,在分词结束后过滤掉这些停用词能够更好地优化算法。
1.3 特征项提取
文本的特征项是能够表征文本含义的单元。从特征项的层级来说,由低到高可以分为字、词、短语等。在多数情况下,层级高的特征项能够表述更完整的文本含义,但相对来说,也会对分词等处理提出更高要求。同时,文本的特征表示,能够帮助计算机将自然语言转化为易于计算的特征向量[8],对于计算机处理和理解自然语言有极大简化作用。当前,独热编码(One?Hot Encoding)、词频?逆文件频率(TF?IDF)技术[9?10]等多种方法都可以应用在文本的特征项提取中。
1.4 语义相似度计算
通过特征项提取,文本已经被转化为空间向量表示,文本的语义相似度计算也就被转化为了向量之间的相似度度量。一般向量计算相似度有如下方法:向量内积、欧氏距离、夹角余弦和绝对值距离等[11]。
2 微信纳税服务平台
在互联网技术极大发展的时代背景下,开发基于即时通信软件的纳税服务平台是适应更多人使用习惯、合乎信息时代发展条件下税务服务信息化、智能化发展要求的一项工作。本文提出的基于自然语言处理的微信纳税服务平台的主要功能是提供税务部门与纳税主体之间的税务服务信息交互渠道,以人工智能技术辅导纳税人对所需税务服务信息的智能模糊检索,提供税务业务描述、办理流程、政策依据、办理时限、报送资料、办理地址等信息的自助问答,切入其痛点,也可为未来针对性推送缴税提醒、相关法律法规更新、税务信息查询等服务信息提供渠道和依据,充分利用互联网+的服务模式优势,使纳税人能更方便、快捷、高效地获取税务服务信息。
本文提出的基于微信客户端的纳税服务平台的系统体系结构如图2所示。用户提交给纳税服务平台的消息将会首先传递到腾讯服务器,再转发至纳税服务平台的服务器,在服务器接收到请求后,将进行消息格式的解析,根据用户消息内容和设定的服务器逻辑,计算需要返回的消息,再封装经由微信后台转发至用户的微信移动客户端,国家纳税指南Web服务器、陕西省税务服务器作为已有服务器,可以为微信智能纳税服务平台服务器提供Web服务。
纳税服务平台进行智能模糊检索时的技术方案如图3所示,主要由微信纳税服务平台界面、文本提取模块、文本特征项提取模块、数据库、语义相似度计算模块和索引模块组成。
在特征项提取模块,微信纳税服务平台使用One?Hot编码进行特征项的提取,将文本转化为计算机能够理解和处理的二进制编码;而在语义相似度计算模块,微信纳税服务平台使用夹角余弦法计算向量的相似度。
对于向量[x=(x1,x2,…,xn)],[y=(y1,y2,…,yn)],相似度[Sim(x,y)]的计算公式如下[3,12]:
[Sim(x,y)=i=1nxi?yii=1nx2i?i=1ny2i]
索引模块的主要功能就是对计算得到的语义相似度值进行正向排序,将其中相似度值最高的三项作为检索结果顺序输出,若相似度值高于设置的阈值0.8,视为精确检索,将唯一输出此项检索结果,而当相似度值低于所设阈值0.1时,则视为检索失败。微信纳税服务平台的检索结果展示如图4所示。