APP下载

基于自然语言的会计事项智能判断方法研究*

2017-04-25中南财经政法大学会计学院吴龙庭武汉科技大学城市学院肖聪

财会通讯 2017年7期
关键词:银行存款语料语料库

中南财经政法大学会计学院 吴龙庭 武汉科技大学城市学院 肖聪

基于自然语言的会计事项智能判断方法研究*

中南财经政法大学会计学院 吴龙庭 武汉科技大学城市学院 肖聪

近年来人工智能技术被广泛地运用于会计财务领域,在财务报表舞弊、证券市场预测和上市公司文档分析等方面取得了重要进展。智能化的会计信息系统将不仅仅是账务处理的工具,还能实时监控、检查和判断财务数据。实现智能化的会计信息系统,关键是让计算机理解会计概念,具备应用会计知识的能力。本文研究如何让计算机辨别使用自然语言描述的会计事项,借助自然语言处理技术,在会计语料分析中提出词移分析法,给出了一种判断会计事项的智能方法。

会计智能化 会计信息化 会计语言理解 自然语言理解

人类社会进入智慧信息时代,计算机、数据和网络成为人们工作和生活必不可少的资源和工具。以大智移云(大数据、智能化、移动互联网和云计算)为代表的现代化信息处理技术推动着会计由电算化向信息化转型。电算会计实现了凭证的自动登账和财务报告的半自动化编制,使会计人员成功地摆脱了枯燥的手工账。进入21世纪,互联网、人工智能、多媒体等领域出现的重大突破,让人们对计算机财务软件替代会计人员工作有了更高的期许。人们希望财务软件能智能化地理解数据、分析数据和处理数据。

一、会计核算智能化问题简述

会计核算智能化研究起始于21世纪。张永雄(张永雄,2002)很早就指出会计信息系统的数据输入方式需要改革,他认为电算化财务软件的输入方式是围绕着手工账务处理程序设计的,这种对手工账的直接模拟不能充分发挥信息系统的作用,应在财务软件中引入智能凭证处理模块,让计算机能根据原始凭证直接生成记账凭证。谢琨(谢琨,2003)借鉴人工智能中专家系统的概念,提议构建财务和会计领域的专家系统。他认为会计专家系统应分为财务分析专家系统、合成专家系统、组合专家系统和财会知识传授教育专家系统四类,对每一类系统都应分别构造其知识库、推理机和解释工具。他以租赁业务为例阐释了如何给会计知识建立数学模型,但没有实现一个完整的专家系统。王文莲及其学生就会计智能化问题进行了广泛而深入的研究(高哲,2007;刘鹏,王文莲,2009;王文莲,2007;王文莲,张明霞,2009),他们的研究结论可以归纳为三点:一是会计智能化是会计信息化的一部分,其发展必须与人工智能、云计算等先进信息处理技术相结合;二是会计核算智能化的关键是实现会计职业判断的智能化和自动化;三是他们提出了一种由经济业务自动生成记账凭证的通用方法,其实质是对每一类经济业务都总结出其分录编制规则,在业务发生时,由会计人员确认发生的经济业务,然后由计算机根据规则生成对应分录。该方法没有完全解决由原始凭证直接生成记账凭证这一问题,但比常规的记账凭证编制方法要进一步。蒋勇和王俊奇(蒋勇,王俊奇,2009)、王慧和洪辉(王慧,洪辉,2012)分别提出了财务智能和会计智能的概念。他们认为智能是客观对象运用知识的能力,计算机在获取数据以后,可以通过财务模型对数据进行分析和处理,因此其具备会计智能和财务智能。研究人员的任务是如何让计算机在此方面的智能水平不断提高。王舰就当前会计信息系统所面临的问题和未来的发展方向进行了广博而深入的思考(王舰,2013;王舰等,2011)。他认为会计信息系统应以系统论、信息空间理论、人机系统理论为理论基础,以数据库技术、商务智能技术和新3I技术(物联化,互联化和智能化)为实现手段,在智能化、立体、动态的原则上建立统一的会计信息平台,然后再建立具体的会计业务管理、资源管理、知识管理和决策支持系统。其他学者对如何将物联网、智能代理、人机交互、嵌入式、自然语言理解等技术与会计信息系统相结合也做了很多有价值的思考(陈宋生等,2013;李丛丛,2010;刘继,2004;毛元青,刘海玲,2015;彭江平,2005;张亚兰,2016)。

从目前的发展现状来看,会计信息系统与人工智能技术相结合是大势所趋,如何让计算机具备会计职业判断能力是实现会计核算智能化的关键。解决这一问题的思路有两种,第一种是从实务角度出发,会计人员进行职业判断以原始凭证为依据,在确认原始凭证数量齐全、形式完整、内容合法有效后,根据会计专业知识编制相关记账凭证。让财务软件代替人完成这一过程,必须借助计算机图像识别技术,用摄像头或光电扫描设备对原始凭证进行扫描,使用智能算法识别出原始凭证上的有效信息,根据会计确认规则判断经济事项是否发生,应如何处理。第二种思路是从专家系统的角度出发,未来的会计信息系统将不仅仅是一种办公工具,它还会是用户身边的一位“资深”财务专家。它不仅能进行账务处理,还能使用文字、图像、语音甚至表情与用户进行沟通和交流,回答用户的各种提问。这样的会计信息系统更像一个为普通大众提供专业会计服务的机器人。实现这样的会计专家系统,关键是让计算机理解会计人员的语言,让计算机能“听懂”会计人员的话,并进行相应的回答。本文从第二种角度研究会计智能化问题。

二、会计语言分析的原理

使用自然语言描述会计事实,如“红宇公司使用银行存款100万元购入一台机器设备”,根据专业知识会计人员能判断出该条语句描述的会计事项是“购入固定资产”,会计主体是“红宇公司”,发生金额为“100万元”,应编制会计分录“借记:固定资产100万,贷记:银行存款100万”。让计算机也做出同样的判断,在现有技术条件下是很困难的,本文的研究目标是让计算机能正确判断出文本所描述的经济事项,至于其他的判断结果留作后续研究。

理解自然文本所表达的内容和思想是人工智能的一个研究方向,称之为自然语言理解。完成自然语言理解任务通常要经过词法分析、句法分析和语义分析三个步骤。词法分析是对自然文本进行词一级的处理,最常见的词法处理是对句子进行分词和词性标注。对上述例句进行分词得到字符序列。在这个序列中,词语被分割出来并被标上词性,供后续的句法和语义分析使用。

句法分析是分析句子的组成结构。根据汉语语法,汉语的每个句子都可以分成多个成分,每个成分之间有一定的句法关系,这种句法关系大致可归纳为五种:主谓结构、补充机构、动宾结构、偏正结构和并列结构。句法分析的任务是对输入的词语序列判断其构成是否合乎给定的语法,分析出合乎语法句子的句法结构。由上到下对例句进行分析,“红宇公司”是“使用银行存款100万元购入一台机器设备”的主体,所以这两种成分之间的关系是主谓结构;“使用银行存款100万元”是修饰和说明“购入一台机器设备”这一行为的,所以这两种成分之间是偏正结构;“银行存款100万元”是动词“使用”的宾语,所以这两者是动宾结构如图1所示。完成词法和句法分析后,开始进行语义分析。

图1 句法分析结果图

理解句子的语义是自然语言理解的目的,词法和句法分析是语义理解的基础。当前,汉语的词法和句法分析技术已趋于完善,但语义分析技术还不成熟。通用的、高质量的汉语语义理解系统还没有诞生,如何让计算机正确完整地理解人类生活工作中的语言仍然是一个有待深入研究的课题。语义分析的基础是语料库,语料库是存放语言材料的数据库,库中的文本通常都经过人工或机器的整理,具有统一的格式与标记。对语料库中的文本进行分析、处理和统计,可以归纳出某类文本的共同特征,使用这些特征就能对未知文本进行辨别和分析。比如说为了判定例句所描述的会计事项,我们分别建立“购入固定资产”和“取得短期借款”两个语料库,如图2所示。其中,“购入固定资产”语料库中的句子是描述“购入固定资产”事项的,“取得短期借款”语料库中的句子是描述“借入短期借款”事项的。

图2 语料库示例图

不对这两个语料库中的语料进行严格的词法和句法特征的统计,单凭直感,我们就能观察到“使用->银行存款”、“购入->一”、“机器->设备”这样的词移(词语转移,这一概念的定义见后文)在“购入固定资产”语料库中出现的较多,而在“取得短期借款”语料库中出现得较少;而“从->银行”、“获取->短期”、“存入->银行”这样的词移在“取得短期借款”语料库中出现得较多,而在“购入固定资产”语料库中出现得较少。也就是说人们在描述“购买固定资产”这一事实时,经常使用“使用->银行存款”、“购入->一”、“机器->设备”这样的词语组合,而不常使用“向->银行”、“获取->短期”、“存入->银行”这样的词语组合。而对描述“取得短期借款”的情况,则恰好相反。因此,若一条描述经济事项的句子(这个句子当然既不在“购入固定资产”语料库中,也不在“取得短期借款”语料库中)包含“使用->银行存款”、“购入->一”、“机器->设备”这三个词移,而不包含“从->银行”、“获取->短期”、“存入->银行”这三个词移,我们就有理由推断这条语句描述的是购入固定资产事项,而不是取得短期借款事项。例句正好就是这种情况。下面,我们将这种判断会计事项的方法一般化。

会计事项的种类很多,但毕竟是有限的。为每一种会计事项都建立语料库,就能判断所有的会计事项。划分会计事项的种类可以有粗有细,比如说“支付管理费用”这一事项,可以单独作为一类,也可以进一步划分为“使用现金支付管理费用”类和“使用银行存款支付管理费用”两个小类。类别划分得越细,则判断结果越清楚,但出现误判的几率也会增大。对语料库中的句子进行分词,将分割好的词语按照它们在句子中出现的顺序依次编号,如图3(以图2购入固定资产语料库中第一条句子为例)。

图3 加上编号的句子分词

我们将句子中出现的第一个词语称之为首词,用I0表示。将句子中连续出现的两个词语连在一起称为词语转移组合,简称为词移,用T表示,句子中出现的第i个词移用Ti表示。采用这种词移表示方法,一条句子形式上可以写为I0T1T2…Tn。在图3的例句中,首词是“使用”,词移一共有6个,分别是“使用→银行存款”、“银行存款→购入”、“购入→一”、“一→台”、“台→机器”、“机器→设备”,整条句子应表示为I0T1T2T3T4T5T6,如图4所示。

图4 句子的词移分析结果

假设有n种会计事项,每个会计事项用Ai(i=1,2,…,n)表示。根据条件概率的定义,一条句子描述的会计事项属于Ai类的概率是P(I0T1T2…Tn|Ai)。假定句子中词移出现的概率与词移在句子中的位置无关,也就是说如果一个句子包含“机器”这个词,那么“机器”这个词后边接“设备”这个词的概率与“机器”这个词在句子中的位置无关,我们可得P

如果Ai的语料库中包含I0和Ti,则P(I0|Ai)和P(Ti|Ai)(i=1, 2,……,n)可用语料库中I0和Ti出现的频率近似代替;如果不包含,表示I0和Ti对判断句子是否属于Ai不起作用,令P(I0|Ai)和P(Ti|Ai)等于1。我们将Ai语料库中出现的所有I0和Ti统称为会计事项Ai的特征,I0和Ti的P(I0|Ai)和P(Ti|Ai)值越大,表示它们代表Ai的特征性越显著。下面我们说明如何判断未知语料所描述的会计事项。设X为未知语料,对所有会计事项Ai,计算X包含Ai特征的数量,如果只有一个会计事项Aj最多,则判定X描述的就是Aj。如果有多个会计事项并列最多,则计算式(1),P(I0T1T2…Tn|Ai)值最大的会计事项就是X描述的事项。整个的判断过程可以用图5表示。

图5 自然文本的会计事项判断流程

三、实验研究

辨别会计事项需要会计语料库。在自然语言处理中,语料库分为通用和专用两种。通用语料库是按照事先确定好的标准,将每个子类的文本按照一定的比例收集到一起的语料库,著名的通用语料库有美国Brown大学开发的Brown语料库,宾夕法尼亚大学开发的Penn TreeBank语料库,北京大学语料库等。专用语料库是指为了某种专门目的,只采集某一特定领域、特定地区、特定时间、特定语体类型的语料构成的语料库,如新闻语料库、科技语料库等。本文构建的会计事项语料库属于专用语料库,我们的构建方法分为两步,第一步从会计学相关教材中收集会计事项的原始语料。原始语料要求是一条句子,能清楚地描述一项会计事实,最多只包含一项数据;第二步使用原始语料生成扩展语料,首先对原始语料分词,然后使用同义词词典找到原始语料中每个词的同义词,用同义词依次代换原始语料中的词,得到新语料。如果新语料没有语病,描述的是同一会计事项,将其保留作为扩展语料,否则丢弃。在得到原始语料和扩展语料后,我们从中随机抽出5%作为测试语料,其余的部分作为该会计事项的语料库。以“使用银行存款支付管理费用”为例,我们从会计学教材中找到9条原始语料,如图6所示。在这些语料中,为了简化技术处理,我们去除了“某公司”、“某企业”这样的会计主体信息,将涉及的金额统统用1万元代替(这一类信息属于文本中的命名实体,命名实体识别是自然语言处理中一个专门的研究方向,为了简化实验,本文避开了这部分内容)。显然,这对验证实验方法是否有效影响不大。

图6 “使用银行存款支付管理费用”原始语料

以第1条句子为例,使用NLPIR分词工具对其进行分词,根据哈尔滨工业大学发布的同义词词林扩展版,我们找到图6中各个词的同义词。以“使用”为例,它的同义词有“使用、应用、利用、采用、施用、运用、行使、役使、使役、使唤、动用、运用采取、用到”。用这些同义词相互代换,得到一系列扩展语句,剔除掉其中有语病的句子,得到扩展语料。对图6中的句子都进行这样的处理,最后得到该事项的语料库和测试样本。

按照上述方法,笔者从汤湘希主编的《会计学》、《会计学学习指导书》和湖北省会计学会编的《会计从业资格考试习题集》中筛选出199条语料,总计描述63种会计事项。大部分会计事项包含的语料很少,不利于生成合格的语料库,我们将它从样本中剔除,这样总共选出7类会计事项,这7类会计事项每个至少包含9条“种子”语料,所建立的语料库信息如表1所示。

表1 会计事项语料库的统计信息

在各个语料库中,我们分别统计语料库的首词频率向量和词移频率矩阵。首先统计首词频率向量,将语料库中出现的首词用向量B=[b1,b2,…,bt,]来表示,其中bj表示顺序出现的第j个首词,t为语料库中出现的首词总数。设bj在语料库中作为首词总共出现了cj次,则cj/(c1+c2+…+ct)表示bj在语料库中出现的频率,令uj=cj/(c1+c2+…+ct),则向量U=[u1,u2,…,ut]是语料库中的首词频率向量。下面统计词移频率矩阵。

设会计事项的语料库总共包含s个不同的词语,将它们用词向量D=[d1,d2,…,dk,…,ds]表示,其中dk表示语料库中顺序出现的第k个词,我们定义会计事项的词移频数矩阵如下:

其中mij表示词移di→dj在语料库中出现的次数,将矩阵M归一化得到词移频率矩阵如下:

表2 样本测试结果

会计智能化是会计信息化的一个重要研究方向。如果能实现会计职业判断的智能化与自动化,将是会计信息处理技术的一个新突破。本文首先回顾了会计智能化研究的历程,指出了会计核算智能化研究中的关键问题,然后在会计语言理解中引入自然语言处理技术,提出了语料分析的词移分析法,给出了一种判断会计事项的方法,最后通过实验证明该方法是合理有效的。

*本文系国家社科青年基金项目“现代企业管理层信息披露测评体系的国际比较研究”(项目编号:10CGL010)横向课题“红宇公司管理信息系统开发”(课题编号:32516111002)阶段性研究成果。

[1]陈宋生、张永冀等:《云计算、会计信息化转型与IT治理》,《会计研究》2013年第7期。

[2]刘勤、常叶青、刘梅玲等:《大智移云时代的会计信息化变革》,《会计研究》2014年第12期。

[3]王舰、朱玲霞、王东娣:《嵌入式智能化会计信息系统浅探》,《财会通讯》(综合·上)2011年第6期。

[4]毛元青、刘海玲:《“互联网+”时代的管理会计信息化探讨》,《会计研究》2015年第11期。

[5]吴胜、张智光:《浅析未来智能财务软件体系结构》,《中国管理信息化》2007年第10期。

[6]张永雄:《会计信息系统数据入口环节设计模式的改革》,《中国会计电算化》2002年第8期。

[7]谢琨:《财务和会计智能系统研究简析》,《中国会计电算化》2003年第2期。

[8]高哲:《基于ERP的应收应付智能化处理研究.天津商业大学》,天津商业大学2007年硕士学位论文。

[9]刘鹏、王文莲:《会计信息系统的计算机智能判断研究》,《商业经济》2009年第3期。

[10]王文莲:《会计信息化发展及其影响》,《上海立信会计学院学报》2007年第6期。

[11]蒋勇、王俊奇:《论财务智能现状及发展》,《宿州教育学院学报》2009年第2期。

[12]王慧、洪辉:《物联网时代会计信息化发展探析》,《财务与金融》2012年第1期。

[13]王慧、洪辉:《基于物联网视角的会计智能化初探》,《财会通讯》(综合·上)2012年第12期。

[14]王舰:《智能化立体动态会计信息平台研究》,中国海洋大学2013年博士学位论文。

[15]李丛丛:《信息技术环境下会计核算智能化探讨》,《中国集体经济》2010年第2期。

[16]刘继:《现代网络会计中智能代理的应用》,《经济师》2004年第11期。

[17]彭江平:《财务智能系统关键技术研究》,《统计与决策》2005年第6期。

(编辑 张芬)

猜你喜欢

银行存款语料语料库
基于语料库的清末民初日源外来词汉化研究
面向低资源神经机器翻译的回译方法
《语料库翻译文体学》评介
可比语料库构建与可比度计算研究综述
以余额宝为例浅析互联网金融对商业银行的影响
从丢钱事件看酒鬼公司银行存款信息披露问题
银行存款与其他货币资金管理与核算
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
英语教学中真实语料的运用