ChatGPT 的智能性及其在财税领域的应用
2023-05-30蔡昌教授博导庞思诚
蔡昌(教授/博导)庞思诚
(中央财经大学财政税务学院 北京 100081)
2022 年11 月30 日,人工智能研究实验室(Open AI)推出了全新的人工智能对话聊天机器人ChatGPT,在全世界产生了巨大的轰动效应。至2023年1月底,仅两个月时间,ChatGPT的活跃用户就已经超越1亿户,成为有史以来用户数增速最快的应用程序模型,世界诸多大企业和科研机构纷纷进军人工智能产业,如微软的BingChat、谷歌的Bard、百度的文心一言、复旦大学自然语言处理实验室的MOSS等。
之所以ChatGPT能引起广泛的关注,不仅是因为Chat-GPT 能够顺利实现人类与人工智能机器人无障碍的交流,还因为其具有强大的知识整合能力,并能简单直接地反馈任务、实现结果。ChatGPT 的出现,弥补了人类认知、能力和精力的有限性,通过与大数据、区块链等新兴技术的结合,对各个领域发展产生积极的推动作用,引起社会各界的广泛关注。具体到财税领域,ChatGPT能解决征税人、纳税人和中介机构三类主体的不同需求,本文对其解决途径进行了探讨。
一、ChatGPT的智能性及其实现模式
(一)ChatGPT是什么
ChatGPT(Chat Generative Pre-trained Transformer)是人工智能技术驱动的自然语言处理模型(LLM),它能够通过理解和学习人类的语言真正像人类一样与人类用户聊天交流,甚至能完成撰写文章、文案和从事翻译、编写代码等任务。ChatGPT 是预先训练的大型语言模型,本质上是一种生成式人工智能技术。ChatGPT 的核心技术是InstructGPT,如图1所示。ChatGPT通过基于人类反馈的强化学习,让人工智能模型产生类似人类一样的常识、认知、需求和价值观。
图1 ChatGPT的核心技术
从技术根源来说,ChatGPT 是GPT(Generative Pre-Training)的一种典型模式,其最大的特点是可以通过已知的信息来预测将要填写的内容。
2016 年Open AI 发布了GPT-1,虽然该模型采用了具有创新意义的GPT方式进行底层逻辑构建,但该模型仍然具有传统人工智能模型的缺点:需要根据任务的不同进行调整,通过再训练才能执行任务。2019 年Open AI 公司发布了GPT-2,该模型除了拥有更大的参数和训练样本量之外,更重要的创新就是采用“零样本设置”(Zero-shotSetting),在模型的训练中加入暗示,使GPT-2 模型可以在不用微调的情况下直接使用。2020年Open AI公司又发布了GPT-3,该模型拥有海量的参数和训练样本,还采用“零样本设置”(Zero-shot Setting)、“单样本设置”(One-shot Setting)和“多样本设置”(Few-shot Setting),使模型能够更精准地预测下游任务,基本可以根据人类指示比较好地完成任务。但是,GPT-3还存在一定的缺陷,即无法实现类似人类语言的文本输出。因为GPT-3模型所含有的参数较大,存在多方面过度输出的问题,可能会产生答非所问的结果,并且GPT-3的训练数据不够纯净,导致GPT-3带有一定的偏见性。为了克服上述缺点,Open AI 公司又对GPT-3 的语言学习方面进行了升级,基本克服答非所问和偏见性回答的问题,目前已升级到GPT-4。
(二)ChatGPT的实现模式
就具体过程而言,ChatGPT 实现模式具有相互关联又层层递进的运行机制,具体分为以下三步,如图2所示。
图2 ChatGPT的实现模式
第一步,收集示范性数据并采取受监督的方式训练。想要人工智能以人的方式来回答问题,那么必须人类自己先回答问题,再将回答作为参考供人工智能学习。随机从提示词(Prompt)数据集中选择要提问的问题,然后标注人员(Labeler)对问题进行解答,形成人类偏好的标注数据供机器学习使用。数据量无需太大,只要几万条,通过提示词的方式进行训练,使模型参数不断发生变化。在训练过程中必须采取人工监督的方式,通过人工奖励和惩罚机制,奖励符合人类逻辑的回答,惩罚不符合人类逻辑或者不合法的回答,以修正模型的输出结果。
第二步,收集可比数据并训练一个奖励模型。用一个提示词对模型进行提问,然后让模型输出多个不同的回答。标注人员对这些输出结果进行打分并排序,挑出最好的和最差的解答,并将这些数据用于训练奖励模型。在此期间,针对不合法、不合理、不理解的回答,奖励模型会对其进行惩罚,并剔除出模型回答范围。相反,对于接受度高的回答给予奖励,使回答频率更高。
第三步,使用强化学习算法优化奖励模型。通过强化学习算法,不需要人工主动干预就能自动实现对输出结果的评分和排序,并以此优化模型。人工智能通过循环式学习、优化模型、修改输出结果,实现不断迭代升级,最终达到人工智能具有人的逻辑,从而能够以人的方式进行沟通,并且做出令人满意的行为结果。
(三)ChatGPT的智能性分析
本文对ChatGPT的智能性及独特优势进行系统分析。
1.ChatGPT具有强大的语言能力。语言是沟通的挑梁,只有双方都能理解各自表达的含义,才能顺利完成合作。ChatGPT 是一种具有优秀语言能力的人工智能模型,它能理解人类所表达内容的含义,并完成任务,再以一种人类可以理解的方式将结果输出,这为它应用于财税领域奠定了基础,使财税人员和人工智能之间能够互相知晓任务的内容和要求,并在任务完成时提交理性的输出结果。它还可以更换不同的表达方式让不同类型的人更好地理解它所表达内容的意思,这是它优于其他人工智能技术的重要体现。比如针对外行人,通过“简单表述”这个提示词,它回答的内容会尽可能浅显易懂;针对专业人士,通过“详细表述”这个提示词,其回答会更专业、详细、全面。
2.ChatGPT 拥有全面的处理能力。ChatGPT 采用海量的数据进行训练,并且这些数据涉及到各行各业,使ChatGPT 具备更全面的能力和性能,比如翻译、撰写文章和编程等。过去的人工智能仅能在单一领域具有超常的作用,深蓝、阿尔法狗等人工智能产品在计算、围棋等领域取得显著成果,而ChatGPT能在不进行强化训练的情况下,参加美国医学执照考试(USMLE)并获得美国医疗许可证。
3.ChatGPT 拥有准确的判断能力。ChatGPT 能够拒绝提出的不合理要求,通过采用标注人员和奖励模型的训练,使ChatGPT 拥有了符合人类逻辑的价值判断,能对符合人类逻辑错误的事情给予否定,这使其可以更好地为人类服务,防止被不法分子利用,避免对社会造成负面影响。比如,它会拒绝纳税人逃税的提问。
4.ChatGPT 拥有较好的修正能力。ChatGPT 不仅仅是在开发过程中进行训练,在使用过程中同样可以进行训练。当ChatGPT 输出结果错误时,使用人就可对其进行人工修正。在这个过程中,每个使用者都发挥了标注人员的作用,能对模型进行再训练修正错误,并避免以后输出错误结果,使ChatGPT的能力进一步提高。可见,技术的升级能提高ChatGPT应对人类需求的能力。
二、ChatGPT在财税领域的可能应用
《关于进一步深化税收征管改革的意见》指出,要“全面推进税收征管数字化升级和智能化改造”,将ChatGPT运用在税务机关的执法、服务、咨询中,可以助力税务机关实现数字化升级和智能化改造,更好地提高智慧税务建设的速度和质量。本文从征税人端、纳税人端、中介机构端三主体分析ChatGPT在财税实践领域的可能应用及具体方式。
(一)ChatGPT在征税人端的可能应用
1.税务执法。
(1)指导税务机关进行规范执法。同一个政策在不同地区的执法执行情况存在一定差别,这是由于不同地区的税务机关对税收政策的理解具有差异性,而ChatGPT 对税收政策的理解是统一的。税务机关执法人员只需要将存在执法争议的案例问询ChatGPT,ChatGPT就会反馈出规范化的执行方法作为参考,防止出现粗放式、选择式、“一刀切”式的随意执法行为。
(2)助力税务人员执法教育。税收政策会随着经济运行变化不断调整,而每次变动税务机关都需要耗费大量人力、物力、财力对税务人员进行教育考核。ChatGPT在经过专业政策的训练之后,在某些方面会快速达到超越人类的水平。比如可以履行教师职责对税务人员进行专业化、个性化、精确化培训,并能用便于理解的语言解释政策文件的含义,便于税务人员快速掌握最新政策,理解其中的重点、难点,提高执法的准确性、规范性和有效性。
(3)帮助撰写通知、公告与文书。ChatGPT拥有强大的通知、提醒、公告、文书等撰写能力,能够节省执法人员所耗费的精力。税务执法人员对纳税人的稽查通知、警示通知、工作报告、执法结果等工作,皆可运用ChatGPT进行文本撰写,快速高效完成任务,提高税收执法效率,降低人力成本。
2.纳税服务。
(1)作为助手参与办税服务。在纳税申报和税款缴纳方面存在一些繁琐的流程和手续,导致纳税人需要耗费较多的时间和精力。ChatGPT 通过实现“需求-解答”这种直接的模式,使纳税人无需耗费大量精力学习如何操作税务平台各种功能以及纳税手续流程,引导纳税人达到目的。例如,纳税人可以通过12366 纳税服务平台向ChatGPT 提出“我想了解如何申报增值税”,ChatGPT 助手可以分析这个问题,提供详细的申报流程、操作方法、注意事项等内容,并引导纳税人申报纳税。
(2)提供个性化咨询服务。ChatGPT 具有更全面的能力,能够很大程度上实现不需要特殊训练就能实现不同要求的任务。目前虽然机器人广泛应用于财务、税务、电信等行业,能代替人工提供一些简单的便捷服务,但是对于稍微个性化或者复杂性的问题就难以回答,使绝大部分使用者在日常使用中都更倾向于使用人工服务。但是,ChatGPT能够通过上文的描述进一步修正输出结果,最终实现输出能让纳税人满意的回答结果。此外,ChatGPT 还是一个强大的信息搜集器,可通过网络爬虫搜集大量的有用信息,并对信息进行筛选,以为纳税人提供有用的信息及溯源索引。
(3)提供税收政策解读服务。税收政策的变动比较频繁,让纳税人难以及时掌握有用信息,延误生产经营策略调整时机。ChatGPT能对纳税人想要了解的政策进行解释和说明,使之更容易理解和运用。此外,还可以提供系统政策信息,如“针对小型微利企业的税收优惠政策”,使纳税人更快地得到想要的税收政策信息。
3.税务监管。ChatGPT能成为税务风险“警报器”。只要将纳税人申报的财务数据及其来自第三方的数据(如银行数据、水电费数据、上下游企业数据等)输入到ChatGPT中,ChatGPT 就会评估该纳税人的税收逃避风险。如果税收逃避风险得分超过阈值,就会进行风险预警,提醒税务机关该纳税人存在逃避税行为的可能性,税务机关可以据此进行重点稽查,为税制完善提供借鉴与参考。
(二)ChatGPT在纳税人端的可能应用
1.运用ChatGPT降低申报难度。纳税人只需要简单地输入自己的个人信息、财务信息等基本信息,ChatGPT就可以自动生成相应的税务申报表,帮助纳税人进行纳税申报,可大大降低纳税人的申报难度和时间成本。此外,ChatGPT还具有强大的纠错能力,能对人工填写的纳税申报表进行纠错。ChatGPT 通过运用自然语言处理技术,分析纳税人需修正问题的申报表,发现其中错误并纠正。比如,识别和纠正数字输入遗漏、文字输入错误等。这些自动化的纠错功能,不仅可以提高纳税人的申报准确率,还可以帮助税务机关快速审核和处理纳税人的申报表。
2.运用ChatGPT进行税收筹划。对于经营规模较小的企业和收入较低的个人,一般不会花费大量的成本请专业人士进行税收筹划,这使他们的经济利益相对受损,不利于社会公平和企业的成长。同时,企业担心自身财务数据泄露,影响到自身的生产经营,也不愿意采用人工筹划。所以,通过用大量税收筹划实际案例训练ChatGPT,使其理解一定数量的纳税筹划方法,然后纳税人就可将自己需要提供的数据输入到模型中,ChatGPT就会据此进行判断,提出税收筹划的建议。
3.运用ChatGPT助力企业合规管理。传统的财税风险防控需要依赖人工,效率也相对低下,具体分为五个部分:财务凭证审核、财务数据分析、财务政策获取、财务风险预警和财务风险控制。其中,财务凭证审核需要人工对每一个凭证进行审核;财务数据分析只是进行简单的储存和对比;财政政策获取需要财务人员人工搜索和学习;财务风险控制是由财务人员负责。通过建立运用ChatGPT适应数字时代企业的合规预警机制,实现高效率、高质量和及时性的企业风险防范。第一,通过采用发票ORC 识别技术、合同NLP 语义分析等自动化技术对财务数据进行审核,对审核不通过的数据进行预警。第二,对已审核的财务数据按模块进行分类储存,并将财务数据上传到大数据信息平台。第三,数据自动导入ChatGPT中,从大数据信息平台中获取财务信息、风险指标、财税政策等信息要素,并对ChatGPT自身进行训练,并对从该企业获取的信息根据风险指标和财务逻辑进行智能化评判。第四,ChatGPT 输出智能风险提醒和财务决策建议,对财务人员进行违规预警。第五,财务人员对输出的预警和建议信息进行评判,如果不合理则向ChatGPT 反馈不理想之处,ChatGPT 重新进行分析和输出,直到结果合理为止。最终的结果会上传大数据信息平台,为后续训练提供依据(见图3)。
图3 基于ChatGPT的企业合规预警机制
企业合规机制强调自动化、常态化和精准化。通过人工智能、数字识别、自动化程序输入输出等技术,识别交易记录、记账凭证、财务报表等财税信息,自动将数据输入到ChatGPT中,进行合规识别、判断与预测。它能代替人工处理与分析,常态化监管企业合规状况。
(三)ChatGPT在中介机构端的可能运用
1.辅助处理业务。中介机构可以借助ChatGPT对客户企业进行税务代理、税务筹划,然后再利用得到的结果进行二次处理,实现更高水平、更高质量的完成效果。使用ChatGPT可以大大提高中介机构处理业务的效率。一方面对于基础性的任务,比如代理记账、财税咨询等业务,Chat-GPT 有能力出色地解决问题,中介机构不需要耗费太多的精力来应对这类业务,只需要监督和修正ChatGPT 处理的结果即可。另一方面,对于复杂性的问题,比如税收筹划,ChatGPT 可以为中介机构提供思路,辅助中介机构更好更快地想出解决问题的方案。
2.提供新的收入源泉。ChatGPT 的任务能力,很大程度上依靠训练数据的数量和质量。中介结构的税务代理、财务咨询、税收筹划等业务的实际案例是训练ChatGPT 的重要工具,所以对该数据的需求能为中介机构带来商机。中介机构可以将过去税收筹划、税务代理等业务的案例,经过处理后销售给大数据平台,用于训练ChatGPT 的财税处理能力。当然,中介机构也需要根据具体情况制定严格的保密措施和管理制度,以确保客户信息和数据的安全和保密。
三、ChatGPT应用中可能面临的问题
ChatGPT 目前并非一个完美的人工智能,它在财税领域的应用会存在一些问题和障碍。
(一)输出质量
目前,ChatGPT 存在的最大缺陷就是问题生成的结果可能会存在一定的质量隐患。当向ChatGPT提出一系列需要深入了解的文献问题和任务,它不会拒绝回答,从而产生一些虚假和误导性的文本信息。当然,信息生成的质量取决于训练和优化模型的质量,如果采用更多的财税信息进行训练,该问题就能得到一定程度的缓解。并且,当生成错误信息时,通过人工纠正的方式进一步更正,使人工智能生成结果的质量逐渐得到提高。
(二)数据问题
1.数据共享问题。首先,数据的兼容性存在问题。不同部门、不同地区、不同企业的数据类型、标准和维度存在较大差异,这提升了对ChatGPT训练的难度。其次,如何将税收政策按照ChatGPT 理解的数据模式进行训练,也是一个难题。再次,目前并没有一个组织能够破除政府各部门之间、政府和企业之间、企业和企业之间的信息壁垒,实现数据的统一管理。最后,传统公共管理范式影响信息共享的环境,如共享平台建设存在问题,共享模式不透明、不规范等。
2.数据隐私、合法性问题。在隐私和合法性上,商业数据涉及到隐私问题,我国已经颁布一些涉及数据隐私的法律,比如《个人信息保护法》《数据安全法》等,但在实践中存在执行效果不佳、运用界限模糊等问题。所以,未来如何在合法范围内利用商业数据来训练和开发ChatGPT模型是一大难点。在数据安全上,如果企业、政府、个人数据发生泄露,不法人员会利用这些数据进行诈骗、勒索,从而严重危害个人、企业和国家安全。
3.数据安全问题。虽然ChatGPT 通过人工的训练,对人类的道德有了一定认识,形成了自己的道德逻辑,可以拒绝回答不道德或者不合法的问题。但是,以目前ChatGPT的判别能力,人类依然有能力采取多种方式绕过ChatGPT的道德与合法性逻辑系统。另外,ChatGPT是美国Open AI研发的产品,如果使用它作为模型基础,存在关键数据泄露国外的风险,会对国家安全造成很大影响。此外,如果ChatGPT 被广泛应用到我国关键领域中,会产生“卡脖子”的问题,制约我国的发展和进步。
4.数据成本问题。训练我国自己的ChatGPT式的人工智能,需要耗费大量的成本,包括巨大的算力、大量GPU等硬件和大量电力。国内券商国盛证券对ChatGPT的开发费用和现阶段的运行费用进行了推算。在开发成本上,基于参数数量和token 数量估算,GPT-3 训练一次的成本约为140万美元。在运行费用上,2023年1月平均每天约有1 300万独立访客使用ChatGPT,对应芯片初始投入成本约为8亿美元,而每日的电费也将在5 万美元左右。同样,我国开发、训练和运行自己的ChatGPT 也需要付出巨大的成本。每次财税政策发生变动,都需要进行一次强化训练,维护运营的成本也很高。
综上所述,ChatGPT 在财税领域的应用还存在诸多方面的问题和挑战,但是运用人工智能推进财税领域变革具有积极意义。所以,我们要尽可能在未来实践中克服这些缺陷,尽可能发挥其对财税工作的积极作用。
四、推进ChatGPT未来财税应用的建议
2021 年3 月,中共中央办公厅、国务院办公厅印发了《关于进一步深化税收征管改革的意见》,提出了智慧税务建设目标。党的二十大进一步强调了“网络强国、数字中国”的建设要求,为税收征管数字化转型注入了新的思想动能。ChatGPT式的人工智能模型将在未来数字财税管理中发挥重要的作用。
(一)建立数据保障机制
训练ChatGPT 需要企业提供自身的财务数据,但是基于经济利益、财务安全、股东个人利益等多方面考虑,大部分企业不愿对外披露一些重要数据,选择把数据留存在企业内部或者相关联的机构中去。因此,政府仅通过市场调节手段实现数据共享可能并不现实。据欧盟委员会的一项调查显示,参与数据交易的企业仅占受访企业的4%。为慎重起见,政府可要求企业将其财务数据用统一口径的方式上传到政府控制的大数据信息平台上去,既能保证数据安全,又能实现大数据共享。当然,政府建立数据奖惩机制也非常重要。通常,基础性数据属于企业必报数据,国家在财务信息、涉税信息等方面有强制性要求。但对于一些特殊数据,应建立数据报送激励机制,即通过交易、奖励等多种方式鼓励企业上报特殊数据,比如案例数据、纵向分析数据等,实现政府和企业的数据共享,达到双赢的效果。当然,政府也要惩罚企业瞒报数据或报告虚假数据的行为,以实现有效的数据管理。
(二)健全数据法律保障制度
1.明确公民和企业信息隐私的界限,切实保障企业和公民隐私权,对信息泄露问题进行严惩。现有的数据运用协议尚未有单独的规定,对于数据应用的权利和隐私权保护等法律条款分散在《数据安全法》《个人信息保护法》《关于平台经济领域的反垄断指南》等不同文件中。因此,应当建立专门针对数据共享、ChatGPT应用等方面的法律制度,规范数据共享中税务机关、企业和个人的权利与义务,并为执法机关的规范化执法指明方向,实现ChatGPT 数据训练及实践应用中的合规化,为ChatGPT推广应用扫清障碍。
2.政府应加强数据监管,将数据审核、数据保密、数据追查三个方面作为未来数据监管的重点。数据审核主要是对数据的正确性、合法性进行审核,确保数据能够干净可靠;数据保密主要是为了防止数据泄露以及数据滥用,保证数据的安全性;数据追查针对的是当数据存在问题时,能够及时追查数据错误的来源,并能对相关责任人员和企业进行追责。
(三)借助反馈式方法修正答案
要想提高ChatGPT 输出结果的高效性、全面性和准确性,除了开发时提供海量、纯净的数据对其进行训练,在日常使用中对数据以及输出结果进行修正也十分重要。所以,应建立反馈式机制,允许税务机关和企业在日常使用ChatGPT 过程中对反馈输出答案存在的错误予以审核修正,大大提高人工智能训练的效率,并使其不断优化,在降低成本的同时又可提高不同环境下的适应性。
(四)依靠联合式开发提高技术开发层次
训练我国财税领域适用的类ChatGPT人工智能成本巨大,所以单纯依靠政府或者企业独自的力量训练效果较低。政府缺乏足够多专业的程序人才和人工智能的技术,企业缺乏训练数据、合法性保障。笔者认为,可采用联合式开发方式,提高技术开发层次。即成立一家独立运营财税人工智能的管理机构,对其模型进行开发、训练和运营。独立运营的管理机构为人工智能研发提供资金、财税人才、财税数据与设施硬件,保证该企业能够按照国家政策导向运行。合作企业提供资金和技术,助力模型的研发和训练,这样既可以保证效率,调动起全国的人才进行集体开发,又可依托国家力量保证数据的安全性和可靠性,防止数据泄露的问题。值得注意的是,开发、训练和维护的人员必须签署严格的保密协议,并采取合理的手段对开发人员进行监管,防止财税数据泄露。
(五)推动ChatGPT的创新工作
ChatGPT 的确带给了人类一定的惊喜,我们发现,ChatGPT 本质上还仅是一个统计模型,基于已有的知识经验输出结果,某种程度上代表了社会整体的认知,但ChatGPT 缺乏思考力和创造性。一些思考和创新的工作并不能完全交付给ChatGPT 之类的算法。ChatGPT 的创新是基于大数据的,当它的训练数据一样时,它只能得出相同的答案,那就不是创新。数据工程师可以开发出更好的算法,但必须构建我国的数据库,ChatGPT 之类的算法才有用武之地。因此,在大数据时代,构建独特的、体现个性的数据库至关重要。可以想象,当我们拥有不同的数据,即使使用同样的算法,也可得出不同的结果,从而实现创新。当然,创新属于人类的独特思维,算法还不能完全取代人类的思维过程。在ChatGPT 应用的早期,我们期待具有个性化特征的多维数据库支撑起ChatGPT 的实践应用,提高检索的速度和精准度,提高决策效率,这样能够彰显出ChatGPT的信息汇聚与挖掘能力;未来我们期待ChatGPT不断迭代,以人机交互模式融入机器学习,提高ChatGPT 的个性化、人性化,提升其整体运行的效率和决策力,如果能够在人机交互、机脑协作中绽放出思维之花,那么ChatGPT最终将真正开启类似人类思维的创造之旅。