APP下载

基于自然语言处理的合同智能审查应用设计

2020-04-09李玲魏国华杨旸胡峰

中国信息化 2020年2期
关键词:海油表单预审

李玲 魏国华 杨旸 胡峰

一、前言

随着国家法律体系的逐步完善,合同作为法治社会的代表性产物,已经深入社会发展的每一个角落。无论是生产加工,资金流动,还是企业管理,都离不开合同的法律约束。然而,在当前合同管理中的起草、审查、签署等各环节还存在很多问题,给企业带来较大的潜在风险。另一方面,随着人工智能应用产业化规模在我国快速增长,作为其核心技术的自然语言处理也迎来了蓬勃发展。

基于合同管理中出现的业务需求,中国海洋石油集团有限公司(以下简称“中国海油”)审时度势,积极行动,研发了基于自然语言处理的合同智能审查应用,有效地提升了企业工作效率,降低了用工成本。

二、海油的合同管理现状

合同是企业经济活动取得最大经济效益的核心环节。企业合同管理的好坏一定程度上影响着企业的经营的好坏。随着社会主义市场经济的发展,中国海油合同管理体制也在不断完善。不仅建立了健全的合同管理制度,严格的审批程序,还应用了信息化合同管理系统。中国海油的合同管理系统已经实现合同全生命周期覆盖,且功能性强,适用范围广。然而,基于人工管理中人为疏漏的必然性,中国海油合同管理系统在合同审查环节中仍有许多待提高的方面。首先,对于合同文本中频繁出现的人工疏漏暂无良好解决方法,如:文字表述不正确、主体不当、合同金额大小写不一致等。尤其在各个部门辗转审查的过程中经过多次改动,更增加了人工疏漏的可能性。其次,中国海油合同管理系统实际应用操作复杂,重复性工作多,极大增加的工作量。

为了有效防范合同风险,提高审查效率,中国海油在原有合同管理系统之上设计了一套基于自然语言处理的合同智能审查应用,利用文本比对以及规则审查的方式,有效地为用户提供合同正文的风险提示,在完善合同管理中起到了重要作用。

三、合同智能审查应用设计

(一)合同智能审查应用设计思路

海油设计的基于自然语言处理的合同智能审查应用,以公司信息化部门的合同起草和审查为出发点,以自然语言语义分析为入口,将人工智能相关技术落地海油办公应用,将员工从简单而重复性高的工作中释放出来,投入到更具创造力的工作中,同时降低人工操作可能存在的错误,在信息化企业架构方法方面海油带来更多助益。

通过分析海油信息化部门的业务需求,我们将合同智能审查应用的功能设计为两大类:一是合同关键信息自动提取,实现系统自动填写合同表单的能力,以节省手动起草所耗费的大量时间。二是合同智能预审,将合同文本中可能出现的错误、风险等进行主动提示,降低风险,减少人工审查的工作量。

(二)合同智能审查应用场景

1. 自动表单填写

合同起草表单是原合同管理系统中必不可少的内容,需要人工收集合同里的数据并准确填写,由此给起草人带来诸多不便,也因为出错率高为合同审查带来很大困扰。自动表单填写功能很好地解决了这一问题。该功能通过对上传的合同正文进行文本分析,通过关键词提取的方式提取出合同新建表单所需的部分正文内容,如:合同名称、相对方、签约主体等。提取出来的内容经过起草人确认后,可以自动填写到新建表单的对应字段中,辅助起草人快速、准确地完成起草工作。

2. 合同智能预审

合同智能预审是合同智能审查应用的核心功能,它有效降低了合同起草风险与审查风险。根据信息化部门的业务需求,设计了24条审查规则。其中包括标准化规则,如标的、数量、履行日期和地点、价款报酬等可标准化且重复性高的硬性规则;还包括非标准化规则,给出包含了法律、风控、商业与管理等综合考量的审查意见。非标准化规则需要“人机协作”,由人类在机器审查的基础上去复核、修改及完善。

合同智能预审功能在对合同中的关键要素根据业务审查规则进行内容智能审查后,向用户展现合同正文的风险提示(如下图所示)审查结果的展现包括三部分:审查未通过、风险提示、审查通过;若审查未通过,则会进一步展示具体内容,包括:相关合同要素、审查规则、文档数据和建议内容,并在原文中标记出不一致点,方便用户在合同文本内搜索。合同智能预审功能还支持多次审查,在整体上确保了合同信息的一致性、正确性和完整性。

(三)合同智能审查应用效果

在企业管理方面,合同智能审查应用极大降低了简单、重复性人力的投入。人工只需在机器完成预审后复查即可,将原本长达十几小时的周转等待与纯人工审查过程缩短为仅仅半小时。在社会效益方面,合同智能审查应用减低了合同文本出现错误的概率,降低合同风险,不仅提升了海油专业、严谨的社会形象,更增加了合同履约率,避免了企业不必要的损失。

四、自然语言处理在合同智能审查的应用

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用日常用语(自然语言)进行有效通信的各种理论和方法。自然语言处理作为机器学习的代表,最为关键的要素就是模型的建立和训练。在自然语言处理中,模型训练的流程可分为四部分:数据输入、预处理、模型训练以及模型強化(如下图所示)。首先,我们会确认文档类型,输入业务核心词典和大量的合同文本数据。其次,我们需要对文本进行预处理并生成语料。将语料进行模型训练,便可以实现关键信息识别的功能。系统根据识别的信息与审查内容进行比对,从而向用户提供风险提示。本应用还具有模型强化功能,后期在应用期间,本应用通过审查更多的合同样本可进行自我迭代优化,具有更精确的识别能力。

合同智能审查应用采用了半监督式学习的方式对自然语言模型进行训练,主要运用了自然语言理解中以下三方面的算法:中文分词、词性分析和命名实体识别。

(一)中文分词与词性分析

本应用利用了界内流行的HanLP中文分词功能。在输入大量合同文本数据并导入词典作为分词的依据后,合同中的每一句话会被进行一元分词,即在尝试所有分词方法后找出和词典中词语匹配度最大的一种分词方法,并定为初步分词结果。我们对此结果再进行二次切分,根据每一个词的上下文,计算该词在文中出现的概率并找出概率最大的分词方法,所得结果比第一次分词准确得多。在成功分词后,再通过HMM算法进行词性分析,将每个词的词性标注在分词结果后面。如:“中国交响乐团在布达拉宫广场演出”这句话,在处理后输出为“中国/ns 交响乐团/n 在/p 布达拉宫/ns 广场/n 演出/v”。我们将所有生成的词语存储在语料库中,作为模型的输入数据。

(二)命名实体识别算法优化

自然语言处理中模型的建立和训练尤为重要。实现自动表单填写和合同智能预审功能的一大关键点是准确地从合同正文中提取相关信息。HanLP支持的命名实体识别只能提取出人名、地名、组织机构等信息,已不足以满足需求。本应用在其基础上加入了半监督式学习的模型训练方式,通过输入大量的语料,以及人工标注语料信息,使计算机自动根据特征寻找信息点。在人工添加标签的过程中,我们以复合标签的形式进行标注,如:标注“甲方”和“名称”,“乙方”和“名称”,算法会自动识别出“甲方名称” 以及“乙方名称”两大标签。利用这种方法训练模型,不仅化繁为简,更提高了识别率,使结果更加泛化而准确。 通过以上模型的訓练与算法实施,合同智能审查应用的审查准确率已达到XX%,为其良好的应用效果奠定了基础。

五、后续工作思路

相比传统合同管理系统,合同智能审查应用精度高,速度快,可持续发展性强的特点为其赢得了广阔的应用前景。借助计算机的高效文档处理,自动表单填写功能在起草,改写等方面有效提升了企业工作效率,降低用工成本;而合同智能预审功能则极大减少了人为疏漏,有效降低合同风险。

合同智能审查应用是人工智能在法律领域的一次新尝试。中国海油在取得显著应用成果的同时,仍然有很多技术难点需要攻克。随着人工智能技术的日新月异,自然语言处理也在不断飞速发展,如2017年的新兴算法BERT(Bidirectional Encoder Representations for Transformers)已经在语义理解方面获得了显著突破。通过这项技术,海油可以在合同智能审查应用中加入更多与合同内容理解有关的新规则,从而完善平台的服务。海油坚信,在不久的将来,人工智能在各个领域的应用将越发普遍,并将在全社会范围内促进更广泛的工作流程改进和社会成本节约。

作者单位:中国海洋石油集团有限公司 李玲 魏国华 杨旸

中海油信息科技有限公司 胡峰

猜你喜欢

海油表单预审
中国侦查预审制度之合理建构
海油发展:北斗设备已经顺利运行一个多月
VFP教学的探讨与实践
浅谈网页制作中表单的教学
浅谈建设项目用地预审管理办法
试论预审阶段收集证据的特点和应注意的问题
打造具有海油特色的离退休服务品牌
使用智能表单提高工作效率
表单化管理国内对比研究