APP下载

自然语言处理在文本审核中的应用

2021-04-21黄杰

网络安全技术与应用 2021年3期
关键词:文档机器深度

◆黄杰

自然语言处理在文本审核中的应用

◆黄杰

(中国石油西南油气田公司天然气净化总厂 重庆 400021)

自然语言是人类智慧和文明的结晶,它是人与人自然交流的一种重要载体,让机器理解人类的语言被认为是人工智能领域皇冠上的一颗明珠。利用先进的深度学习、自然语言理解、自然语言生成等技术,让机器为人类提供文本自动审核、内容纠错、实体搜索、智能推荐、文章编写等有价值的服务,让机器代替人工完成一些重复性的工作。搭建人类和机器之间沟通的桥梁,同时大幅提高企业的管理效率是自然语言处理的目标之一。

自然语言处理;深度学习;智能审核

1 前言

语言是人类的独创,也只有人类才拥有真正的语言,其神奇之处在于只需要短短几个符号,就可以让你在脑海中浮现一幅图画,一个场景。语言是思维的载体,是人类交流思想、表达情感最自然、最直接和最重要的工具,据统计人类有超过八成的知识都是通过语言文字的形式记录和传播的。

文本是最常用的记录和表达语言的方式,是结构化数据中的一种,文本智能审核就是让机器能够代替人做机械化、重复性的工作。机器可以自动阅读文档内容,并对关键的核心信息进行提取,把可能存在的错误内容标识出来。这样审核人员就不需要检查整个文档,只要看标注出来的可能存在的错误信息便可,极大减少了人工处理的时间,提升了整个工作流程的效率。

2 自然语言处理(NLP)是什么

自然语言的重点在自然二字,是我们平时在生活中惯用的表达和交流方式,我们平时说的“讲人话”就是要求用自然的语言来表述内心的意图。举个例子:

自然语言:手机贴膜

非自然语言:智能数字通讯设备表面高分子化合物线性处理

世间万物都有者各自的特性,如猎豹的速度三倍于人类短跑冠军、鹰隼能看到5000米外的兔子,这些都是人类所不能及的,然而只有人类可以通过自然语言进行交流。让机器能使用语言这种高级工具与人类进行有效交流的各种理论和方法就是自然语言处理所研究的内容,要实现这一目标目前最好的办法是使用人工智能。人工智能所研究的方向众多,典型的有机器视觉、机器学习、自然语言处理、机器人技术等,其中自然语言处理是人工智能中非常特别的一部分,但也是最为困难的问题之一,因为其本身就是一门融入了语言学、计算机科学、认知科学、信息论、数学等专业于一体的交叉学科。

图1 NLP就是人类和机器之间沟通的桥梁

自然语言非常灵活、多变、复杂,而且充满歧义,这些因素让计算机很难对其进行量化解释,就如程序语言是为计算机而生,人类也很难进行自然的理解一样。并且自然语言所表达的含义都必须建立在使用场景、文化背景、地域分布等背景知识之上,而这些背景知识人类在交流过程中都进行了精简,这给自然语言处理带来的巨大的挑战。得益于近年基础理论、芯片制造以及深度学习等诸多技术的突破,强大的计算性能和海量的样本数据支持,加速了人工智能发展,从而也实现了自然语言处理的应用。今天计算机已经可以实现对输入文本自动进行信息提取、对不同语言进行机器翻译等应用。

复杂或歧义结构比比皆是,例如:在微信圈里潜水;打铁还要自身硬;帝国主义和一切反动派都是纸老虎;欢迎新老师生前来就餐。

对翻译而言,不同语言之间的概念不对等

骗子:confidence man(字面意思:信任的人)

我们最终的目标是要让计算机通过对自然语言进行处理,学习和了解人类在想什么、说什么,进而帮助我们完成一些有具体意义的工作,比如本文审核、智能客服、情感分析、专家系统、机器写作等。然而计算机要准确理解我们所说的内容并能够输出符合自然语义的内容确是极其困难的,从某种意义上来说计算机能够完美地理解语言也就等效于实现了人工智能。所以,自然语言理解和自然语言生成就成了自然语言处理的两大核心内容。

图2 NLP的核心内容

2.1 自然语言理解(NLU)

让机器像人一样,能识别输入文本所表达的意图即为自然语言理解,理解既要到点也要看面,而且还要准确。不仅仅是要提取出关键词,而且在没有关键词时还能通过语义来推断出关键词,也就是能进行实体提取和意图识别。

对话系统是近年比较热门的自然语言理解方面的应用,主要是因为深度学习带来的语音识别和自然语言理解可以对人讲的话进行识别。

具体是什么意思呢?

在生活中,假如我们要去吃饭,人们会有多种自然的表达:

“去吃饭”

“明天帮我在解放路订个馆子”

“叫个外卖吧”

“打牙祭”

这都是自然语言的表达,确可以有无数种组合,并且人们都能准确理解这些表达都是“去吃饭”这个意图。然而对机器来说要理解这么多种不同的表达确是极大的挑战。

以前,计算机只能处理像关键词这样“结构化的数据”,也就是说要让机器明白人在说什么,必须要输入“去吃饭”这个精确的指令。所以,无论你说“订馆子”还是“打牙祭”,只要这些句子面没有包含“去吃饭”这个关键词,系统都无法理解。而且,只要出现了关键词,比如“不去吃饭”里也有这三个字,也会被处理成用户想要去吃饭。

自然语言理解出现后计算机便能从各种自然语言的表达中识别出真实意图,不再需要紧盯着可怜的关键词了。即便是说“上班时间不能去吃饭”机器也能够识别出不是“去吃饭”这个意思。并且,机器还能在句子里自动提取出“解放碑”这个实体地名,并且知道“明天”是特指的哪一个具体日期。

2.2 自然语言生成(NLG)

自然语言生成是自然语言处理的重要组成部分,它的出现主要是为了扫清人类与机器之间沟通的障碍。前面说的自然语言理解是负责输入内容,而自然语言生成则是负责输出内容。

智能音箱悄然间成了非常火爆的产品,它可以听懂你讲的话,并进行自然的回答。例如你对它说“明天几度?”智能音箱立即使用自然语言来对这句话的意图进行识别,在明白你是问它“明天”的“天气”后,再使用自然语言生成温情地对你说“明天10度到16度”。自然语言生成提高了人类和机器之间的交流体验,将非语言格式的数据转换成人类能理解的内容。

自然语言生成可大致归纳为以下6个步骤:

确定内容:确定构建的文本中需要包含的信息;

文本结构:合理的组织文本的逻辑顺序;

语义聚合:将多个信息合并成一个自然的句子;

语法运用:添加合理的连接词形成完整的句子;

引用表达式生成:运用与内容相符合的专业词汇;

语言实现:将以上内容组合成一个结构良好的句子。

3 深度自然语言处理

我们可以将深度学习简单理解为机器学习中重要的一个分支,而机器学习则又是人工智能的一个分支。传统机器学习需要通过人工来进行特征提取,在简单的任务中应用这种方法通常有效。而深度学习是通过模型匹配来实现人工的特征提取,更接近人类的思维,也就极大提高了机器效率。

深度学习在自然语言处理问题上与传统机器学习方法相比有着显而易见的巨大优势。通过简单分析就能知道,要让计算机准确提取文本特征难度极大,而且这些特征并不能很好地表示文本的语义、语法,会丢失很大一部分的有用信息,而深度学习就是将特征提取这个环节交给深度网络去自动完成,通过更高的计算成本换取更全面更优良的文本特征。

深度学习的优点在于其学习能力非常强、可以解决很多复杂的问题,在人脸识别、自然语言处理等任务上甚至已经超越了人类。但深度学习对算力要求非常高,并不适合在移动设备上使用,并且模型设计也非常复杂,这也间接造成使用成本过高。

4 文本审核

导入的文本先进行文本类型识别,通过对审核要素抽取,对文章内容进行理解,并与知识库、标准库中的内容进行比对,最后输出审核结果。通过对报告进行人工审核,来判断机器审核的准确率,并反馈给机器,以此循环进行模型的迭代优化。中文深度神经网络语言模型使用百度自然语言处理技术,该模型依托于百度全网海量优质数据和深度神经网络技术,通过设定阈值,将不符合语言表达习惯的语句高亮标注出来。

针对文本智能审核,结合目前流行的自然语言框架可以实现的关键技术包括:

(1)成熟的预训练模型:利用最新的BERT预训练模型,充分利用无标注数据进行无监督学习,增强深度学习模型的特征表示能力,减缓对标注数据量的依赖;

(2)非模板化文本的关键要素抽取:基于机器学习实现上下文语义理解,实现要素智能提取,收集模型处理不符案例(badcase),实现反馈学习闭环;

(3)超长文本智能处理:结合计算机视觉和自然语言处理相关技术,解析文本中复杂表格信息、目录信息,以内容自动审核、长文本标注异常位置模块,形成审核内容分多级展示,实现对百万字级别的文本的准确解读;

(5)多格式文本智能解读:成熟的OCR技术配合文本自动纠错功能,将AI模型与净化行业领域知识融合,能够实现多文档、跨格式(扫描件、PDF、DOC等)的文本解读。

(6)精准推荐相关知识文档:根据用户所查看的文档内容和数据资料,通过分析文档标题和内容的语义,为用户提供与之相关的文档资料,帮助用户高效查阅并了解同一主题的文档资料。

(7)审核规则管理:利用自然语言处理技术对文件内的密点进行快速识别,并实现高亮标记。

5 结论

得益于科技的进步,近年来自然语言处理已经取得了突破性的进展,成为应用范围最广泛,也是最为成熟的人工智能技术之一,通过自然语言处理已经搭建起了机器与人类之间便捷沟通的桥梁。目前自然语言处理在行业中的应用已经非常广泛,包括电商、翻译、金融、智能硬件、医疗、旅行、住宿等各个行业,应用场景涵盖语音分析、文本分析、情感分析、意图分析、图形和图像识别、互动语音回复、光符识别等。现有技术实践结合目前流行的自然语言框架,完全能够解决目前文档审核上存在的问题,实现文档智能审核,提升企业效率。当前的深度学习技术,已经可以在具备大量有监督数据的情况下,实现对数据的充分利用和学习,并解决具体的一个又一个问题。随着技术的成熟,如何让机器无师自通、自主学习,实现真正意义上的无监督学习,才是下一步的关键。

[1]约阿夫·戈尔德贝格.基于深度学习的自然语言处理[M].机械工业出版社,2018.

[2]郑捷.NLP汉语自然语言处理原理与实践[M].电子工业出版社,2017.

[3]唐聃.自然语言处理理论与实战[M].电子工业出版社,2018.

[4]黄锦辉.中文自然语言处理导论[M].科学出版社,2018

猜你喜欢

文档机器深度
机器狗
浅谈Matlab与Word文档的应用接口
机器狗
有人一声不吭向你扔了个文档
深度理解一元一次方程
深度观察
深度观察
未来机器城
深度观察
基于RI码计算的Word复制文档鉴别