基于人工智能技术的项目文档规范性审核技术研究

2019-12-02付晨

电子技术与软件工程 2019年14期

文/付晨

1 前言

随着经济的快速发展，各种项目层出不穷，而项目的审核工作对于项目落地来说至关重要。但项目审核的流程繁多，文件资料也复杂多样。面对大量且复杂的资料，传统的人工审核显然已经无法从容应对，人工智能技术或许将成为解决其问题的切口。

2 人工智能技术在项目文档资料审核应用的意义

项目审核是一项复杂且专业性很强的工作，一方面，是审核的项目文件数量和内容过多；另一方面，是项目文件之间存在一些联系，有时需要大量的计算来加以验证，因此审核的工作往往需要耗费大量的时间和精力。更为严重的是，审核人员在审核过程中可能会出现舞弊的现象，严重影响企业发展并造成不良的社会影响。而随着互联网技术的高速发展，人工智能技术为解决以上问题带来了新的思路。

人工智能（AI）是计算机系统对人类智能过程的模拟，包括学习（获取信息和使用信息的规则），推理（使用规则来达到近似或明确的结论）和自我纠正。人工智能是对计算机系统如何能够履行那些只有依靠人类智慧才能完成的任务的理论研究，依赖于大量的数据收集、处理和分析，并从数据中得出一套行为规则，并保有自我学习的能力。简单来说，人工智能可以很大程度上帮助工作人员进行常规性的审核工作，甚至对重要的环节进行提示和帮助。总之，运用人工智能，可以最大限度地借助计算机的计算能力，极大地提高审核工作效率，推进审核进度，降低工作失误，减少人力成本。

3 人工智能技术在项目文档资料审核中的具体应用

3.1 计算机视觉技术

计算机视觉技术是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用图像处理操作及其他技术，将图像的分析任务分解为便于管理的小块任务。比如，一些图像识别技术能够从图像中检测到物体的边缘及纹理。而图像分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。最近火热的“人脸识别”技术就属于其中一种。通过计算机视觉技术，能够实现对纸质地文档资料进行扫描，获取其中的信息，并转换为一定的编码形式，供计算机进一步分析，实际上就是起到了人的“眼睛”的作用。但人的肉眼会疲劳，而计算机不会。因此，计算机视觉技术作为人工智能技的子分支，既能够提高文档的信息获取和处理速度，也能提高获取信息的准确度。

3.2 自然语言处理技术

自然语言处理技术是指计算机拥有的类似人类处理文本的能力，比如，从文本中提取意义，甚至从那些可读的、语法正确的文本中自主解读出含义。一个自然语言处理系统并不了解人类处理文本的方式，但是它却可以用非常复杂与成熟的手段巧妙地处理文本，例如自动识别一份文档中所有被提及的人与地点；识别文档的核心主题；或者在一堆仅人类可读的合同中，将各种条款与条件提取出来并制作成表。以上这些任务通过传统的文本处理软件根本不可能完成，后者仅能针对简单的文本匹配与模式进行操作。因此，在文档审核过程中，自然语言处理技术能够起到人的“阅读”作用，可以有针对地对文档内容进行查找并分析。

3.3 机器学习

机器学习是计算机从数据中自动发现模式，并将模式用于做预测。比如，给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息的数据库，系统就会学习到可用来预测信用卡欺诈的模式。处理的交易数据越多，预测就会越好。机器学习需要大量的数据进行训练和调整，不断从文档资料提取一些信息特征，并建立相应模型进行预测，识别和判定其他的内容文字，以达到最后的学习效果。因此，机器学习就相当于人的“思考”和“判断”，在计算机识别技术和自然语言技术等其他技术的基础上，对文档内容进行进一步分析，判断内容是否符合规范，是否有误，甚至实现自动纠错等功能。

4 人工智能技术在项目文档资料审核中的应用基本步骤

4.1 数据集准备及预处理

数据集准备工作，其中包括加载数据集和执行数据预处理的过程。如果是纸质文档，需要先通过计算机视觉技术进行信息获取。为满足后期的模型训练，往往需要大量的数据集，不同种类的文档资料都要保证一定的数量，以保证模型可以对多类型文档进行分析。另一方面，对原始数据还要进行预处理，比如按不同标题进行内容分割，确保针对同一类型的内容进行分析和训练。

4.2 特征工程

特征工程，其主要目的是突出关键信息，隔离无效或无用信息。在计算机视觉中，特征可以是图像中的线。在自然语言处理中，并且短语或特殊词计数可以是特征。在语音识别中，特征可以是单个单词或音调。如果正确完成了特征工程，它可以通过从原始数据创建有助于促进机器学习过程的特征来提高机器学习算法的预测能力。常见的特征形式有：计数向量、映射数值、TF-IDF向量等等。特征工程是将原始数据转换为更能代表预测模型的基础问题的特征的过程，从而提高了对潜在数据的模型准确性。

4.3 训练模型

建立模型并进行训练。机器学习有许多基础模型，常见的有朴素贝叶斯分类器、线性分类器、SVM模型、随机森林模型、Boosting模型、深度神经网络等等。针对文档审核问题，可以建立一种基于机器学习的文档规范性审核模型，并依据数据集进行模型训练，并对模型的求解结果进行初步评估。模型效果不理想的，还要进行模型参数的调整，以达到符合标准的效果；有时利用不同的模型并混合它们的输出还可以进一步改善结果。

4.4 检验模型

在测试集上检验模型。模型训练后，还要准备测试数据集对其进行验证，对模型的实际审核能力进行评估。如果模型在训练数据上表现很好但在测试数据上表现不佳，则表明它过度拟合。换句话说，训练出来的模型仅仅适用于训练数据上，对其他的数据集没有普遍的适用价值。当模型检验结果不符合预期时，应该重新调整参数，再次进行训练，或者调整思路，更换模型和方法，以达到预取的效果。