基于自然语言处理技术的电网采购文件智能化系统应用
2021-03-08汤力杜洁李芹王菁
汤力 杜洁 李芹 王菁
摘 要:采购是信息化项目建设的重要环节。但是由于近年来信息化项目申报数量多,很容易发生重复采购的现象,除了影响项目的进度外,也会影响电网公司的经济效益。因此,必须要对采购文件进行审查,杜绝重复申报。传统的审查方法通常存在效率低、准确性差等问题,不能满足电网公司的使用需要。本文提出了一种基于自然语言处理技术的采购文件智能化审查方法,运用了建模等技术,可以支持文档模板固化、资料审查等功能,实际应用中速率快、准确度高,具体推广应用价值。
关键词:自然语言处理技术;智能化;审查方法;信息化项目
1.电网采购文件智能化审查系统的关键技术
1.1词权重计算技术
在电网采购文件中,不同文件的重要程度存在很大差异。词权重计算,就是根据各类文件标题的重要程度,为其赋予不同的权重,这样才能让最终的审查结果更加真实、有效。例如,采购文件中包含一些高频率的词语,或是专业术语,应当赋予相对较高的权重。计算词语权重是运用统计学的知识,也就是用文本的统计信息(如词频、词之间的同现频率等)计算词语的权重,大部分的统计方法都基于香农信息学理论:如果特征项在所有文本中出现的频率越高,那么它所包含的信息熵也就越少;如果特征项只在少量文本中有较高的出现频率,那么该特征项就会拥有较高的信息熵。其中熵是不确定性的衡量,不确定性越高,熵越高。TF-IDF算法是计算词语权重的典型代表,在准确提取特征词汇等方面有着明显的优势。
1.2中文分词技术
计算机在识别并理解文档内容的过程中,无法理解整个句子的含义,只能先将句子拆分成最小的单元,即原子词汇。然后再利用特定的算法,检测词汇的重复率。中文分词是基于自然语言处理技术的审查系统的核心技术之一,目前常用的分词方法有多种,较为常见的是机械式分词、统计式分词。其中,基于统计的分词方法中,比较典型的算法是N元文法模型(N-gram模型),该模型基于这样一种假设,第N个词的出现只与前面N–1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积。N-gram模型通过计算N个词汇组成序列的概率值来衡量分词方案的合理性。
2.系统运行流程
2.1全文检索流程
工作人员登录Web界面后,在检索栏中输入想要检索的内容,可以是某个关键词,也可以是某个语句,然后点击全文检索。系统接收到检索指令后,第一步是进行中文分词,同时在系统后台开始加载LSI主题模型。利用该模型完成相似度分析,最终在Web界面上输出检索结果。
2.2主题模型训练流程
电网智能化审查系统主要有文档模板语料标记和数据预处理两个功能。为了保证两个功能的顺利实现,在完成系统设计后,还要对运行流程进行调试和训练,用于检测流程是否顺畅、功能是否实现。主题模型训练流程如下:系统自动调用采购文件资料库中存储的各类文档,并检测文档的存储格式。将所有格式的电子文档,去掉图片、表格以后,统一转化为txt.格式。完成格式转化后,依次进行中文分词、TF-IDF转换、LSI主题建模等。最后将建立的模型,保存到计算机的硬盘中。当需要语料标记和数据预处理时,可以直接调用相应的模型,完成检索和查重。具体流程如图1所示。
2.3采购文件智能化审查流程
当工作人员将一份新的采购文件录入该系统时,该系统首先识别该资料的文件格式,如果属于PDF或Word格式,第一步进行格式转换,统一转换为TXT格式。然后开始中文分词,在这一过程中系统同时在后台加载LSI主题模型。模型加载完成后,自动对已经完成中文分词的采购文件进行相似度分析。新的采购文件同时进行备份,并将备份文件纳入到采购资料库中,实现资料库的数据更新。完成相似度分析后,将分析结果在Web界面上展示,工作人员可以根据使用需求选择打印出来。
3.系统软件架构
电网采购文件审查系统的软件部分共分为4个单元,具體功能为:(1)采购资料库单元,用于存放电网公司以往产生的采购文件。以资料产生年限作为划分依据,方便相关人员查找、调用。(2)文本相似度分析单元。作为该系统的关键部分,具体又可以分为中文分词、主题建模等功能。首先识别待检测的采购文件,然后与资料库中已有的文件进行对比,对比结果即为文本相似度,同时生成相似度报告,以便于相关人员对采购文件的进行调整。(3)Web界面。该系统的人机交互界面,管理员需要获取权限后才能登陆Web界面,并完成采购文件查询、上传、下载等具体操作。(4)模型管理。支持对LSI主题模型的构建、修改和调用等操作。
4.应用效果
为了验证基于自然语言处理技术的采购文件审查系统的实际应用效果,选取了一台Windows 10 64位操作系统,8G内存,3.20GHz双核CPU计算机进行测试。其中,当文档数量为1000个时,中文分词时间为28秒,主题建模时间为45秒,采购文件的审查时间为1.2秒;当文档数量为5000个时,中文分词时间为160秒,主题建模时间为184秒,采购文件审查为1.3秒;当文档数量为10000个时,中文分词事件为314秒,主题建模时间为352秒,采购文件审查为1.5秒。根据测试数据可知,随着资料数量的增加,无论是正则匹配消耗的时间,还是主体建模需要的时间,都会同步增加,呈正相关;但是审查所需时间变化不大,应用效果良好。
结语:电网公司现行的文件审查方法无论是在审查所需时间,还是审查结果准确性方面,仍然存在一些不足。本文提出的一种基于自然语言处理技术的审查系统,除了可以高效率、精准性的完成采购文件审查外,还具有审查疏漏等功能,进一步提高了系统的适用性。利用Web界面,管理人员可以很方便的完成主题模型的更新、调用,保证了该系统可以根据电网公司采购文件审查需要,切实维护了电网公司的综合效益。
参考文献:
[1]郭蕾.基于自然语言处理的英语翻译计算机智能评分系统设计[J].现代电子技术,2019(04):158-160.
[2]徐琳宏,丁堃,林原,等.基于机器学习算法的引文情感自动识别研究--以自然语言处理领域为例[J].现代情报,2020(01):124-125.
(云南电网有限责任公司信息中心 云南 昆明 650217)