APP下载

基于文本分析技术挖掘工程重复立项问题的研究

2020-04-13黎晚晴陈玲娜梁惠欣

经济管理文摘 2020年5期
关键词:申报材料申报关键

■马 博 刘 森 黎晚晴 陈玲娜 梁惠欣 李 勇

(1.中国南方电网有限公司审计部;2.南方电网数字电网研究院有限公司)

1 引 言

近年来我国经济高速增长,国内电网建设也得到了飞速发展,每年都会建设大量的工程项目,然而由于项目众多、申报材料繁杂(包括调研报告、项目建议书、立项报告、项目规划书、项目初步设计书、可行性研究报告、技术经济分析报告等各类材料),衍生出项目重复申报或相似项目建设等一系列问题,如何科学、高效地发现工程项目的重复申报问题,成为当前电网企业内部审计较为重要的课题之一。

通过多年来的不断积累,工程立项审批部门积累了大量历史项目申报材料。此外,随着近些年来的电网公司信息化建设的不断推进,相关项目申报材料由纸质文件转换成电子文件进行了存储,为审计分析奠定了数据基础。与此同时,自然语言处理技术和文本分析挖掘技术也不断成熟,并且在各行业取得了广泛应用,将文本挖掘技术引入到工程项目立项申报材料的审计过程中,能够大幅提高审计效率。

2 基于文本挖掘技术的工程项目重复立项分析

在传统的电网工程项目立项审计过程中,审计人员往往仅靠人工审阅立项申报材料,再根据自身大脑记忆的历史项目进行比对,识别项目是否存在重复申报行为;或者通过检索项目名称关键字,看是否之前有项目名称类似的项目或有类似采购,以判断是否是重复申报项目。这些方法,一方面过于依赖审计人员的经验积累;另一方面,由于仅对项目名称或部分采购内容进行查重分析,稍加修改的重复申报项目很容易被漏掉;此外,人工审核效率也较为低下。因此,本课题引入文本挖掘技术,自动对海量的立项项目的相关材料进行相似性分析,快速识别出相似的项目,从而大幅提高项目重复申报审计的效率。

在本课题中,主要涉及4部分工作:信息抽取模型训练、历史立项材料信息抽取、新项目重复立项审计、旧项目重复立项审计。

图1 主要工作

(1)信息抽取模型训练。

为了对各个项目的关键内容进行对比分析,例如项目背景、项目目标、建设内容、项目金额、采购设备、关键技术等,需要从项目申报等材料中抽取相关内容,形成结构化数据。但是由于各单位各年度的工程项目申报材料等存在不同的格式模板,无法构建一种统一的信息抽取规则,因此本课题通过机器学习的方式,对人工标注立项申报材料进行训练学习,形成信息抽取模型,自动识别文档模板,并抽取项目申报材料中的关键数据。信息抽取模型的训练过程主要如图2。

图2 训练信息标注模型

(2)历史项目信息抽取。

对于历史积累的海量申报项目,调用训练出的信息抽取模型,逐个自动抽取各个项目的关键数据,形成结构化历史项目数据库,为后续项目信息审计比对提供数据支撑。

(3)历史项目重复申报分析。

历史项目重复申报分析,主要批量对抽取形成结构化历史项目数据库中的项目进行比对分析,识别其中的重复申报项目。总体处理流程如下图,先从结构化历史项目数据库读取每一个项目的结构化数据;再计算各项目两两之间的相似度,将相似的项目聚类,形成聚类结果;对于聚类中项目数大于1的聚类,认为是潜在的重复申报项目;对于聚类中项目数大于1的聚类,且其中的项目都属于同一申报单位的,认为是重复申报项目,并输出其项目名称、申报单位、申报时间(如图3)。

图3 历史项目重复申报分析

(4)新项目重复申报分析。

对于新提交的立项项目,调用信息抽取模型自动抽取其关键数据,并利用文本相似分析算法计算其和历史项目库中每个项目的关键数据之间的相似度,计算出相似度得分,如果有历史项目与其相似度大于阈值,则认为该项目存在重复申报行为,并输出相似度大于阈值的项目。

图4 新项目重复申报分析

3 关键技术

3.1 基于机器学习模型的信息抽取技术

信息抽取技术是从大段的文字中抽取关心的关键信息,并将其存储成结构化数据,以便后续进一步查询和分析使用。通常来说,信息抽取技术分为基于规则的信息抽取技术和基于机器学习模型的信息抽取技术2种。

基于规则的信息抽取技术往往结果较为精准,但也存在明显的劣势,就是普适性较差,需要将所有的可能的情况和抽取规则都穷举;文档格式稍有差异,抽取结果就会存在偏差。

与其相对的就是基于机器学习模型的信息抽取技术,其大致思想是认为标注一些模型训练用的文档,标注出从中要抽取的关键信息、位置、属性名称,例如从工程申报材料中抽取工程建设目标对应内容、在文档中的位置、属性名称为“工程建设目标”;每个训练文档中会人为标注出所有需要抽取的关键数据。机器学习的过程,就是通过学习海量的文档数据,自动总结学习出每一个关键信息对应的上下文特征,以及关键信息本身的文本特征,据此自动从新文档中抽取出所有关键信息。本课题采用了条件随机模型 CRF(Conditional Random Field)作为特征抽取模型的训练算法模型。

CRF模型由Lafferty等人于2001年提出,是基于熵模型和隐马尔科夫模型之上提出的一种基于遵循马尔可夫性的概率图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。

3.2 文本相似分析技术

文本相似分析,简单来说就是计算两个文本串之间的相似度。例如对工程申报材料中相关项目的项目情况介绍、服务方案、服务安排、进度控制、质量控制进行相似度分析,首先调用训练出的信息抽取模型,抽取出关键数据,然后对关键数据进行预处理,其中包括正则匹配、文本分词、停用词处理、字符串操作、规约化数据等,再通过文本相似度计算方法进行计算,最后根据该项目中的项目情况介绍、服务方案、服务安排、进度控制、质量控制各部分权重,分析出和其他项目的最终相似度。常见的文本相似度计算方法有Jaccard相似系数、编辑距离算法、夹角余弦相似度3种。

3.2.1 Jaccard 相似系数

Jaccard 相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,|A∩B|/|A∪B|,其实就是计算两个字符串中字符的交集和并集的比值。

3.2.2 夹角余弦相似度

两个文本A和B之间的夹角余弦相关度similarity常用向量之间夹角的余弦值表示,公式为:

其中,Ai、Bi分别表示文本A和B第i个词的词频,1<=i<=n。

由于项目申报信息中,数据稀疏度过高,通过余弦相似度计算会产生误导性结果。

3.3 文本聚类技术

聚类算法是一种常见的数据挖掘算法,目的在于把大量的数据点分成若干类别,把相似的内容和行为聚集在一起,不同的类之间尽量保证不相似。例如一些难以发觉的信息以特殊的形式隐藏在大数据中,一般的审计数据分析方法很难挖掘出这些异常信息,而采用文本聚类的算法能够弥补这个缺陷。这些异常信息往往是审计人员重点审查的对象,可以对舞弊和违规行为的评估提供审计证据。对审计文本进行聚类后,可以按类别对每类文本进行具体的分析、比较和总结,大大减轻了审计人员进行数据分析的工作量。

4 工程项目重复立项分析应用实例

我们开发工程项目关键信息抽取功能,运维文本挖掘的分词、噪声词过滤等技术,进行文本相似度分析,并在相似度的基础之上,运用聚类算法识别相似度较高的项目群,辅助工程项目重复申报审计工作,为审计人员提供快速识别疑似重复立项的工程项目线索,大幅度提高了审计工作效率,具体分为以下三个步骤:工程项目信息抽取、文本相似度分析和重复立项聚类分析。

4.1 工程项目信息抽取

通过信息抽取模型功能,将各项目申报材料中的关键信息,例如项目名称、项目摘要、项目申请理由、项目内容、项目总投资、项目预算、采购物资列表、项目支出明细等,抽取成结构化数据,为后续文本相似度分析提供高质量的数据基础。其中,每一条记录代表一个项目,每个字段代表该项目的关键数据项。

4.2 文本相似度分析

运用文本挖掘工具对工程项目信息抽取后得到的高质量数据项分别进行文本相似度分析,实践步骤有以下三个步骤:

(1)首先读取抽取后的工程项目信息数据,运用分词技术,将各数据项文本进行文本预处理操作;

(2)再通过企业核心词库、停用词处理、噪声词过滤等操作提取每个关键数据项的关键词;

(3)然后运用文本相似度计算方法进行计算各个关键数据项的相似度。

具体建模流程如下图所示,实现从信息抽取表到相似度表的转换。

图5 文本相似度分析建模流程

4.3 重复立项聚类分析

本课题还通过聚类算法对海量的历史项目进行重复申报分析,将文本相似度分析的结果,作为聚类分析的输入,实现将项目数据分类到不同的类或者簇,同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。快速识别相似度较高的项目簇,并运用网络图呈现技术对聚类结果进行直观展示,如下图所示,其中每个点代表一个项目,对于聚集度很高的项目,说明其相似度极高,存在重复申报行为。对于相似度大于阈值的项目,系统会输出相似项目列表及相似度,并可对比分析项目申报信息的相似内容与差异。对于相似度大于阈值的项目,系统会输出相似项目列表及相似度,并可对比分析项目申报信息的相似内容与差异。

图6 历史数据重复申报聚类分析与展示

结 语

本课题通过引入文本挖掘等人工智能技术,对海量的立项材料进行高效分析,从而从中分析潜在的项目重复申报行为,为项目重复申报审计提供了新的手段。通过项目实践,证明本课题采用的技术行之有效,能够大幅提高项目重复申报的工作效率,并且同时避免了人为粗心或经验缺失而造成的审计遗漏。因此,建议相关技术进一步广泛推广,全方位提升工程项目审计的效率与质量。

猜你喜欢

申报材料申报关键
“少年工程院活动校”暨“航天未来人才培养校”共同申报
高考考好是关键
国际收支间接申报问答
辽宁农机推广鉴定申报注意事项
医疗机构中药饮片阳光采购申报材料的建议
安徽省祖代及省级重点种畜禽场生产经营许可证申报材料解析
《申报》与上海民国时期禁戏
如何做好农业综合开发项目的资金申请
获胜关键
生意无大小,关键是怎么做?