基于非结构化文档内容自动识别技术在贵州电网知识构建中的应用研究
2019-09-10冯光璐欧阳静黄莉雅倪凡李然
冯光璐 欧阳静 黄莉雅 倪凡 李然
摘 要:本文从电网非机构化文档智能解析角度出发 ,提出一种基于非结构化文档内容的自动识别技术应用研究。该算法通过采集贵州电网非结构化数据,有针对性采用图片类数据文本识别(OCR)、文本关键词提取等相关机器学习算法,实现对各种非结构化文档内容的抽取,可以为电网信息化、智能化、知识化建设提供专业领域的底层技术支持。
关键词:非机构化文档;电网;智能化;OCR
0引言
本文从贵州电网非结构化文档类型表现入手,提出一种基于非结构化文档内容的自动识别技术应用研究。主要是研究word、pdf、压缩包等类型文件转化为静态HTML网页,实现自动排版,自适应PC端浏览器及APP端正常显示。研究文档中含图片的文字识别技术(OCR),提取文档及图片中的文字建立索引,以搜索引擎的形式提供服务。研究文档关键词提取技术对文档进行分类标签技术。为电网公司人工智能技术的应用提供一种底层技术参考。
1Office、PDF等文档静态化处理及索引
文件可能是不同格式的压缩文件,系统能够自动识别文件格式并以对应的方式进行解压缩,解压缩后得到的文档格式可能包含word、excel、pdf、vsd、ppt等,甚至扫描为图片格式的ppt,对此系统需要对不同格式的文件自动化处理,对于扫描为图片格式的ppt,通过OCR图象文字识别技术识别出其中的文字及排版格式,识别后通过文档内容抽取,在不改变原文排版的情况下将文档转化为可供PC端浏览器及手机端正常访问的文档,同时需要对文档的目录信息进行识别抽取并与文档位置做双向关联,最后需要对文档的字符内容做分词索引以便用于进行全文搜索。
2图片文字内容识别(OCR)
OCR是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。一般分为两个步骤:文字定位,即找到文字在图片中的位置;文字识别,即识别出找到的文字。文字定位也可能包含一些二值化,矫正的步骤。我们采用CNN + RNN + CTC的架构来做图象文字内容识别。
3文本关键词提取
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。
关于文本的关键词提取方法分为有监督、半监督和无监督三种:
(1)有监督
它是把关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练语料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取
(2)半监督
只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
(3)无监督
不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词抽取。
有监督/半监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词抽取。
下面我们主要对TextRank算法进行介绍。
TextRank是一种用来做关键词提取的算法,也可以用于提取短语和自动摘要。因为TextRank是基于PageRank的,所以首先简要介绍下PageRank算法。
该公式中,Vi表示某个网页,Vj表示链接到Vi的网页(即Vi的入链),S(Vi)表示网页Vi的PR值,In(Vi)表示网页Vi的所有入链的集合,Out(Vj)是网页j中的链接存在的链接指向的网页的集合。|Out(Vj)|是集合中元素的个数。d表示阻尼系数,是用来克服这个公式中“d *”后面的部分的固有缺陷用的:如果仅仅有求和的部分,那么该公式将无法处理没有入链的网页的PR值,因为这时,根据该公式这些网页的PR值为0,但实际情况却不是这样,所有加入了一个阻尼系数来确保每个网页都有一个大于0的PR值,根据实验的结果,在0.85的阻尼系数下,大约100多次迭代PR值就能收敛到一个稳定的值,而当阻尼系数接近1时,需要的迭代次数会陡然增加很多,且排序不稳定。公式中S(Vj)前面的分数指的是Vj所有出链指向的网页应该平分Vj的PR值,这样才算是把自己的票分给了自己链接到的网页。
而TextRank,是将每一个词作为一个节点,而节点与节点之间的链,是由词与词之间的共现决定的,决定词与词共现的方法,是由一个固定大小的窗口决定的,如果一个词与另一个词在同一个窗口里,就在这两个词之间加一条边。
TextRank是由PageRank改进而来,其公式有颇多相似之处,这里给出TextRank的公式
可以看出,该公式仅仅比PageRank多了一个权重项Wji,用来表示两个节点之间的边连接有不同的重要程度。TextRank用于关键词提取的算法如下:
1)把给定的文本T按照完整句子进行分割,即:
2)对于每个句子
进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即
其中 ti,j 是保留后的候选关键词。
3)构建候选关键词图G = (V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
4)根据上面公式,迭代传播各节点的权重,直至收敛。
5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
4结语
电网日常工作中产生的非结构化数据日益增多,该类数据的有效利用逐步成为电网信息化、智能化、知识化体系建设的关键基础,为解决快速、有效提取非结构化文档数据问题,本章提出构建一种针对电网非机构化文档内容自动识别技术的研究,实现了专有图片识别模型、关键词提取的融合性技术模型,能有效的提取非机构化文档内容,能够为电网信息化、智能化、知识化体系建设提供了底层基础技术支撑。
参考文献
[1]戴彦,王刘旺,李媛,颜拥,韩嘉佳,文福拴.新一代人工智能在智能电网中的应用研究综述[J].电力建设,2018,39(10):1-11.
[2]基于深度学习的图像识别研究[J]. Bruno Roberto,CENTENO PEREZ,姜成友. 现代经济信息. 2018(23)
作者简介:冯光璐(1991,9-28),汉,贵州贵阳人,学士,贵州电网有限责任公司信息中心工程师,主要從事信息系统建设与研究。
[基金项目]本文为贵州电网有限责任公司信息中心科技类项目“基于非机构化文档内容自动识别技术的电网制度百科平台研发及应用”(项目编号:066700KK52180027)的研究成果。