APP下载

设计企业中成品图纸利用方法研究

2022-06-01章喻龙

水电与新能源 2022年5期
关键词:图像识别图纸标签

章喻龙

(中国电力工程顾问集团中南电力设计院有限公司,湖北 武汉 430070)

研究显示,新的工程图纸中有超过80%的设计可以通过重用或者修改过去的设计来实现[1]。然而事实上,作为企业知识财富核心的图纸却只会有极少部分被再次利用。其主要原因在于设计人员通常只能通过同事间的口耳相传以及在档案馆对图纸逐一查询的方式来获取图纸信息,在短时间内获取所需图纸的可能性较低。因而如何提升成品图纸的利用率进而提升设计企业生产效率成为一个亟待解决的关键问题。文章提出可以通过分三步走的方式来提升图纸利用效率。首先搭建多维度的图纸搜索平台;然后使用机器学习算法将图纸中非结构化数据转化为结构化数据存储,用于提升图纸搜索质量;最后搭建图纸辅助和自动化设计平台变被动搜索为主动推荐,进一步提升绘图效率和质量。

1 多维度图纸搜索平台搭建

根据公司信息化建设水平,设计企业可以依次搭建数字档案馆、项目门户和电子成品档案借阅3个模块,从多个维度对图纸进行展示和利用。

1.1 数字档案馆

数字档案馆模块通过结构化数据的形式记录所有归档图纸的整编信息,例如归档时间、所属项目、绘制专业和设计人等,进而提供对已归档图纸基于项目基础信息的检索和借阅功能。

1.2 项目门户

项目门户模块如图1所示,以项目地图的形式对项目进行展示。通过选择项目是属于境内还是境外、其所属省份、工程类别(如火电、新能源、电网)以及项目类型(如总承包、设计、勘测)等信息,设计人员可以找到需要的项目的名称和其详细信息,点击项目详情还可以进一步的关联到项目的流程、参与人员名单、涉及专业、差错统计情况以及校审意见等信息,并从上述维度查询到对应图纸。

图1 项目地图

项目门户模块的数据主要来源于项目从登记开始到立项、启动、WBS分解、卷册任务书下达、成品校审、成品出版最后到归档的全套流程,是对数字档案馆模块的补充。

1.3 基于搜索引擎的电子成品档案借阅

电子成品档案借阅模块[2]如图2所示,是一个基于Lucene索引技术的图纸搜索引擎。该模块提供了图纸全文检索和标签检索的功能,方便设计人员对图纸进行借阅和查询。

图2 电子成品档案借阅界面图

图纸的全文检索功能通过三个步骤实现:首先通过一个在AutoCAD上二次开发的文字提取软件提取DWG上的所有文字信息;然后利用爬虫软件搜集这些信息并发送到索引服务器;最后索引服务器利用分词工具包对文字进行分词并制作索引。

标签式检索功能则是首先从流程中获取图纸的设计阶段、所属专业以及工程类别等信息;然后通过索引服务器把相关信息制作为图纸标签;最后通过流程引擎的标签选择界面实现图纸按照标签进行查询的能力。

2 深度学习算法提升搜索质量

2.1 挖掘图纸潜在信息

提升图纸搜索能力,首先需要挖掘图纸中的潜在信息。近年来人工智能技术高速发展,利用深度学习算法实现的文字和图像识别算法可以有效的提取图纸信息,提升搜索质量。

2.1.1 文字识别

文字识别是指对包含文字的图像文件进行分析处理从而获取文本的过程。该过程一般包括图像输入,图像预处理、文字检测和文本识别四个步骤[3-4]。

基于开源的通用文本识别工具对于机打、位置相对固定的文字的识别率很高,然而却存在不善于处理特殊字符识以及不定方向文字的问题[3],因而无法直接应用于实际的生产环境。因此需要首先利用包含标注了定位信息的图纸对文字检测程序进行训练,提升文字检测程序的准确度和识别效率;然后再将定位的文本进行分割后发送给文本识别算法进行转换,从而实现对图纸中文字的识别功能。

文字识别算法可以用于识别图签关键信息、图纸标注以及对全部文字进行识别。其中图签关键信息包括图签中填写的项目名称、项目编号、卷册编号、图纸名称、图纸编号、设计时间、比例、版本、设计人员姓名、校审人员姓名等信息。图纸标注信息包括图元的标注信息(如门窗的大小、型号等)以及其他图纸内容的说明。全文字识别是指对图纸当中所有文本进行识别的技术,识别后信息通常用于PDF图纸的全文检索。

2.1.2 图像识别

较为常见的图像识别技术有图像分类、目标检测和实例分割等。近年来,开源的基于深度学习的图像识别算法例如VGG16、Faster RCNN,YOLO等,因为其易得性、高正确率和近乎实时的识别效率而被较为广泛的应用在各个生产系统当中[5-6]。

深度学习的算法实现的图像识别功能的主要难点在于需要大量被标记的图纸。获取被标记的图纸可以通过利用图纸和项目信息中的结构化数据的关联关系,使用计算机程序自动化标注的方法实现。例如可以通过数据库中图纸和设计人员关联,设计人员又和其所属专业关联的特性,将图纸和其专业进行关联,从而实现对图纸所属专业的自动化标注工作。还有部分训练数据可以通过开源项目获得,例如DICE项目[7]就提供了2000个CAD图元的3D和2D模型,可以用于对图纸中图元的识别。

图像识别算法可以被应用在图纸分类、图标识别以及图元识别等方面。其中图纸分类是指对图纸按照其所属专业、大小、绘制内容进行分类。图标识别是指识别图纸当中参与单位标识等特殊标识。图元识别是指识别图像当中有意义的图纸元素,如墙、窗、梁、柱、楼梯、避雷针等。

2.2 潜在信息的综合利用

在图纸经过了文字和图像的识别以后,会挖掘出一系列结构化信息,这些信息将被用来补全缺省以及促进图纸搜索质量的改进。

2.2.1 补全缺省信息

前文提到数字档案馆模块由于开发时间早,其中有大量图纸只存在纸质版本,现在需要工作人员对这些图纸进行扫描,实现其电子版本的二次归档。然而二次归档,不仅需要扫描图纸电子版本,还要人工将纸质版本和其电子版本进行关联。整个过程费时费力还容易出错。文字识别,作为档案工作中的关键技术,可以被用来开发“扫描即归档”的功能从而解决这个问题。

实现方法一是批量的对图纸进行扫描,将其转化为PDF和JPG格式的文件;二是提交JPG格式的文件,利用训练好的文字识别工具识别出图纸当中的项目名称、图纸名称、卷册编号、设校审批人姓名等基本信息填写入待归档的清单;三是根据卷册编号和项目名称反向查询出数字档案中原始文件的归档编号、存放位置等归档信息填入清单;四是根据JPG和PDF的对应关系把PDF文件归档到所属目录。

2.2.2 提升搜索质量

前文提到过电子成品档案借阅模块提供了对所有图纸的全文检索功能,但它存在以下几点不足:一是对于PDF格式图纸的全文检索能力缺失;二是图纸标签式检索的维度过少;三是搜索停留在字面检索的范畴,造成当搜索目标模糊时,无法提供一个较为有效的搜索结果。

PDF格式图纸不能全文检索是指部分老图纸只有PDF格式,无法通过搜索引擎进行索引和查询。解决该问题,需要四个步骤:将PDF文件转换为JPG格式,以方便后续处理;通过文字识别功能读取图纸中所有文字信息;通过爬虫技术将读取的文字发送给搜索引擎建立索引。最后搜索引擎使用关键词抽取技术[8-9]进行分析并建立索引。标签式检索维度少的问题是指搜索引擎目前只能按照专业、阶段、工程类别三个维度进行查询。这样查找到的图纸范围太广,往往还需要针对关键字进行二次查找。解决该问题,一方面要整合补全缺省信息后的数字档案馆模块和项目门户模块中的图纸标签,将它们和图纸通过搜索引擎进行关联,补充到标签维度当中;另一方面也可利用已经训练好的文字和图像识别功能对图纸进行数据挖掘,进一步提取隐含信息作为关键字,进而提升搜索效率。提取隐含信息的方式如下:①利用文字识别功能识别图纸标注,建立图纸尺寸大小标签;②通过图像识别功能对图纸图元进行识别分类,建立图纸绘制内容标签;③通过图标识别功能识别设计单位和图集标识信息,建立设计单位和图集标识标签。

针对搜索目标模糊的情况,一方面需要提供更多的搜索标签,以便于缩小搜索范围;另一方面需要利用深度学习和图纸数据库建立图纸推荐算法从而实现以图搜图。图纸推荐算法包含特征提取、特征索引、特征分析和特征比对[10-11]四个步骤。其中特征提取是神经网络对所有图纸提取特征数据的过程。特征数据可以是结构化的,如工程名称或者设计单位;也可以是非结构化的,如一个卷积网络提取出来的表示图纸特征的多维张量。特征索引是将图纸特征进行存储的过程。特征分析是对输入图纸进行分析,提取搜索要素的过程。搜索要素一般会包含如图纸名称这样的图纸基础信息,也会包含如卷积特征张量这样的隐藏信息。有时候,搜索要素还会包含搜索人的专业或者搜索历史记录这样的极具个人特色的数据。特征比对是指通过最近邻算法或实例推理[12]等手段,将特征分析结果和数据库中图纸的特征信息进行比对的过程。特征比对时通常会首先使用文字比对,缩小搜索范围;然后再通过比对图纸细节特征,锁定要搜索的图纸内容。

3 辅助和自动化设计平台

在补全缺损信息及完成图纸推荐算法后,可以实现辅助设计和自动化设计的功能,进一步的提升设计企业的生产效率。

辅助设计功能是指在绘制图纸的过程中,根据图纸正在绘制的内容,实时进行提示的功能。提示信息可以包含设计的各个方面,如对当前绘制图元自动的补全;对当前卷册提供相关专业类似设计图纸参考;对设计中存在错误的分析等。这些功能实际上虽然只是对图纸信息和相关应用的整合,但对算法的实时性和准确性提出了更高的要求。

自动化设计是指在需求较为明确的情况下,软件自动实现对图纸的设计和绘制的过程。自动化设计功能目前主要应用在建筑的功能性设计[13]领域,实现了在提供房间图纸的情况下自动化摆放家具到合理位置的功能。其实现方法主要还是通过深度学习算法:首先将设计好的图纸使用矩形框标注出房间功能以及家具的位置和类型;然后把房间以及房间的门和窗的位置作为输入,功能性家具的位置和种类作为输出对图形分割算法的神经网络进行训练;最后利用训练好的算法对初始房间图形进行布置。

虽然目前自动化设计功能的应用领域尚较为狭窄,然而因其响应速度快,人工消耗少,智能程度高的特点,将越来越多的被应用在投标招标及工程实施阶的各个阶段。

4 结 语

本文以本院为例,对图纸利用方法进行了研究,提出了首先直接利用已有数据帮助设计人员在更大范围、更多维度查找图纸内容,促进图纸的再利用;然后利用深度学习算法挖掘图纸潜在价值,补全缺省信息,提升搜索质量;最后综合所有数据和应用实现辅助化和自动化的设计策略。该策略可以显著提升设计企业生产效率,在行业内极具推广价值。

猜你喜欢

图像识别图纸标签
基于区块链的建筑信息模型图纸多人协同创作系统
浅谈汽车线束产品图纸管理
看图纸
基于Resnet-50的猫狗图像识别
高速公路图像识别技术应用探讨
图像识别在物联网上的应用
无惧标签 Alfa Romeo Giulia 200HP
图像识别在水质检测中的应用
不害怕撕掉标签的人,都活出了真正的漂亮
让衣柜摆脱“杂乱无章”的标签