APP下载

工程电子文件阅读设备中多源异构文件获取模式与处理技术研究*

2018-08-20付永华白占俊张旭阳

档案管理 2018年2期
关键词:处理技术

付永华 白占俊 张旭阳

摘  要:将工程电子文件有序有据处理是工程电子文件阅读设备提供有效阅读的基础。论文通过现场调查,充分考虑野外施工现场的工程电子文件的来源、格式与内容,针对工程电子文件多源异构的特点,了解国内外主流技术,结合恶劣施工环境的实际情况,设计并实现一种新的工程电子文件获取模式和处理技术,获取模式包括批量导入按需读取、临时协作按需共享和实时更新按需收集3种模式,处理技术包括识别技术、兼容技术、转换技术,从而有效加强工程电子文件的实用性。

关键词:工程电子文件;多源异构;获取模式;处理技术

Abstract: The orderly handling of engineering electronic documents is the basis for effective reading of engineering electronic document reading devices. The source, format and content of the field construction project of electronic documents is fully considered through field investigation. A new acquisition mode and processing technology of engineering electronic document is designed and implemented according to the characteristics of engineering electronic documents of multi-source heterogeneous, knowledge of domestic and international mainstream technology together with the actual situation of poor construction environment. The acquisition mode includes  batch acquisition mode introduction according to need read, temporary collaboration on-demand storage and real-time updates of on-demand while processing technology contains identification technology, compatible technology and conversion technology, which can effectively strengthen the practical usage of engineering electronic documents.

Keywords: Engineering Electronic Document; Multi-source Heterogeneous; Acquisition Mode; Processing Technology

工程电子文件阅读设备主要面向恶劣的野外施工环境,比如野外勘探、铁路公路构建、灾害救援等,其直接解决的问题是恶劣环境下的阅读问题。但是,工程电子文件阅读设备的内容质量,也就是各种工程电子文件的质量,也直接影响着阅读的效果,而且,工程电子文件的来源比较多[1],内容和格式也存在很多差异,因此,如何有效地获取这些多源异构的工程电子文件,并有序有据地对其进行处理加工,使之适合野外施工环境需要,容易阅读,成为提高阅读质量的关键。

1 工程电子文件多源异构现状

在工程电子文件阅读设备样机设计并实现后,通过对中建二局第二建筑工程有限公司负责的惠济万达广场项目、郑州市农业路快速通道工程京广高架互通项目实证调研,分析研究面向工程电子文件阅读设备的工程电子文件的现状与特点。

1.1工程电子文件多源成因。(1)过程天然多源:经了解,工程电子文件的来源存在多个单位,比如,一般的项目工程包括建设、勘察、设计、施工、监理、检测、检验等流程,在这些不同的流程中,必然存在着多家单位的工作,导致工程电子文件天然产生着多个源头。

(2)同节协作多源:即使同一个工作环节,或者同一个工作单位,也会有多源的现象,比如施工现场,因为某项需求,有几个协作部门,对工程资料如施工图纸等,进行现场调研、临时变更,导致工程文件实时产生,难以预测。

(3)同文修改多源:在同一份文件上,也有可能是先由设计人员完成,然后其他人员因为需要直接在工程资料上进行修改,甚至更多的是同样的设计人员自己不断地修改,导致同文修改多源。

1.2工程電子文件异构成因与构成。导致工程电子文件异构的原因主要是文件的多源,不同的阶段采用的工程电子文件描述工具不同;同样的任务,不同的单位又可能采用不同的软件;工程电子文件本身的描述需要,比如有的地方需要文字描述,有的可能是图片,也导致工程电子文件的异构;工程电子文件描述技术的飞速发展,为工程电子文件的描述提供了便利,但是也导致了新的描述格式的出现,比如虚拟技术、3D技术等。

经调研,工程电子文件的构成主要包括各类设计图纸、施工图纸,各种文件规定、施工记录、验收记录和报告等,各种原材料、成品、半成品、构配件、设备的描述性文件等,施工过程中的各种描述等。具体构成的格式、来源等信息如表1所示,其中,获取难度和处理难度采用五分法描述,获取难度的1代表可以直接获取,5代表基本不能获取,或经较为复杂的技术方式才能获取;处理难度的1代表不需要处理,可以直接使用,5代表需要经过论文设计的所有处理技术才能处理完成。

2 研究与应用现状

2.1 研究现状。关于电子文件格式,向来不是学者们研究的重点,一般侧重的是存储或归档方式。比如刘家真教授在2000年根据澳大利亚电子文件管理策略,研究了电子文件的保存、鉴定与存取问题[2]。李泽锋教授则较为全面地研究电子文件整个生命周期的变化,并在2004年,就较早地关注了档案数字化的电子格式问题,他认为XML、RTF、TXT等并不完全适用于档案的数据格式,他讨论了文件保存格式的选择原则,并在对比几种电子格式的基础上,提出CEB是一种比较适合数字化档案的保存、整理、利用与迁移的格式[3]。

各位学者也意识到了,不同的存储格式对电子档案使用的影响,也在考虑如何进行融汇和兼容,1998年,刘诗德和郭黎探讨了电子出版系统的文件交流,并从质量、灵敏性、效率和支持性等方面,考虑了出版系统不同格式之间的转换和兼容问题,最后给出了一种支持2种格式转换的平台的设计思路[4]。此方面的研究,一直延续到今天,2017年,梁凯研究了档案部门应用OFD格式的问题,分析了OFD格式的优势与存在的“短板”,同时也简单讲述了OFD格式与PDF格式的竞争[5]。

关于工程电子档案或工程电子文件的研究,几近千篇,但纵观这些研究,主要还是数字化的技术、数字化的过程方面,或者是以某实际工程为例的数字化,也有少部分的研究考虑了安全问题和如何更好地使用,比如有的研究设计了在线浏览的模式等,但是基本没有考虑多种格式存在的主要原因和一定时间内无法改变这种现状的事实。

2.2 应用现状。在国外,美国电子文件档案馆项目系统工程主管Dyung Le就将工作重点放到多种格式文件的存储和利用上,使其尽量不受电子文件产生的软件或硬件的影响。李泽锋教授也提出了一种注册库技术,他在理解文件格式与分析格式管理原因的基础上,对格式管理的功能进行分析,认为应该构建格式注册库,存储格式的表示信息,进一步分析格式注册库的构成,从而便于识别和兼容不同的格式[6]。

在具体应用上,很多公司过去采用独立技术,一方面为了保密,另外也为了彰显个性独立,但在兼容和共享的发展方向上,也在慢慢地改变,比如2006年,日本Sony Corporation的数据压缩技术就与竞争对手的格式兼容,包括Apple Inc.的AAC技术。

在数字存档方面,也有很多技术在推进,比如2010年提出的XAM(eXtensible Access Method,可扩展访问方法),这一标准将原始数据和应用分开,从而实现应用时按需的操作。虽然此方面的研究在2012年便不再继续,但也是一种尝试。也有的技术考虑到数字化制作者本身的实际情况,研究有限兼容支持的自治信息保存格式,在一种允许的框架范围内,自由地进行档案数字化,不用考虑将来使用者的情况。CDMI(Cloud Data Management Interface,云数据管理接口)标准是近些年流行的新技术,提供了访问云存储和管理云存储数据的方式,能够让大多数旧的非云存储产品访问方式演进成云存储访问。

在政策和行业规定方面,2016年10月14日,“电子文件存储与交换格式版式文档”标准发布,这是我国自主研发的版式格式标准,是国家电子文件标准体系的重要组成部分,该标准规定国家版式文档格式规范,简称OFD(Open Fixed-Layout Document),在多个行业进行验证,获得市场和用户的广泛认可[7]。

纵观上述研究现状、应用现状或技术现状,首先,工程电子文件的复杂程度得到了认可,但在数字化过程中,并没有考虑工程电子文件的来源和构成,只是按照普通的数字化方法去管理,最多考虑了工程图纸的大幅面、改动多的特点。其次,认识到了数字存储格式对阅读效果的影响,已经采用规范和技术,去尽量地消除格式的不统一带来的影响,有的从源头考虑,有的从使用端考虑,但基本没有意识到,这些规范或技术,在恶劣的施工环境下,能否适用,这个施工环境还包括硬件和操作者,同时,也没有考虑这种改变,是否对操作者产生了新的影响,增加了原有操作的工作量和复杂度。

3 多源异构工程电子文件获取与处理思路

3.1 符合工程的实际需要。(1)充分考虑施工环境。工程电子文件和其他的电子文件不同,工程施工现场,有可能盛夏酷暑、烈日炎炎,也可能寒风凛冽、冰天雪地,也可能风雨交加,也可能尘土飞扬,这不管对电子档案还是纸质档案,都存在着很大的使用压力;有的工程现场可能存在着电磁干扰等,这些对工程电子文件的获取和使用都产生了很大的影响[1]。

(2)充分考虑电子文件的实时性和综合性。在施工过程中,一直需要工程資料的支持,也很有可能因某项新需求,对工程资料如施工图纸等,进行现场调研、临时变更,工程电子文件实时产生,难以预测。而且,有时候需要将整个工程施工前后相关的所有资料综合在一起,进行比对,工程电子文件需求量比较大。

3.2 符合电子文件的固有规律与未来发展。(1)在保证使用的情况下,尽量少变化:工程电子文件阅读设备固然要以施工的实际需要为工作核心,但是,在能够保证文件的读取速度、清晰度、阅读效果和使用效果的情况下,尽量不做变动,少做变动,尤其尽量做到只改变工程电子文件的存储格式,而文件的逻辑结构、内容关系保持不变。

(2)便于移植:一般工程都包括建设、勘察、设计、施工、监理、检测、检验等几个流程,虽然工程电子文件阅读设备主要应用于施工阶段,但其内容在施工阶段也需要不断地修改和共享,因此,不管是在不同的单位之间流动,还是在同单位的不同部门,抑或是同一个工作点的几个终端之间,都要充分考虑其移植性。

(3)便于浏览器处理:目前,大多数工程档案管理系统,都支持局域网结构,但是因为内容原因,支持B/S结构的工程档案管理系统还不多,即使有,对在线浏览的内容和格式也有很大的限制,更多的是对内容的文本提取。但随着硬件和网络技术的发展,较为复杂的工程电子文件支持浏览器阅读必将是一种趋势,因此,有必要从现在就考虑对浏览器的支持。

(4)便于读取和识别:通过封装技术或其他方法,将工程电子文件处理,虽然有利于保密和保证文件的一致性,但却妨碍了工程电子文件的再处理,而这种再处理,在施工阶段是经常的,因此,工程电子文件格式应该支持数据较为容易地被读取和识别。

3.3 加强协作间的基础沟通。工程电子文件是很多个环节、很多个单位和很多部门与人员的共同产物,也就是文章第一节里提到的多源,不管是出于工作习惯也好,还是保密也好,都应该在项目开始之前,尽量地规范在同一个工程中的电子文件的格式,探讨不同软件之间的兼容,在保证完成工作的基础之上,选择兼容性较强的电子文件格式;对相同的软件平台,也通过升级或其他方式,确保版本一致或尽量接近。

4 多源异构工程电子文件获取模式与处理技术

4.1 工程电子文件获取模式。根据工程施工的实际需要,在工程电子文件的获取方面,设计了三种获取模式:批量导入按需读取、临时协作按需共享和实时更新按需收集,如图1所示。

(1)批量导入,按需读取:这种模式主要针对来源于外单位的工程电子文件,比如工程单位的要求、设计单位的图纸,也包括各种原材料、成品、半成品、构配件、设备的描述性文件等,在具体的某个施工点,不需要上述的全部材料,只需要直接相关的即可,因此,采用存储在项目的总服务的形式,获取时,一方面,可以预先导入到工程现场的服务器或者主机上,根据需要,采用无线技术读取,也可以根据实际需要,向工程现场服务器(主机)提出请求,然后由工程现场服务器(主机)向项目总服务器转交请求。在处理上,也由项目总服务器根据请求,直接处理完成,便于工程电子文件阅读设备读取。

(2)临时协作,按需共享:临时协作模式考虑的是同一个工程现场不同施工点的工程电子文件阅读设备之间的交互,因为同一个工程现场的不同施工点,工作性质大致相同,需要的工程电子文件的内容也基本相同,区别可能是具体施工的细微要求,比如高架桥不同路段高低的区别,这些工程电子文件,要求衔接更兼容,失误更少,速度更快,因此,采用临时协作,按需共享模式,这样工程电子文件同源更新,减少出错。

(3)实时更新,按需收集:这种模式是最底端的工作现场,也是工程电子文件直接应用的终端,同时也是工程电子文件改动较多的地方,为了符合施工习惯,也可以在工程小幅图纸上直接修改,然后通过手机更改,在不考虑成本的情况下,也可以由工程电子文件阅读设备直接拍照收集数据。

4.2 工程电子文件处理技术。论文设计的工程电子文件阅读设备的处理技术包括兼容技术、识别技术和类型转换技术、局部成像技术、分层对比技术、图纸追溯技术和增强现实技术。本文只考虑工程电子文件的获取需要,因此只给出前三种技术的设计方案。如图2所示。整个核心部件就是内容处理模块,内容处理模块向布局引擎提供获取工程电子文件内容和属性统一接口,对具体的每种工程电子文件,只需要注册一个格式的解析器,注册标准内容获取接口即可被解析和显示。这样既保证操作接口的统一性,又保证对各种工程电子文件支持的拓展性[8]。

(1)兼容技术:论文设计的工程电子文件阅读设备,在兼容技术上,主要通过分析现有的工程电子文件的格式,将其纳入格式兼容库中,当有文件读入时,如果是已经有的格式,则根据原有方案直接处理,如果是新的工程电子文件格式,系统则提醒对新文件进行处理,如果新格式处理难度较大,也可以提交服务器,由服务器进行处理,并更新格式兼容库。

(2)识别技术:识别技术主要针对的是工程电子文件的内容,其工作有两方面,一个是识别工程电子文件的各种属性,比如时间、大小、授权单位、保密级别、是否可修改等,另外一方面是识别里面的内容,比如字符串、图形,甚至包括内容的颜色,字体大小,格式等。在识别技术方面,主要采用的是施工特征识别,面向的主要是工程图纸的识别,难度在于工程图纸的符号识别。不少工程图纸为更好地显示,采用了彩色顯示,这也增加了识别的复杂性,论文采取背景颜色自动获取的同色块检测法、颜色自动获取的游程长度分析法[9],解决此方面的难题。

(3)转换技术:转换包括同类型转换技术和异类型转换技术。同类型转换技术指的是同类型的文件的转换,比如,有的图片文档是JPEG格式,有的是BMP格式,通过同类型转换技术,转成相同的格式,从而提高阅读效果,减少因为类型差异导致的偏差,也便于比对。异类型转换更多时候是为了提高阅读的效果,比如局部成像技术,将部分图纸转化成预测的图像,从而辨别图纸设计的效果;另外,平面3D技术可以让工程电子文件的阅读效果更好。

随着“一带一路”的全球响应,中国基础建设已经开始走出国门,雅万高铁、中老铁路以及比雷埃夫斯港等一大批互联互通项目开始启动,这些项目中的工程电子文件的数量将更大,负责程度将更高。认真分析工程电子文件的来源和特点,融合成熟的计算机技术,研究工程电子文件的获取模式与处理技术,将促进工程电子文件阅读设备的实效,提高施工效率,减少失误。

参考文献:

[1]付永华.基于电子纸的工程电子文件阅读设备研究与设计[J].档案管理,2014(05):33-35.

[2]刘家真.电子文件的保存、鉴定与存取——澳大利亚电子文件管理策略[J].浙江档案,2000(03):28-29.

[3]李泽锋.档案数字化的电子格式研究[J].档案学研究,2004(05):51-55.

[4]刘诗德,郭黎.电子出版系统的文件交流[J].今日印刷,1998(05):121-123.

[5]梁凯.档案部门应用OFD格式的若干思考[J].浙江档案,2017(01):64.

[6]李泽锋.基于OAIS的数字信息格式管理[J].河南科技学院学报,2011(09):13-16.

[7]电子文件存储与交换格式版式文档(GB/T33190-2016)[S],http://www.sac.gov.cn/

[8]付永华,江源,胡星波.一种面向数字版权保护的EPD电子教材的设计与实现.[J].江西科学,2013(1):117-122.

[9]李洋,张晓冬,鲍远律.基于特征模板匹配识别地图中特殊图标的方法[J].电子测量与仪器学报,2012(07):605-609.

猜你喜欢

处理技术
市政道路施工中软土地基处理技术及其应用
公路施工中软土路基处理技术探究
农村生活污水处理技术进展研究
浅议大数据的产生与发展现状
简析常用园林生态水处理技术
浅析城市生活污水处理技术现状及发展趋势
Java千万级别数据处理与优化
浅谈云计算环境下的大规模图数据处理技术
我国农村生活垃圾处理现状及其发展趋势