基于图像检索分析的文件拷贝检测系统
2019-01-07李韬王红涛王富强赵静冯连强
李韬,王红涛,王富强,赵静,冯连强
(中国重型机械研究院股份公司, 陕西 西安 710032)
0 前言
近年来因为信息泄密而造成的一些公司权益受到侵害的情况屡见不鲜,而公司中往往需要频繁的拷贝文件,这在很大程度上增加信息泄露的可能。为避免内部信息泄露事件,对于一个公司来说很需要有一个文件拷贝检测系统。
一般的拷贝文件,操作人员需要按照清单一个个对比文件内容来甄别违规文件,对于一个或两个简单的图纸文件,这种传统的文件检查高效又准确;而当文件过多或者有复杂的图纸文件时,传统的人工文件检查方法就显得执行速度比较慢,并且操作人员容易出现检查失误。将拷贝文件中的文件检查工作交由计算机来处理,将极大提高工作效率及准确性。
本文采用图像检索分析的方法对拷贝文件进行检测,这种方法快捷、准确,自适应地应对各种类型的文件。减少了拷贝过程中消耗的时间,提高了甄别违规文件的准确性,在很大程度上杜绝了拷贝过程中的信息泄露。
1 图像检索分析方法概述
目前对于文件拷贝时文件的检查分析并没有统一有效的方法,图像作为信息的主要载体之一在项目设计中更具直观性,它包含的信息数据较之文本的信息数据更难被检查分析。
本系统采用图像检索分析方法检查分析文件,这种图像检索方法将拷贝文件分为通用的图像类型文件、文档文件和CAD图纸文件,分别采用不同的方式进行分析,如图1所示。对于通用的图像类型文件,只需要将图像文件直接显示;对于文档文件,文件中可能包含了很多图纸图像,需要先将文件中所有的图像检索出来,再将图像依次显示在交互界面;CAD文件不仅需要将图纸显示在交互界面,还需要对图纸内部的信息进行分析,例如一个图纸文件包含几个图纸,图纸的类型等信息都需要确认。
图1 图像检索分析方法过程图
2 文件拷贝检测系统需求分析
需求分析是建立新系统的关键环节,它可以帮助确定系统的需求,描述系统的目的和功能。本系统需求分析阶段的主要工作是根据系统初始要求以及用户咨询意见确定系统具体要实现的功能模块。
本系统实现的初始目标为:
(1)针对AutoCAD软件产生的DWG文件,能够判断是否包含多个图纸文件及图幅大小;
(2)针对JPG等图像文件,能够产生缩略图,给用户提供判断依据;
(3)针对DOC、EXCEL文件,能够提取文件中的图片,并展示给用户;
(4)针对PDF文件,可以判断文件包含的页数,并展现每一页给用户以作为判断依据。
通过详细分析文件拷贝检测系统的初始目标,可将系统的需求分析划分为:信息需求分析、功能需求分析和方法需求分析。信息需求分析指分析系统中的输入数据和输出数据,包含用户的信息数据、拷贝文件的类型数据、拷贝文件的检测分析结果信息数据等。信息需求分析阶段对于一个系统的建立很重要,需求分析人员分析信息需求可以帮助系统设计人员更好地设计出系统的整体框架和功能模块。信息需求分析阶段需要对系统的输入数据进行采集,需要采集管理员的用户信息以及不同用户可能在系统中需要的信息类别数据和拷贝文件涉及到的文件类型数据,然后进行分析归纳出完整的输入数据。对于搜集和整理过的输入数据需要通过一些方法,例如:过程控制方法、信息交互验证方法和数据应答方法等,处理得到输出数据,输出数据包含信息修改结果数据、拷贝文件的检测分析结果信息数据等。
系统的功能需求分析基于系统的初始目标以及信息需求分析,主要包括用户验证、操作交互、基于图像检索分析方法的文件分析、文件拷贝、异常事件的诊断处理、操作记录、信息修改以及系统可视化界面构建等,同时需要根据实际情况添加辅助处理功能。
方法需求分析主要包括界面搭建方法、框架设计方法和数据采集整理方法等。系统基于C#编程语言进行界面设计搭建,以Windows应用程序界面的形式与用户进行交互;系统使用MySQL数据库对系统涉及的数据进行管理,其中借助ODBC驱动实现系统对MySQL数据库的操作;对系统执行过程中产生的异常事件采用自动诊断方式;对于多文件检测分析根据不同文件对应的检测方式处理,然后将所有的检测分析结果统一输出。
3 文件拷贝检测系统的设计方案
本系统是一个Windows应用程序,系统的整体结构框图如图2所示。系统用户登录验证功能和用户操作界面,为了方便管理系统的数据信息,将用户分为普通用户和管理员。普通用户在拷贝文件外还可以查看个人信息和修改密码,管理员相比普通用户可以操作用户信息和文件拷贝记录信息。
图2 系统的整体结构框图
系统基于图像检索分析的方法设计,在拷贝文件前先将要拷贝的文件进行检索和分析。在文件的分析过程中采取图1所示的图像检索分析方法,对通用的图像格式文件直接进行界面上的交互预览;对文档类型文件需要先检索出文件包含的所有图像,然后再进行交互预览;对CAD图纸文件在进行交互预览的同时,还要深度分析图纸的组成,提取图纸的规格等信息。
系统中大量涉及到数据的处理,系统通过图3所示的过程完成与MySQL数据库的交互。系统涉及到的信息通过MySQL数据库存储,借助ODBC驱动程序将信息的请求控制消息传递给MySQL数据库,然后再由传递过程返还相应信息到系统。
图3 系统和数据库交互过程图
4 文件拷贝检测系统的实现与应用效果分析
本文提出的文件拷贝检测系统以某公司为应用背景,通过搜集文件的信息数据来开发系统。基于公司的实际情况调研,设计出系统的整体设计框架,每个用户都需要交互验证成功才能登录,普通用户和管理员可以使用不同的系统功能来完成相应的工作。操作人员通过与系统完成信息修改查验和文件检索分析,系统后台通过ODBC驱动程序过程控制对数据库中信息进行控制。由于运行过程复杂,数据处理上与界面刷新存在相应延迟,系统采用完成等待的方法来达到时间上的一致,在数据处理和界面刷新的同时,系统在可视化界面使用遮挡防止人员操作直至控制结束。
系统在实现过程中要充分考虑到系统的可维护性和可修改性,便于后期扩充维护,同时还要考虑可视化界面的人性化,在系统初步设计的基础上将这些因素考虑进去,并且对系统反复测试维护。
在系统的测试阶段先将测试条件按照功能模块进行分类归纳,逐条反复进行测试,同时还要考虑测试条件的交叉干扰情况。在系统的测试中软件的任务目标和性能指标都符合预期设计。通过系统测试发现,基于图像检索分析的文件拷贝检测系统对于CAD图纸文件的分析判定更有优势,通过严格分析图纸的内部组成,精准地给出判定结果。经由长时间的测试评估,确定系统测试运行结果良好,满足使用需求。
本系统的上线投入运行结果显示,该系统可预览和检测各种涉及到图像的文件,并记录下拷贝记录,方便用户在拷贝文件前检查文件及后期的查责,将公司图形信息泄露的可能性降至最低,充分保证公司图形信息的安全保密,并配合后期图形加密技术的应用,将建立了一套事前防护、事中控制、事后追查的完整防护体系,防止了核心数据外泄。