基于图像识别的网络数据单向传输系统研究和实现
2012-07-25黄金虎
黄金虎
0 引言
在早些时候,由于网络安全防护技术不能满足要求,人们在建设网络时候,要求涉密网络必须与其他网络物理隔离。在国外,美国、以色列和俄罗斯等国家很早就规定涉密网络要采用物理隔离。我国《计算机信息系统国际联网保密管理规定》也规定,“涉及国家秘密的计算机信息系统,不得直接或间接地与国际互联网或其他公共信息网络相连接,必须实行物理隔离”[1]。
随着网络应用在各行各业的不断发展,用户对网络数据交换提出了更高的要求。要求能够在网络物理隔离的基础上,实现数据的安全交换。例如,公安、电力、铁道、金融、银行、证券、保险、税务、海关、水利、交通、民航、社保、石化等行业部门,必然要求在自己的内部业务网络与其他应用网络进行数据交换。此时,如果采用传统的文件拷贝、刻录光盘等手段,一是保密性差,容易出现失、泄密事件。二是效率低,难以满足数据实时性的要求。三是防护性差,可能受病毒感染破坏。为了满足各种应用需求,人们要求能够在网络物理隔离的条件下,实现安全的数据交换,从而将完全的网络物理隔离延伸成满足适度信息交换要求的隔离。一些密级更高的网络,甚至要求能够实现网络数据的单向传输,即数据只能流进,不能流出。
1 当前常用的网络数据单向传输解决方案
为了控制网络数据的流向,满足适度信息交换的隔离需求,人们先后提出了一系列网络隔离技术,用于解决网络数据单向传输问题。当前常用的解决方案主要有以下几种。
1.1 基于协议隔离的网络数据单向传输
协议隔离通常指两个网络之间存在着直接的物理连接,但通过专用(或私有)协议来连接两个网络。基于协议隔离的安全隔离系统实际上是两台主机的结合体,在网络中充当网关的作用。隔离系统中两台主机之间的连接或利用网络,或利用串口、并口,还可利用USB接口等,并绑定专用协议。这些绑定专用协议的连接,被称为安全通道。通过绑定专用协议,即可控制网络数据的传输[2]。
但是,此类隔离系统的双主机之间仍是通过数据包来转发的,无论双主机之间采用多么严格的安全检查,只要有的包转发,就可能存在基于包的安全漏洞,就存在对包的攻击方法。此外,通信两端的机器在链路层上是互通的,许多链路层协议如PPP和SLIP协议等都可以穿过隔离。因而,基于协议隔离的安全隔离系统在逻辑上是不隔离的,在一定程度上存在着安全隐患。
此类技术的典型应用主要有物理隔离网关等。
1.2 基于物理隔离、逻辑连接的网络数据单向传输
此类技术被称之为物理隔离网闸技术,主要采取分时复用的原理,实现网络数据单向传输,在工作时间内、外网络在物理上处于断开状态,但在逻辑上处于相联结状态。
物理隔离网闸,也称为网闸,最早出现在美国、俄罗斯、以色列等国家的军方,用以解决涉密网络与公共网络连接时的安全。其工作基本原理是:切断网络之间的通用协议连接;将数据包进行分解或重组为静态数据;对静态数据进行安全审查,包括网络协议检查和代码扫描等;确认后的安全数据流入内部单元;内部用户通过严格的身份认证机制获取所需数据。
网闸一般由3部分构成:内网处理单元、外网处理单元和专用隔离硬件交换单元[3]。内网处理单元连接内部网,外网处理单元连接外部网,专用隔离硬件交换单元,在任一时刻点仅连接内网处理单元或外网处理单元,与两者间的连接,受硬件电路控制高速切换。这种独特设计保证了专用隔离硬件交换单元在任一时刻仅连通内部网或者外部网,既满足了内部网与外部网网络物理隔离的要求,又能实现数据的动态交换。系统内置嵌入了协议分析引擎、内容安全引擎和病毒查杀引擎等多种安全机制,可以根据用户需求实现复杂的安全策略。
上述的几种网络单向传输技术,仅能在一定程度上,满足人们适度信息交换中的网络隔离要求,不能达到在网络完全物理隔离中,进行网络数据单向传输的要求,不能应用在对保密需求较高的网络。例如网闸,虽然能够在一定程度上实现数据单向传输,但其实质是一种分时复用技术的利用,仍不能做到完全的物理隔离。国家保密局就规定网闸只能用于以下4种场合:(1)不同涉密网络之间;(2)同一涉密网络的不同安全域之间;(3)与互联网物理隔离的网络与秘密级网络之间;(4)未与涉密网络连接的网络与互联网络之间。
2 基于图像识别技术的网络数据单向传输系统
为了解决网络数据单向传输问题,满足既能实现完全物理隔离、又能满足数据单向传输的需要,我们在受到数字扫描仪对扫描图像进行OCR识别启发的基础上,将图像识别技术与网络传输技术相结合,研发出基于图像识别的网络数据单向传输系统。该系统能够实现“真正物理隔离”的网络数据单向传输,具有较好的推广应用前景。
2.1 实现原理
基于图像识别的网络数据单向传输系统结构,如图1所示:
图1 基于图像识别的网络数据单向传输系统结构图
在大部分信息系统中,业务操作的变化,归根到底都将反应到数据库中各类数据的变化。根据这一原理,可事先对外网的信息系统进行数据分析,并在内网建立与之相应的数据库。分析外网数据库完毕后,在外网系统应用终端中安装控制程序,用于定时读取所需数据的变化并显示在屏幕上。同时,在内网架设高分辨率、高速率的摄像机,对外网终端屏幕显示的内容进行摄像,并进行图像识别,而后将识别结果传送回内网数据库服务器。采用这种数据同步方式,内网数据库服务器最终将与外网信息系统的数据库服务器实现同步。内网数据库服务器得到更新后,即可根据需求进行相关的业务应用。
系统工作流程,如图2所示:
图2 基于图像识别的网络数据单向传输系统工作流程图
外网显示接口程序:主要用于对外网数据进行解析,并将解析结果按照系统规则协议进行显示。
数据采集程序:主要用于控制摄像设备对外网显示接口程序所显示的内容进行摄像,并将结果以图像的形式传回内网。
数据解析程序:主要任务是按照系统所制定的规则协议,对所采集到的图像进行识别,将图像上存储的信息还原为初始的数据。
数据入库程序:主要负责将解析到的各类数据存储到内容的应用数据库中,供业务软件调阅使用。
2.2 系统实现
基于图像识别的网络数据单向传输系统,其关键是选择用于摄取图像的摄像机,核心是对获取的图像进行数据识别还原。
通常,信息系统数据变化频率较快,尤其是实时性强的信息系统,如GPS定位监控系统等,数据在2-3秒内就发生变化。此外,系统要对图像进行数据识别还原,对所拍摄图像的分辨率、精度、清晰度、色彩等方面都具有较好的要求。我们采用了维视数字图像技术公司生产的MV-300UC工业数字相机,该相机具有高分辨率、高精度、高清晰度、色彩还原好、低噪声等特点,而且具有可编程控制、曝光时间可控、连续拍摄时间间隔短等特性,能够很好地满足系统的要求。
对图像进行准确高效的数据识别还原是系统实现的关键。目前,OCR图像文字识别技术大部分用于普通的文字识别,对图像本身要求较高,要求图像必须清晰,不能存在倾斜和模糊等问题。而且出于商业保护的原因,厂商一直没有公开OCR算法文字扫描,用户不能对图像识别过程进行编程控制。为此,我们采用VC编程语言,针对系统特点要求,自主研发了图像文字的识别技术。
系统实现过程,如图3所示:
图3 基于图像识别的网络数据单向传输系统实现过程图
在实现过程中,系统重点解决了以下几个关键性技术难点:
(1)制定专用协议规则,定时读取显示外网信息系统数据库的数据变化。在解析完外网系统数据库的基础上,定制编写外网显示接口程序安装在外网业务终端,用于定时读取外网信息系统数据库的数据变化,并按照事先制定的协议规则进行组合显示。为便于后期的数据识别,可将分析读取到的数据信息转化为Unicode编码,以一定的间隔显示在外网业务终端屏幕上。
(2)实现内网图像数据识别入库与外网数据显示变化之间的联动。在系统运行过程中,摄像机处于不间断拍摄的过程中,可能对同一数据图像进行多次拍摄。如果对摄像机拍摄的每张图像都进行数据识别入库,会产生数据重复冗余,引起数据库出错,同时也会在很大程度上降低系统的性能。必须制定一个通信规则,告知内网的数据解析程序,何时对获取到的图像进行识别入库,从而实现内网图像数据识别入库与外网数据显示变化之间的实时联动。
我们采用了用颜色色块控制摄像机工作的方法,实现内外网之间的联动。利用外网显示接口程序在生成的数据图像上显示红绿两个色块。绿色色块表明当前屏幕上显示的图像是最新数据,系统必须处于识别的工作状态,对该图像进行识别入库。红色色块表明当前没有最新数据产生,系统应当处于等待的工作状态。通过这一方法,系统实现了内外网之间的实时通信。利用颜色色块控制摄像机工作的帧切换周期,如图4所示:
图4 利用颜色色块控制摄像机工作的帧切换周期示意图
(3)控制内网摄像机实现不间断摄取图像。系统采用的摄像机具有可编程控制特点,对内网摄像机的控制可结合摄像机生产厂家所提供的SDK软件开发工具包来实现。
(4)对内网获取的图像进行有效的图像处理。为了图像数据识别准确率,必须对内网所获取的图像进行一系列预处理。系统采用了高斯滤波,中值滤波,均值滤波,直方图均衡等复杂算法[4],对图像进行了去噪、角度调整,灰度化、二值化、紧缩重排等预处理,并按照统一标准的尺寸对图像进行了分割[5]。经过这些预处理工作,图像识别准确率得到了大幅度提高。为了提高系统运行速度,这些预处理工作可在计算机内存中进行。
(5)对经过预处理的图像进行数据识别还原及入库。为便于数据识别,系统结合Unicode编码建立字符特征库,该库包括了汉字,英文字母,数字,标点符号等字符。在数据识别时,通过图像处理技术从图像中提取出单个图形字符,并与字符特征库的字符进行匹配,获取图形字符所代表的字符。重复这一过程,直至对整个图像进行识别。完成对整个图像的识别后,将所有识别到的字符根据事先制定的协议规则进行组合,还原成与外网终端相一致的数据,写入内网数据库供其他业务处理调用。为最大限度提高数据识别准确率,系统还实现了识别纠错功能,对容易识别出错的字符建立数据库进行管理。在识别过程中,一旦遇到容易识别出错的字符,立即启动相应的纠错处理模块。
除上述关键性技术难点,内网摄像机所处周边环境,也会对数据识别效果产生一定的影响,系统在实现过程中,较好地处理了摄像机周边环境光线亮度、终端显示器反光特性等自然因素对数据识别的影响。
2.3 应用效果
基于图像识别的网络数据单向传输系统现已投入实际应用,主要用于在内外网之间传输经纬度、航速、航向等各类地理信息、气象部门监测的天气预报,以及水利部门监测到的雨情、水情等数据。此外,还用于向内网传输通过移动电话报送的手机短信。由于系统设计较为先进,同时采用了以下措施:(1)在对图像识别之前对数据进行了预处理,通过编写外网显示接口程序将分析读取到的数据信息转化为Unicode编码;(2)建立了容易识别错误的字符库,增加了纠错功能,目前系统的数据识别准确率超过了90%,最高可达到99%,且识别终端屏幕满屏信息时间只需2-3秒。
3 结束语
本文所提出并实现的基于图像识别的网络数据单向传输系统,数据识别准确率高,传输速率快,能够在很大程度上满足网络数据单向传输的需要。与当前现有的几种网络数据单向传输技术相比较,该系统具有两大优点:一是能够在完全物理隔离的基础上实现数据单向传输,适用于任何保密需求的数据交换。二是实现简单,所需设备少。系统的硬件设备只有一台摄像机,对其他硬件没有特殊要求。
在当前社会各个领域对信息安全保密高度重视的情况下,该系统具有很好的推广应用前景。
[1]国家保密局.《计算机信息系统国际联网保密管理规定》[Z].2000-01-01
[2]李正茂.网络隔离理论与关键技术研究[D].同济大学,2006.
[3]许云明,李春生.物理隔离网闸原理及应用[J].计算机安全,2005,(12):23-26
[4]朱志刚,林学訚,石定机.数字图像处理[M].北京:电子工业出版社,2002
[5]贾云得.机器视觉[M].北京:科学出版社,2003