APP下载

数字水印在文档图像中的应用研究

2011-10-27乔新军兰州女子中专甘肃省730020

中国科技信息 2011年23期
关键词:二值数字水印拐点

乔新军 兰州女子中专,甘肃省 730020

数字水印在文档图像中的应用研究

乔新军 兰州女子中专,甘肃省 730020

在分析二值图像文档水印技术研究动态的基础上,通过对汉字特点的分析,发现横、竖笔画频繁交汇出现-拐点。基于此,提出一种新的应用于汉字文本图像的简便水印方法:在汉字笔画横竖交叉的拐点处加入水印,并利用MatLab进行仿真实验,讨论和分析了这一算法较传统的完全基于格式的文本数字水印的优点。

数字水印;文档图像;拐点;笔画

背景

随着计算机、打印机和扫描仪等设备的应用和普及,书刊、杂志和报纸的网上发行和其他一些专用文档的网上传输已成为现实并继续高速发展。数字图书馆和档案馆以电子形式保存了大量受版权保护的文章、杂志、书籍以及其他资料如商业文件、电子档案、法律证据、传真文档、证书等。所有这些数字资料很多以二值图像形式出现。二值图像以其占用空间小、符合人类阅读习惯等特点在网络出版业、企业、法庭案馆等领域得到广泛应用。与其他形式的多媒体信息一样,其版权保护也是一个非常重要的问题。

本文结合汉字结构特点,针对二值文本图像设计了一种新的汉字文本水印算法。在对数字水印技术包括起源、定义、分类及鲁棒水印和脆弱水印在应用中用于版权保护和内容认证存在的基本问题,对文本图像的概念、分类、框架以及评价准则进行研究的基础上;提出了一种在二值汉字文本图像中嵌入信息的水印算法,算法根据汉字结构特点,即使用频率最多的横、竖在汉字中广泛汇交出现的拐点,嵌入水印信息,构成水印化文本图像。

1.一种基于汉字笔画结构的水印算法

1.1 汉字的结构特点

每种文字在结构上都有其独特之处,如阿拉伯文中有较多的“点”、英文有明显的质心等,汉字同样也有自己显著的特征。

由于汉字是一种颇具特色的文字,其结构独特、字体多样。因此,中文文本比西文文本可插入标记的可辨认空间大,实施文本水印有更大的优势。研究中文文本的数字水印,应在西文文本的基础上,结合中文文本的特点进行研究。

我国汉字是象形字,是一种图,是由“原始图画→不规则图形线条→ 横、竖、撇、捺、折五种规范的笔画”演化而来。

图1 汉字的重复性很大

我国1980年颁布了的《信息交换用汉字编码字符集-基本集》中包括常用简体中文汉字6763个(其中一级汉字3775个,二级汉字3008个),约占汉字累计使用频度的99.99%,即在日常生活和工作中所使用或遇到的汉字出现在该字符集中,如图1所示。

笔画是汉字最小的结构单位,笔画的书写形状叫做笔形。通行的分类方法是把汉字的笔形分为“横、竖、撇、捺、折”五个大类,这种分类方法将“提”归入“横”,“竖钩”归入“竖(丨)”,“点”归入“捺”等。中国文字改革委员会和武汉大学计算机科学系合作对《辞海》(1979年版)所收正体字(11834字)的笔形进行统计,如表1。

表1 汉字笔画使用频率统计

可知其中出现次数最多的是“横”和“竖”两画,使用频率最高的是“横”(包括“提”),占30.30%;“竖”、“撇”和“折”的使用频率大体接近:“竖”占19.30%的频率、“撇”占15.74%的频率、“折”占17.95%的频率;频率最低的笔画是“捺”,它和“点”共占16.64%的频率。

五笔编码正是依据汉字的这些特点形成的,如图2五笔字根表。

由图2可知,“横”、“竖”两画往往相互交汇形成十字交叉结构(特别是130个成字字根),如图3。

据统计,这种十字交叉结构大量存在于汉字文档中,见表2。

1.2 基于汉字笔画的水印技术

基于汉字笔画的水印技术主要是针对汉字文本变换成图像格式而提出的一种水印化方法。汉字的基本笔画包括横、竖、撇、捺、折及标点符号等,这些是组成汉字的基本笔画。在对汉字的修改中,考虑汉字中的横、竖、撇、捺、折的基本特征,对最普遍的笔画撇、捺、点等进行修改,修改选取在黑色像素区域的45°或135°方向,由于人眼对这些方向的视觉不太敏感,故选择一些汉字文本像素上的特征变化来嵌入水印信息。

对于二值图像而言,隐藏信息的一个关键问题如何找到合适的嵌入位置,同时不影响图像的视觉效果。根据汉字在结构和笔画特点,提出一种新的汉字文档图像数字水印算法:基于汉字拐点的水印算法,该算法以汉字横、竖画交叉点旁的四个相邻拐点为水印嵌入位置,实现对汉字文档图像加入水印,并对其的鲁棒性进行了测试和分析。

表2 随机抽取的6幅二值汉字图像中“十”字结构的数量

1.3 嵌入水印的预处理

本文使用的文档图像是二值图像。获取原始的文档图像是本文算法的第一步。通常采用光学的办法(CCD摄像机,光学扫描仪等),得到的图像是字符的像素描述。像素描述的重要参数是分辨率,分辨率包括空间(二维平面)分辨率和灰度分辨率,前者反映了像素描述在空间上的精细程度,而后者则反映了像素描述在灰度(色彩)空间的精细程度。由于空间分辨率的高低对字符质量影响较大,因此要认真选择。一般扫描后得到的文本图像不适合直接提取信息,之前需要进行一些预处理。预处理的主要包括去除椒盐噪声、倾斜校正、二值化等。

1.4 基于汉字拐点的水印算法

我们称位于“十”结构交汇点四个拐角的内部点为拐点,如图4所示。由图2可知,其中以Ⅲ象限拐点居多。

图4 不同位置的拐点

设横画和竖画交叉点在Matlab像素坐标系下的坐标为(r,c),则以下4种十字交叉结构的拐点坐标分别(r-1,c+1)、(r-1,c-1)、(r+1.c+1)和(r+1,c-1)。

图2 五笔字根表

图3 横和竖画交汇成“十“字结构

这样我们就利用汉字文档图像中的拐点对JPEG压缩具有强鲁棒性的特点,把一幅二值文档图像的所有Ⅲ象限拐点作为水印空间,根据二值图像失真度标准DRDM改变部分拐点的像素值,达到嵌入水印信息的目的。

1.5 仿真结果分析

通常情况下,传输过程对文本的攻击与图像受到的攻击不同,图像可能遭受JPEG压缩、平滑、滤波等攻击,而文本攻击则可能有轻微的文字移动,标点符号修改,不影响文本语义的痕迹污染等方面。对上述各种可能的情况进行模拟实验,并通过提取水印和相关性度量。发现嵌入水印后,文本图像的视觉质量略有下降,但难以察觉,只有当文件放大后, 如“于”字, 才能发现其中的微小差别,一般情况下,文件非法盗用者不可能发现整篇文本的水印所在处,说明水印算法具有可行性。

通过MatLab仿真实验分析和验证拐点对JPEG压缩的鲁棒性,仿真实验的分析结果表明该水印算法对JPEG压缩、高斯噪音攻击和椒盐噪音攻击具有较好的鲁棒性。但这种二值汉字文本水印方案也存在许多需要进一步改进的地方。首先这种水印方案主要针对印刷体的汉字文本图像,其次对不同字体和不同字号的汉字需要分别使用不同的模板来确定特征点或笔画的端点,第三还不能完全实现水印信息的盲检测。

2.结语

二值图像占用空间少、符合人类阅读习惯等特点决定了二值图像无论是在过去、现在还是将来都将会在相关领域得到广泛应用,因此,在二值图像中嵌入水印信息是一个具有挑战性的研究领域,针对二值文档图像的数字水印研究具有重要的应用价值和理论意义。

可以预见期刊的网络发行将会是一个主要趋势。期刊的网络发行大大提高了生产和流通速度,降低了出版成本,发行的范围更广,覆盖面更宽。随着互联网的发展,政府文件的分发将逐渐转向网络,还有政府上网工程中将有更多的文件出现在网上,一旦出现恶意篡改,而无法证明真伪,后果是无法设想的。对于电子商务中的一些经济合同文本等也存在着这些问题。因此,研究数字文本的保护方法对互联网时代的政府工作和电子商务具有重要作用。

[1]王丽娜,张焕国.信息隐藏技术与应用.湖北:武汉大学出版社,2003,25-32

[2]尹浩,林闯,邱锋,等.数字水印技术综述[J].计算机研究与发展,2005,42(7):1093-109

[3]张勇,等数字水印技术及发展.南京:南京解放军理工大学学报,2003:4(3)

[4]Su J K, Hartung F, Girod B.Digital watermarking of text, image and video documents.Computer and Graphics, 1998;22:687?695

[5]刘瑞祯,谭铁牛.数字图像水印研究综述.通信学报,2000,21(8):46-52

[6]孙圣和,陆哲明,牛夏牧.数字水印技术及应用[M].北京:科学出版社, 2004

[7] Brassil J T, Low S, Maxemchuk N F.Copyright proceeding for the electronic distribution of text document.Proceedings of IEEE, 1999;11(12):1181-1196

[8]李刚,杨杰.一种基于二值印刷图像的数字水印方案.上海交通大学学报,2005 ,39(4):570-573

10.3969/j.issn.1001-8972.2011.23.044

乔新军,1980年5月生,男,汉,甘肃榆中人,硕士,研究方向:数字水印。

猜你喜欢

二值数字水印拐点
基于遗传优化的自然语言文本数字水印方法
秦国的“拐点”
基于网屏编码的数字水印技术
中国充电桩行业:拐点已至,何去何从?
恢复高考:时代的拐点
面向网络边缘应用的新一代神经网络
基于二值图像数字水印算法研究
基于稀疏表示的二值图像超分辨率重建算法
《廉洁拐点》
基于曲率局部二值模式的深度图像手势特征提取