基于迁移学习的一种可见数字水印分类方法
2023-03-27许宪东
许宪东
(黑龙江工程学院 计算机科学与技术学院,哈尔滨 150001)
目前,人们越来越多地将自己的数字作品发布到互联网。无论是企业还是个人,其发布数字作品的版权保护问题需要被重视。对于多媒体数字作品的保护,可以采用加密等方法,但是这又不利于数字作品被更多人所获取。数字水印技术是解决多媒体作品版权保护的一种关键技术。
数字水印主要包括可见水印和不可见水印等。其中,可见水印可以较好地适用于大规模多媒体作品的版权保护,人们可以通过可见水印清晰地了解多媒体作品的版权所属。另一方面,为了不影响多媒体作品的效果,可见水印一般具有一定的透明度,其所占需保护数字作品的区域大小也可能变化较大,这些都造成了对于可见数字水印检测的难点。
1 相关工作
近年来,随着深度学习技术的不断发展,人们开始尝试将深度学习技术应用于数字水印[1-4]。基于深度学习的分类和检测目前取得了一定的进展,目前研究人员开始逐步利用深度学习技术,实现水印的嵌入与检测[1-3],出现了基于卷积神经网络的数字水印方法、基于生成对抗网络的数字水印方法,在水印检测和嵌入的网络模型,误差函数及水印的生成等诸多领域取得了一定的进步[5-8]。由于可见水印可被大规模地应用到商标保护等诸多领域,大量不同类别、不同大小、不同位置甚至形态各异的的水印可以被添加到大量的载体图像中,因此可见数字水印的分类和检测是个难点[9]。
2 基于迁移学习的可见数字水印分类方法
在只有少量样本的情况下,本文实现了水印的检测。目标是通过数据增强、迁移学习等方法提高分类的准确性。
2.1 数字水印数据集的建立
由于目前公开的数据集还较少,尤其是相关特定任务更是如此。由于难以获得大量的样本数据来完成训练等任务。针对这一特点,本文通过采用数据增强来获得更多的样本数据。
本文选择了商标数据集[10]和室内数据集[11]来生成添加商标水印的数据集。为了更好地提高检测的准确性,应对样本数量过少的问题,通过数据增强方法对数字水印进行了处理,并通过调整参数生成了不同透明度的水印。本文在商标数据集[10]中取少量样本作为水印图像,生成的部分水印如图1 所示。
图1 部分水印样本
2.2 基于迁移学习的可见水印分类
尽管应用了数据增强方法,但为了满足实际应用,样本数量仍然有限。可能存在过拟合和泛化能力差的问题。因此,通过预先在较大数据集上进行训练的网络模型,通过迁移学习实现分类是一个较好的选择。
迁移学习的原理[12]
式中:DS是源域,一般具有大量训练样本数据,Dt是目标域。迁移学习的目的是从源域和学习任务TS获得知识,从而提高目标域中预测函数的准确率。
本文所用迁移方法是微调方法,其被分为2 步。首先,通过大量源域训练样本来训练网络模型,再在较少样本上进行微调实现。如图2 所示,是一个用于分类的神经网络微调方法,通过对卷积神经网络进行预训练和微调实现。
图2 模型微调框图
3 实验与结果分析
3.1 数据集
基于上述水印和室内数据集,以室内数据集[11]为宿主图像,制作了包含水印的样本数据集。图3 是部分添加水印后的样本数据。
图3 添加水印后的部分样本数据
3.2 神经网络的建立
所建立的神经网络模型如图4 所示。
图4 神经网络模型
这里采用预训练的VGG16 模型。
3.3 分类
通过冻结预训练模型的部分卷积层,并训练所添加的卷积层和全连接层。通过微调方法完成分类。实验结果如图5、图6 所示。
由图5、图6 可以发现训练逐渐收敛。这里每个类的训练集和验证集的样本数量分别为42 和14。通过这种微调方法,可以利用大量样本数据训练得到预训练模型,这种模型具有较好的特征提取能力,同时,其可以通过模型微调来更好地适应新的分类任务。
图5 训练误差和验证误差
图6 训练精度和验证精度
由上文可知,可以通过迁移学习有效的实现分类,获取图片包含的水印类别,即使包含的水印对象较小且透明度较高,也能较好地实现分类。在获取类别后,可以进一步采用滑动窗口、选择性搜索等方法实现水印目标检测。
4 结束语
本文提出了一种基于迁移学习的可见水印分类方法,其包含了数据增强和迁移学习两部分,这种方法只需要少量的水印样本,适合于特定的难以获得大量样本的情况。