一种基于特征的文本零水印算法研究
2019-03-13金真伊李德
金真伊 李德
摘 要:本算法首先对文本进行分词并统计每个词的词频及词性,经过预处理后提取特定的分词序列及对应的词频作为文本特征。同时定义了一种能适用于中英文的基于文本特征的相似度计算方法,用以确定阈值和检测水印。实验结果表明,该算法与同类算法相比具有更强的鲁棒性,并且处理文件不受文本格式及多媒体内容的限制,具有很好的实验效果。
关键词:文本;零水印;相似度
DOI:10.16640/j.cnki.37-1222/t.2019.05.153
0 引言
目前对文本数字水印的研究领域主要集中在文本图像和具有格式的文档水印算法的研究,采用方法大多是改变语义[1-2]或调整格式[3-4]来嵌入水印信息。这些方法有各自的特点,但在水印的容量和鲁棒性上存在明显的不足。由于多数文本水印算法的嵌入信息量不大,还比较容易察觉并且鲁棒性较低;另外,网络上的侵权行为,不仅仅是原方不动的照搬,还包括对原作品的移位变换,同义词替换等方式,传统的版权保护方法[5-6]效果并不理想。
针对传统嵌入式水印不能解决文本的鲁棒性和不可感知性的矛盾,本文采用基于文本特征的文本水印算法来嵌入水印。目前基于特征来实现文本版权保护的方法主要有:通过汉字的特征来构造水印,这种方法可以反映文字的主要信息,但稍对文本进行修改就会影响水印;与自然语言相结合的方法进行水印的嵌入,鲁棒性还有待改进;使用编辑距离的方法计算相似度实现水印的嵌入,算法的鲁棒性还不够理想;本文在已有算法的基础上,采用零水印技术,利用文本特征实现水印的嵌入,并且提出一种基于文本特征的相似度计算方法,用于阈值的确定及水印的嵌入。
1 水印的嵌入和提取方法
1.1 水印嵌入算法
(1) 对文字信息进行预处理和分词处理,并形成有效的特征信息;
(2)在文本中去除无用信息并统计计算词频信息;
(3)计算特征词相似度以及词频距离相似度,并为两种相似度分配一定的权重;
(4)根据相似度判断文章的注册与否;
(5)为避免重构水印攻击,引入时间戳机制。
1.2 水印检测算法
(1)对文本进行预处理和分词、降维处理;
(2)计算文本的特征值和特征词频;
(3)根据特征相似度和词频相似度,最终确定文章的相似度;
(4)匹配相似度值,如果不匹配,不允许注册;
(5)作者可以根据自己的基本信息及密钥信息,取得自己的水印信息,证明版权归属。
2 实验结果及分析
本算法定义了一种能适用于中英文的基于文本特征的相似度计算方法,实验中随机选取40篇文本进行相似度计算和匹配。计算和匹配结果表明,唯一性检测中最大相似度低于0.4,反复实验过程中为了提高检测效率,将阈值增加到0.7。
本算法对字体和段落的调整、格式的转换以及不敏感内容的删除等操作,具有一定的稳健性。说明该算法具有良好的抗攻击能力。实验结果中可以看出本文算法与同类算法相比在部分攻击上具有一定的优势。
3 结论
本算法为了解决现有文本水印算法鲁棒性低等问题,提出一种新的基于文本特征信息的相似度计算方法。本方法的目标是对要注册版权的文本进行版权验证,不允许有版权的作品进行注册保护,将词性频率作为文本特征进行相似度计算,可以有效的抵抗各种攻击。实验结果表明本方法较好的解决了水印透明性与鲁棒性之间的矛盾,与同类算法相比在鲁棒性上具有明显的优势。
参考文献:
[1]M.J.ATALLAH,V.M.RASKINCROGAN.Natural language watermarking: Design,analysis,and a proof-of-concept implementation.Proceedings of the 4th International Workshop on Information Hiding.2001,7(02):185-199.
[2]M.J.ATALLAH,C.J.MCDONOUGH,V.RASKIN.An overview and implementations.Proceedings of the 2000 Workshop on New Security Paradigms.2000,86(03):51-65.
[3]J.BRASSIL,S.LOW,F.MAXEMCHUKN.Copyright protection for the electronic distribution of text documents.Proceedings of the IEEE.1999,89(07):1181-1196.
[4]J.BRASSIL,S.LOW,F.MAXEMCHUKN.Electronic marking and identification techniques to discourage document copying. IEEE Journal on Selected Areas in Communications.1995, 13(08):1495-1504.
[5]Y.Z.Cheng,J.Zhang.An algorithm for the illegal copying detection of digital documents.Proceedings of the IEEE International Conference on NLP-KE.2005,16(08):384-387.
[6]X.M.Sun,G.Luo.Component-based digital watermarking of Chinese texts.Proceedings of the Third International Conference on Information Security.2004,18(09):76-81.
*為通讯作者