PDF中隐私数据的保护方法
2017-06-20程旋何成万
程旋+何成万
摘要:PDF是一种可移植文档,具有许多优点。随着PDF应用的普及,PDF中隐私数据的保护也变得非常重要。针对PDF表单文本字段提出了数据加解密方法。基于Acrobat工具,结合Javascript事件,调用加解密方法,实现加解密。对用户在表单文本字段中的数据自动加解密,顺应用户操作习惯,在用户保存时实施加密。为了方便用户修改,在保存后对加密数据解密显示,保证文件上的字段隐私数据明文不会保存在磁盘文件中。这种加密方式,可以在不改变加密文件格式的情况下有效防止文件被拷贝窃密。
关键词:PDF;隐藏字段;加解密
中图分类号:TP309
文献标识码:A
文章编号:16727800(2017)004019403
0引言
PDF文档格式与操作系统无关,是一种可移植文档,支持超链接、交互表单等功能[1]。这些特性使PDF文档格式成为当今的主流格式。PDF应用越来越广,文档隐私数据信息保护需求也愈发强烈。 隐私数据是数据所有者不愿意披露的敏感信息,通常所说的隐私都指敏感数据,如个人薪资、病人患病记录、公司财务信息等。不同的数据以及数据所有者,隐私的定义会有差别。例如保守的病人会视疾病信息为隐私, 而开放的病人却不视之为隐私[2]。对于隐私数据的保护有很多方法,如数据替换、数据加密等。 本文对PDF隐私保护方法进行研究,对PDF表单文本数据字段进行加解密,其加密算法不局限于PDF内置的加密算法,并且将加密的时机选择在用户编辑过程中,用户点击保存就可实现表单文本字段数据的加密。在隐藏字段实现加解密,用户感觉不到变化就可完成整个加解密过程。
1相关研究
传统的信息安全领域研究在于防止外部入侵导致的数据破坏和泄密,主要技术有防火墙、防病毒产品和入侵检测技术。近年来企业内隐私信息泄露主要方式由外部入侵变为内部泄密。有关报告显示,在隐私信息泄密中内部泄密占八成。内部泄密主要包括企业内部人员对信息的泄密和盗窃[3],这种泄密形式隐蔽性、针对性强,给企业造成了不少损失。隐私信息内部泄密问题成为亟待解决的问题。
隐私信息防泄密的基础工作是做好加密解密。加密通常指对文件采用文档级加密方式,将整个文件流视为一个对象对其进行加密[4-5]。這种加密方式会因为破坏了PDF文件结构导致打开异常。改进方法是结构级加密方法,基于PDF组织结构只对文档中显示的内容加密,对应于流对象的关键字“stream”和“endstream”之间的字节流[6]。这种方法对显示内容整体进行加密,在显示内容较多时会耗费大量的时间,并且加密粒度太大,不够灵活。 为解决上述问题,本文提出了细粒度加密——对用户感兴趣区域的加密方案。这个方案支持用户对某一特定页面内的区域对象加密,这个对象可能是文字也可能是图片。通过鼠标选定这个矩形区域,然后对矩形区域内的PDF对象进行加解密[7]。此方案缩小了加密粒度,用户可灵活选择自己想要保护的对象。 文件生成后通过人工特意为之加密称为“静态加密”,这样的密文解密时会在磁盘留下明文文件,拷贝即可窃取。传统的文档保密方法有3种:①通过网络协议及外设对文件进行保护;②手动对文件和文件夹加密;③将需要保护的文档转换成另一种文件格式进行保护。操作时明文文件会存在于磁盘,从而不可避免地造成内部信息泄密,这是手动加密和转换格式共有的缺点。 近年来,动态加解密技术逐步受到人们重视,它通过采取智能化思想和灵活的安全策略,在不改变用户操作习惯和文件存储格式的情况下进行加解密。当用户使用时,内存中的文件是明文,而在硬盘上则以密文存储[8]。
本文针对PDF的表单部分数据进行加解密,而不是将整个PDF文档作为对象,是小粒度的加密。使用Acrobat javascript对用户在表单文本字段编辑时进行加密,实现了动态加解密。在编辑过程中实现加密,完全符合用户的操作习惯。加密之后解密回显,方便用户再次修改,整个过程从用户角度来看就像没有发生一样,对用户完全透明。加密也没有改变文件格式,只是将对应部分以密文形式存储,实现了动态加密理念。
2隐私保护原理
2.1隐藏字段,保存事件
使用Acrobat javascript,通过filed对象对PDF表单部分操作对数据加解密。TextField文本字段是7种field对象之一,类似于html表单中的text控件。隐藏字段就是TextField文本字段display属性为hidden,即显示属性为隐藏的字段,可以起到保存数据而不影响原文的作用。本文通过动态生成隐藏字段,将加密生成的密文保存到其中,解密时从中读取密文。从视觉上整个过程几乎“透明”,感觉不到什么变化。 事件是javascript的核心之一,jacrobat javascript 的保存事件有 “将保存”和“已保存”两个。对于事件触发的时机,“将保存”事件触发的时机和“已保存”事件触发的时机相同。保存有3种选项:是、否、取消。当且仅当为“是”选项时,触发“将保存”和“已保存”,“将保存”在“已保存”之前,其它情况都不会触发这两个事件。 “将保存”事件在保存文件之前执行,执行的结果与文件相关的部分将会保存在磁盘文件中,而“已保存”事件触发在文件保存之后,其结果不会保存在磁盘文件中,但会临时保存在计算机内存中。
2.2流程图
如图1所示,在用户编辑PDF文档点击保存时触发事件,将目标表单文本字段部分的数据进行加密,保存至隐藏字段,并且清空字段数据。再将密文从隐藏字段中加密出来显示到目标表单文本字段中。
2.3实现原理
对用户输入表单的文本字段数据实现加密,需要输入的数据不会以明文的形式保存到文件中,这样可防止敏感数据被拷贝窃取。当用户向表单输入数据时,在未保存之前的数据暂存在表单字段,并没有保存到PDF文件中。当用户选择保存时,相应的数据才会保存到文件中。 在用户向表单文本字段输入数据,按下保存按钮或键盘“Ctrl+S”时,触发保存动作事件。保存事件分为两个动作事件:“将保存”事件和“已保存”事件。“将保存”事件调用加密函数对表单字段的数据(明文)进行加密,将加密的密文保存到对应的隐藏字段中。然后将表单字段的value值设置为‘即空。之后文档执行保存,此时用户输入的表单字段保存到文件中的数据为‘,它的明文加密后保存在隐藏字段并保存到文件中,从而对数据进行加密。 文档的实际编辑过程很少一次完成,往往需要多次修改,这就需要将保存前输入的信息再显示回表单字段中。在“将保存”事件和保存之后,“已保存”事件被执行,调用解密方法将保存在隐藏字段的密文解密,解密出来的明文设置到表单字段中。此时表单字段的明文只是保存在字段中,并没有保存在文件中,文件中对应表单字段的数据为‘。当用户重新修改后再保存,仍然执行的是“将保存”事件,保存 “已保存”事件。最终表单字段部分保存的数据为‘,对应隐藏字段保存的数据为最终确定的数据密文。
3隐私保护实现
3.1数据加解密实现
用户按下保存,触发“将保存”事件,文件保存,再触发“已保存”事件。 “已保存”事件包括从隐藏字段取值解密,显示解密结果到字段两个动作。下面以Text1为例说明加密字段过程。
3.1.1管理字段列表 遍历字段,获得文本字段name列表,用数组存储。由文本字段的name有规则生成隐藏字段name列表,以文本字段name+“hfield”的形式定义隐藏字段的name值。用hash数组将文本字段与隐藏字段进行关联,以隐藏字段的name为键、文本字段的name为值建立映射。
3.1.2加解密中实现保存事件(1)将保存事件。①隐藏字段的定义:
var ft=this.getField("Text1");//获得Text1对象 var hfname=ft.name+"'hfield";//对应的隐藏字段name属性 var hfield=this.getField(hfname);//获得隐藏字段对象 if(hfield==null){//创建隐藏字段 var myrect=this.getField("Text1").rect; hfield =this.addField(hfname, "text", this.pageNum, myrect); Hfield.dispaly=display.hidden;}
②对字段值加密,代碼如下:
var key=this.setkey(); //生成密钥 var aftersfvalue=this.security(ft.value,key);//对字段值进行加密
③将加密后的值保存至隐藏字段:
if(ft.value!=''&&ft.value!=null){hfield.value=aftersfvalue;}
④清空:
ft.value='';
(2)已保存事件。生成解密密钥并对隐藏字段的值进行解密:
var afterjfvalue=this.security(hfield.value,key); ft.value=afterjfvalue;
3.2方法测试及结果分析
用户编辑结果如图2所示,用户保存后的字段视图如图3所示。图3比图2多出的两个文本字段是前面字段的隐藏字段,隐藏字段在界面上不显示,可以在字段界面上显示信息。可以看出,左边值为“张三丰”的字段,其隐藏字段的值显示为其它字符码,即为字段加密后的结果。另一个显示电话号码的字段同理。可以看出,用户编辑并保存后,生成了隐藏字段并进行了加密,加密结果保存在隐藏字段,然后将原字段的值进行清空。最后显示原字段的值,由于对隐藏字段的值进〖LL〗行了加密,重新保存到了原字段。
4结语
本文方法能实现对隐私数据的动态加解密,当然也存在诸多不足,比如对于用隐藏字段的name来标示它本身, name是允许重名的,虽然可以用特殊字符串命名name,但无法保证不出现其它name与其重复,可能会出现一些无法预料的情况。该方法功能也过于单一,将在今后进一步研究。
参考文献:
[1]张波. PDF文档语义信息抽取研究[D].保定:河北大学,2004.
[2]陈珂. 开放式环境下敏感数据安全的关键技术研究[D].杭州:浙江大学,2007.
[3]梁菊华. Adobe PDF安全策略及实施[J]. 印刷,2010(3):4447.
[4]符凯,陈晓江,何路,等. 电子文档保护系统的设计与实现[J]. 微电子学与计算机,2006(9):176178.
[5]李计勇. 面向PDF文档对象的安全保护系统设计与实现[D].哈尔滨:哈尔滨工业大学,2009.
[6]张金辉,郭晓彪,符鑫. AES加密算法分析及其在信息安全中的应用[J]. 信息网络安全,2011(5):3133.
[7]高蒙,范磊,李建华. 基于PDF文档保护系统的设计与实现[J]. 信息安全与通信保密,2008(3):6971.
[8]苏晴,李永珍. 基于访问控制的隐私保护方法的研究[J]. 延边大学学报:自然科学版,2016(1):6974.
(责任编辑:杜能钢)