基于元数据属性的数据价值分级及加密机制
2016-10-10张之明
张之明,罗 杰
(武警工程大学 信息工程系,陕西 西安 710086)
·信息科学·
基于元数据属性的数据价值分级及加密机制
张之明,罗杰
(武警工程大学 信息工程系,陕西 西安710086)
针对云存储中对所有数据采用统一的加密算法造成数据加密高复杂度的问题,提出了一种基于元数据属性的数据价值分级及加密机制。首先,利用数据对象元数据的属性评定数据对象的数据价值,并对数据进行分级,而后,根据数据的价值级别选择相应的加密算法,给出数据加密的解决方案。通过对实验数据的分析与比较,验证了该机制能够获得更好的加密效果,大大减少了数据加密的时间复杂度。
元数据属性;数据价值;数据分级;数据加密
数据存储到云端之后,容易受到两方面的威胁:其一,云存储平台作为不可信的第三方,一旦服务器出现故障,可能会泄露数据;其二,云平台被非法侵入后,数据存在被窃取、篡改和伪造的风险。因此,存放在云端的数据要经过数据加密,用户下载后经过解密方可使用。目前主流的加密策略有基于属性加密[1-2]和基于代理加密[3-4]两大类型。
在数据加密安全方面,由于大数据本身庞大的数据量,若对每个数据块都采用诸如对称加密、代理重加密等方法,虽然可以保证安全性,但无疑会增加数据加密的复杂度,加重了主机和网络的工作负载,容易造成拥塞。因此,给大数据中不同重要程度的数据进行分类并采用相应复杂度的加密算法是十分必要的。
1 数据价值分级
1.1数据价值
数据价值用来衡量数据倾向于存储在高级设备的程度,是数据分类和分级的重要指标。通常由数据的商业重要性、访问频率、数据大小等因素决定。数据价值的评价方法主要分为原始的方法、基于策略和基于非策略的评价。原始的评定方法考虑因素单一、简单、准确性差,没有把适应度考虑进去。一些方法大量依靠外部人为因素,如文献[5];基于策略的评价方法由用户制定一个或多个策略,依据策略来评价数据价值。该方法在评值的准确度方面考虑了更多因素,通过反馈调节提高价值评定的准确度。但是,这种策略对外部信息的依赖过大,如文献[6]给出的一种ACE数据价值的评定结构。基于非策略的方法通过特定公式来计算数据价值,将数据属性和访问形态作为公式的输入。这类方法不需要人为制定策略,更广泛地考虑了数据属性和访问形态[7]。
1.2数据分类
数据分类[8]是定义数据集的访问、恢复等特征,并依据不同的业务目标划分数据,实现基于数据的重要程度对数据进行分级的管理和服务。数据分类是定义数据分级加密的前提和基础,是分层存储管理(hierarchical storage management, HSM)和信息生命周期管理(information lifecycle management, ILM)研究中的重要问题。
分类的依据通常是既定的策略,一般有knowledge-based型、expert-based型和example-based型等。分类的实现可分为凭经验手工分类、静态分类和动态分类等几种方法。凭经验分类的方法由数据中心管理员根据经验划分数据的类型;静态分类是在系统构建后业务服务开始之前预先设定好分类规则;动态分类能够按照数据生命周期的变化来调整分类规则。
1.3ACE结构
ACE数据价值评定结构[6],采用基于策略的方法对数据评值和分类。用户基于经验设定一系列策略,每个策略可对数据的多个不同属性设定不同的权值,再对每项属性上的可能取值设定分数。评值时,根据每个数据在所有策略的所有属性上的值的得分,结合各属性的权值,综合得到数据的价值。
2 ACEE数据价值分级及加密结构
针对大数据下不同重要程度的数据均采用复杂加密算法带来的主机和网络负载拥塞的问题[9],提出了一种基于ACE结构的数据分级加密机制ACEE。ACEE的关键特征如下:
1)提供分类方法和数据加密方案,ACEE能够半自动化地确定数据的价值,定义数据的级别,根据数据自身的价值,为数据选择合适的加密算法。
2)采用基于策略的价值评定方法,为了帮助管理者确定数据的价值,ACEE采用了一种基于策略的价值评定机制。这些策略决定了数据如何被映射为不同的价值层次,决定了加密算法怎么被映射为不同的等级,从而使性能最优化。ACEE使用了一系列的优化算法,通过减少需要处理的数据的领域空间和用于分类的策略来提升分类的性能。
ACEE提供了模块化的结构对数据进行处理并给出了对数据加密的解决方案来最大程度地减少加密的复杂度。图1给出了ACEE的结构图。
图1 ACEE结构图Fig.1 ACEE architecture
ACEE结构主要由3部分构成:数据分类引擎、加密分类引擎和数据加密引擎。
数据分类引擎:该组件负责挖掘数据元数据的属性,基于所用的策略确定数据的价值,为数据评定的价值和根据这些价值完成的数据分类的等级是一对一的映射关系。这里,我们把数据的价值分为1~9这9个不同的级别[10],9代表的数据价值最高。
加密分类引擎:这部分组件负责挖掘可用的加密算法的性能,并根据算法自身的复杂度、安全性、稳定性等属性把加密算法分为不同的级别。
数据加密引擎:该组件把两种分类引擎融合在一起,协调数据级别和加密算法的级别,形成数据加密的解决方案。它建议哪一级的数据使用哪一级的加密算法来满足用户对数据整体安全性的要求,实现了使用最小的加密复杂度最大限度地确保数据的加密安全。
2.1输入
图1给出了ACEE结构输入的3种来源:知识库、数据和加密算法显著的属性和用户自输入。
知识库:这里的知识库是分类策略的集合,这些策略封装了用于数据(加密算法)分类的领域知识。每一个策略由一系列的显著的数据属性、相应的属性价值以及符合这些属性价值的数据价值构成。
显著的数据或者加密算法属性:这部分的输入来自挖掘目标数据的属性和加密算法的性能。比如,我们可以监测数据的不同属性如文件类型、大小、最近更新时间等。
自定义输入:管理者可以提供关于如何进行数据分级的输入或者提示,也可以创建自定义的分级策略,这些策略也可以被添加进知识库。
2.2数据分级机制
ACEE对所有的数据对象采用一种简单的分组方式,通过把具有相同价值的数据分到同一个级别中实现数据分级。分级引擎挖掘数据或者加密算法的属性,然后与所有的策略相比较找出能用于此对象分级的策略。在ACEE中有3种分级的方式:
1)基于知识的策略:知识型的策略预封装在ACEE结构中。通过与专家进行一定时间的咨询后收集信息,这些信息都是基于经验的。管理者可以即时创建新的知识策略在数据分类完成前。实际应用中可能存在一种数据对象不满足所有知识策略中给出的属性值,因此该数据对象无法使用基于知识的策略进行分类,此时,ACEE可以进行以下策略:
b)设置一些默认的数据价值,如果没有一种策略满足在上述策略中匹配率超过50%。
2)基于专家的策略:这种策略允许管理者对相关的属性进行排序,规划一个新的策略。管理者选择一系列的属性集并给这些属性分配排名。也可以给不同的属性价值赋值,这些值经过整合和规范后,用来形成一个策略函数。假设管理者选定了“A1=所有者,A2=访问时间”这两种属性,并把前一种属性“A1=所有者”的重要程度高于后者。ACEE会内在把两种属性映射为相关的两种等级R1和R2。进一步,假设为第一种属性分配了3种不同重要程度的属性a11,a12,a13,分别对应的价值为s11,s12,s13;同样地,访问时间的两种属性a21,a22分别对应s21,s22,ACEE计算数据价值的公式定义为
BV(d)=R1·((s11·v(a11)+s12·v(a12)+s13·v(a13))+R2·(s21·v(a21)+s22·v(a22)))。
其中,BV(d)代表数据对象d的数据价值。如果Ai=aij,则v(a11)=1,否则v(a11)为0。
3)基于实例的策略:在这种策略中,管理者可以给出样本文件及其对应的数据价值的集合。ACEE从样本数据集中挖掘属性和关联的数据的价值进而形成一种符合具体数据价值的策略。这些实例文件被用作训练数据集来规范机器学习技术如回归和决策树技术[11],形成分级的策略函数。
2.3数据分级策略
通过挖掘数据对象的元数据的属性,进行数据分级,我们考虑的数据对象是文件的形式。表1给出了ACEE在数据分级时使用的部分元数据的属性。
表1用于数据分级的元数据的属性列表
Tab.1List of attributes that can be mined for data classification
属性LinuxWindows所有者DD访问权限DD应用II大小DD文件类型DD上次读操作时间DD上次写操作时间DD创建时间-D扩展性DD
注:D表示操作系统可以直接可用;I表示需要使用内部的ACEE机制或者本地系统的APIs整合。
ACEE通过扫描文件系统或者分析文件系统的追踪文件获取元数据的属性,表1中的大多数的属性可以仅通过扫描系统文件获得。然而,一些属性如访问频率需要监视系统一段时间才能得到。
数据分级的策略取决于选择的全局目标函数和数据对象的领域两部分,用于用户类数据和代码类数据的分类策略不同于系统应用日志类的数据。表2给出了在实验中使用的不同领域数据分级的策略实例的部分样例,数据价值分为1~9这9个级别。
表2 不同领域的样本数据部分分级策略
注:CTIME 表示创建时间,ATIME表示上次访问时间,.CODE和.OFFICE表示一组数值。
2.4加密方法分级策略
ACEE通过挖掘可用加密算法的性能作为加密分级的依据。算法的加密性能可以通过加密技术本身获取,ACEE还具有良好的兼容性,可以把ACEE和其他的软件或者组件连接起来,通过这些软件或组件获取加密技术的性能。
2.5数据加密
数据加密负责匹配数据的级别和相应的加密算法。ACEE的目的在于让最重要的数据采用最佳性能的加密算法,让无关重要的数据采用级别最低的加密算法。ACEE在实际数据加密时,采用一种简单的匹配策略:具有最高级别的数据采用最高级别的加密算法,中等级别的数据采用中等级别的加密算法,最低级别的数据采用最低级别的加密算法。
2.6输出
ACEE的输出主要包括3个部分:数据分级引擎的输出是基于自身数据价值的数据级别;加密算法分级引擎的输出是基于加密算法性能的加密级别;数据加密引擎的输出是把数据级别和加密级别相结合的数据加密的解决方案。
2.7性能优化
ACEE浏览每个数据对象来挖掘数据的元数据属性,然后把这些属性与每一个策略比较确定数据的价值。假设有m种策略和n个数据对象,那么最坏的情形下,时间的复杂度为O(mn)。为此我们提出了两类优化算法提高系统的整体性能。
2.7.1策略领域的优化算法使用回归函数表示所有用于分级的策略来减少策略领域的规模是一种提升系统性能的方法。我们使用给定的策略表为给定的样本文件分级,或者管理者给定样本文件具体的数据价值,然后用文件的元数据的属性和计算得到或者给定的数据价值生成一个回归函数。ACEE使用这个简单的回归函数对输入数据进行分级,而不用将每一个数据对象与每一种策略相比较,因此,我们把最坏情形下的时间复杂度降低到了O(n)。
2.7.2数据领域的优化算法另一种提升性能的方法是减少数据对象领域的规模。采用文件抽样和预处理策略这两种方法实现这个目标。
1)文件抽样:在扫描数据集时,对每一个目录我们采样其中的一部分文件集而不是扫描整个数据集。ACEE选择全部文件中一些固定的部分,并且只挖掘这部分数据的元数据的属性。根据每个目录中样本数据的元数据属性的价值,ACEE有3种方式进行数据分级:
a)选择一个适合大部分抽样数据的分级策略,并把该策略对应的数据价值用于整个数据集。
b)在所有的匹配的策略中,选择使数据具有最高价值的分级策略,并把该策略对应的数据价值用于其他的数据。
c)取所有匹配策略的数据价值的平均值,使用该价值用于整个数据集。
2)预处理策略:ACEE可以通过预处理策略预测数据对象的哪些属性需要扫描。对于没有用于定义任何策略的属性不必进行扫描,这种方法提高了扫描数据的性能。
3 实验结果与分析
为了验证ACEE结构的性能,我们选择了3种不同领域的数据集对ACEE结构的分级功能、数据加密以及性能优化的算法进行了测试。
3.1实验数据环境
我们对3类数据集在Inter P4 3GHz,2GB RAM运行Windows 2003高级服务器系统的机器上进行了实验,同时使用Windows API通过JAVA Native Interface(JNI)来挖掘系统的元数据的属性。3类数据如表3所示。
表3 实验数据列表
其中,代码类数据集来自于本地实验室的一个CVS存储库,该库中存储了近3年来30多名用户的项目设计代码;用户类数据集是单一用户的5年来个人文件的集合,包括个人文件、媒体文件、代码文件、网页文件等;应用日志类数据集来自于匿名服务器,包含有1.28 million很少改动或者删除的文件。
3.2开销节省
这部分,我们给出了使用ACEE加密数据与传统的统一使用最高级别加密算法的数据加密相比带来的效益。这里,我们使用基于知识的策略进行分级,对数据价值级别为8~9的数据采用3DES算法进行加密,6~7采用AES算法进行加密,4~5采用DES算法进行加密,1~3采用Blowfish算法进行加密。
图2(a)给出了每类数据集中根据数据价值的级别可分别采用不同加密算法的数据比例。可以看出,代码类数据中约70%、用户数据中约65%的数据可以采用最低级别的加密算法。大约70%的应用日志类数据应该采用DES类级别的加密算法。这幅图说明ACEE可以确定数据的价值并给出一个合理的数据加密算法。
图2(b)给出了采用ACEE分级加密算法和采用统一最高性能加密算法所耗时间的对比。我们使用平均标准衡量[12]各部分的开销:3DES算法2 663B/s,AES算法5 326B/s,DES算法7 988B/s,BF算法10 167B/s。可以看出,代码类数据集大约可以节约50%的加密时间,应用日志类数据可以减少约65%的加密复杂度。
图2 使用ACEE不同加密算法的开销节省Fig.2 Usage of different encryption and effective cost savings using ACEE
3.3策略领域优化
这里使用一般线性模型学习回归函数,因为它允许使用无条件和数值型的变量[13]。为了验证策略领域优化的效果,我们以用户类数据和代码类数据为例,使用基于知识的策略从数据集中生成一个训练和测试集。准确度的标准用训练数据集和测试数据集的预测错误的比例来表示。不同训练集大小下回归函数的准确度实验结果如图3所示。
从图中可以看出,使用回归分析的优化策略对代码类文件起到了很好的优化作用,误分类的比例在15%以下;对于用户数据集来说,当训练数据较小时误分类的比例高,当训练数据增大时,误分类的比例减少,因此该方法适用于训练数据量大的用户数据集。
3.4数据领域优化
这部分我们以数据抽样的方法为例对数据领域的优化算法进行验证。图4给出了对用户数据集采用数据抽样进行数据分级的结果,我们用式(1)和式(2)这两种方式[6]衡量分级的准确性,
(1)
这种衡量的方法简单的给出了错误分级的比例,
(2)
其中I(Fi)和C(Fi)分别表示每个文件Fi的理想数据价值和计算得到的数据价值。这种方法从错误分级与理想数据分级之间的距离来衡量错误分级的大小。
图3 使用回归分析和基于实例型策略的分级Fig.3 The classification done using regression function analysis and example-based policy
图4 采用抽样法得到分类准确度与时间性能之间的权衡关Fig.4 The trade-off of classification accuracy and time performance by sampling
图4分别给出了采用抽样数据的平均数据价值、最大数据价值和最匹配策略时使用两种衡量分级准确率方法的花费时间和准确率的百分比。100%抽样时3种方式的花费时间分别是379s,374s和554s,对于总大小18.4GB,包含32 800个文件的数据集,10%抽样时的准确度达到90%。我们不采用优化算法时,当把时间降为15%时,准确率为85%。实验数据显示,如果文件被很好地按目录组织,文件抽样的算法将大大提升ACEE的性能。
4 结 论
在大数据与云存储的背景下,需要满足数据存储的安全性与时效性的需求。本文基于数据分级存储的结构ACE,提出了一种基于数据价值的数据分级加密机制ACEE,实现数据的分级加密存储。该机制通过使用元数据的属性,评价数据对象的数据价值,指导数据分级并给出一种与数据价值相适应的加密算法对数据对象进行加密。文中以3类大容量数据集为实验数据,模拟大数据环境,实验证明,ACEE在确定数据价值和提供加密方案上充分利用了数据的信息,尤其是在处理大容量数据集上,与传统的加密方式相比,ACEE给出的数据分级加密解决方案大大降低了加密的时间复杂度。
[1]XIONG A P, GAN Q X, HE X X, et al. A searchable encryption of CP-ABE scheme[C]∥Proc of Media Technology and Information Processing,2013:345-349.
[2]BETHENCOURT J, SAHAI A, WATERS B. Ciphertext-policy attribute-based encryption[C]∥IEEE Symposium on Security & Privacy,2007:321-334.
[3]JUNG T H,LI X Y,WAN Z G,et al. Privacy preserving cloud data access with multi-authorities[C]∥IEEE International Conference on Computer Communication,2013:2625-2633.
[4]BLAZE G,BLEUMER G,STRAUSS M. Divertible protocols and automic proxy-cryptography [C]∥Advances in Cryptology-Euro-crypt,1998:127-144.
[5]PIERRE E. Introduction to ILM: A tutorial [EB/OL].[2011-07-11] http:∥www.snia.org/tech-activities/dmf/ILM-Solutions-Conference/2004/Agenda/IntroductionILM,2004.
[6]SHAH G,VORUGANITI K,SHIVAM P, et al. ACE:Classification for information lifecycle management[R].Almaden:IBM Research Division,2006.
[7]LU S, LIU G M, XU K, et al. Research on the data migration strategy of hierarchical mass storage system[J].Computer Engineering & Science,2009,31(1):163-167.
[8]赵晓南, 李战怀,曾雷杰,等.分级存储管理技术研究[J]. 计算机研究与发展,2011, 48(增): 105-111.
[9] 洪汉舒, 孙知信. 基于云计算的大数据存储安全的研究[J].南京邮电大学学报(自然科学版), 2014, 34(4): 26-32.
[10] CLOKE P S,CORDERY L.The value of streamflow data for storage design[J].Water Resources Research, 1993,29(7):2371-2376.
[11] GLASS C, LEV B. Data analysis, regression and forecasting[J].Interfaces, 1996, 26(5):87-88.
[12] NADEEM A, JAVED M Y. A Performance Comparison of Data Encryption Algorithms[C]∥Information and Communication Technologies,2005.ICICT 2005.First International Conference on. IEEE,2005:84-89.
[13] BUKH P N D, JAIN R. The art of computer systems performance analysis, techniques for experimental design, measurement, simulation and modeling[J]. Wiley-Interscience, 1992,35(3):113-115.
(编辑李静)
A data value classification and encryption mechanism based on metadata attributes
ZHANG Zhi-ming, LUO Jie
(Department of Information Engineering, Engineering University of CAPF, Xi′an 710086, China)
In view of the situation that data encryption techniques take the same way to all different data in the field of cloud storage, which may increase the complexity of data encryption in the environment of Big Data. A new data hierarchical encryption architecture is proposed. The architecture uses a policy-based approach to classify data based on the metadata attributes, then provides a suitable data encryption solution to ensure informed use of the encryption algorithm. Some useful conclusions are obtained through the analysis and comparison of the experimental data, which shows the architecture benefits a lot in reducing the time costs and complexity of data encryption.
metadata attributes; data value; data classification; data encryption
2015-10-11
国家自然科学基金资助项目(61402529);陕西省自然科学基金研究计划基金资助项目(2015JQ6266)
张之明,男,山东潍坊人,武警工程大学副教授,从事大数据与云计算研究。
TP391
A
10.16152/j.cnki.xdxbzr.2016-02-007