APP下载

一种基于多属性关键词的密文检索方案

2016-03-12武警工程大学信息工程系李昊宇

电子世界 2016年23期
关键词:密文特征向量文档

武警工程大学信息工程系 李昊宇

一种基于多属性关键词的密文检索方案

武警工程大学信息工程系 李昊宇

对外包数据进行加密保护使得传统查询机制失效。针对目前密文查询速度慢、准确率不高的问题,提出一种基于多属性关键词的密文查询方案。该方案通过多属性特征向量建立安全索引,根据用户选择的排序方式及输入的多关键词进行相关性计算,返回相关度最高的已排序查询结果。实验结果表明,该方案提高了查询速度和查询结果的准确性。

云计算;密文检索;多属性关键词

1 概述

越来越多的机构将数据存放在云端,由云服务商保存管理。数据的安全性受到关注,云数据脱离用户控制,极易受到网络攻击。前端加密是解决上述威胁的方法之一[1]。但加密上传使得传统的检索机制失效,如何对加密数据进行快速高效检索成为重要的挑战。目前大多数密文查询方案都仅从关键词或属性等单一方面进行研究,很难适用于云环境中。

近些年针对密文查询提出了很多方法,Song等人[2]首次提出基于对称密钥的单关键词密文检索方法,Wang等人[3]实现了结果排序的密文检索方法,Cao等人[4]提出基于多关键词的密文查询方法,并实现了排序功能。但现有的方法大多不能满足云环境下的高效查询要求,本文提出基于多属性关键词的检索方案提高了查询速度。

2 密文查询方案

2.1 选择关键词

输入文档,将文档中的分离词语,形成集合,再通过计算出现频次等方法对结果进行处理,提取出可准确反映语义的关键词。

本文采用IF-IWF[5](Term Frequency-Inverse Word Frequency)算法提取关键词,处理完成后得到关键词集合。

2.2 提取多属性特征向量

具体方法是根据选择关键词的集合确定局部和全局属性,再形成多属性的特征向量。

首先在客户端提取局部属性的特征向量。实例将关键词权值和关键词出现位置作为局部属性。

(1)关键词权值:采用TF-IDF算法[6]。

(2)位置权值:关键词在标题出现的频次最高,而在其他位置出现频次较低。

提取文档的全局属性特征向量。将下载次数和被引次数作为全局属性,它们从整体上反映出文档的属性。

2.3 对称加密

对称加密算法效率较高,可满足一般用户对安全性的要求。局部属性的特征向量中只有关键词部分会泄露信息,采用Trapdoor算法对其进行加密,最后将加密文档和加密局部属性特征向量上传至云服务器端存储。

2.4 生成安全索引

根据关键词的多属性特征向量建立索引,再根据文档编号和多属性特征向量建立密文倒排索引。

2.5 密文检索及排序

用户输入关键词进行检索,服务器收到用户查询请求后,列出初步检索结果。然后按照排序方式优化结果,返回最终结果。

3 性能分析

随机抽取100篇文章,对单属性与多属性查询时间进行对比。输入相同关键词在单属性和多属性密文查询系统下查询。

图1 查询时间对比图

从图1可以看出,在相同文章数量下,多属性密文查询方案的时间远低于单属性查询方案的时间。

4 结语

本文提出一种基于多属性关键词的密文查询方案,实验表明该方案能有效提高查询速度和结果的准确性。下一步将对如何减少通信代价展开研究。

[1]Kamara S,Lauter K.Cryptographic Cloud Storage[J].Financial Cryptography & Data Security, 2010:136-149.

[2]Dawn Xiaodong Song David Wagner Song David Adrian Perrig. Practical Techniques for Searches On Encrypted Data[J]. IEEE Symposium on Security & Privacy,2000:0044.

[3]Wang C,Cao N,Li J,et al.Secure Ranked Keyword Search over Encrypted Cloud Data[C]//IEEE International Conference on Distributed Computing Systems,2010:253-262.

[4]Cao N,Wang C,Li M,et al.Privacy-Preserving Multi-Keyword Ranked Search over Encrypted Cloud Data[J].Parallel & Distributed Systems IEEE Transactions on,2011,25(1):829-837.

[5]王小林,杨林,王东等.改进的TF-IDF关键词提取方法[J]. Computer Sciences&sapplication,2013.

[6]Salton G,Buckley C.Buckley,C.:Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J].Information Processing & Management,1988, 24(5):513-523.

CiphertextRetrieval Scheme based on Multi-attribute Keywords

LI Haoyu
(Department of Information Engineering,Engineering College of the Chinese Armed Police Force, Xi’an,Shaanxi,710086)

Users encrypt their data before outsourcing to protect their data privacy makes the traditional query method failure. Aiming at the problem of slow query speed and low accuracy of ciphertext query under cloud environment, a ciphertext query method based on multi-attribute keywords is proposed. The method establishes security index through multi-attribute characteristic vector, it conducts correlation calculation according to the sort order selected by users and multikeyword, and returns the most relevant sorted query result. Research result shows that the method improves query speed and accuracy of query result.

Cloud Computing; Ciphertext search; Multi-attribute Keywords

李昊宇(1993—),男,陕西渭南人,硕士在读,研究方向:云计算安全。

猜你喜欢

密文特征向量文档
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
浅谈Matlab与Word文档的应用接口
克罗内克积的特征向量
一种支持动态更新的可排名密文搜索方案
基于模糊数学的通信网络密文信息差错恢复
有人一声不吭向你扔了个文档
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于RI码计算的Word复制文档鉴别
一种基于密文分析的密码识别技术*