APP下载

支持检索关键词语义扩展的可排序密文检索方案

2019-08-01李勇相中启

计算机应用 2019年1期
关键词:排序检索文档

李勇 相中启

摘 要:針对云计算环境下已有的密文检索方案不支持检索关键词语义扩展、精确度不够、检索结果不支持排序的问题,提出一种支持检索关键词语义扩展的可排序密文检索方案。首先,使用词频逆文档频率(TF-IDF)方法计算文档中关键词与文档之间的相关度评分,并对文档不同域中的关键词设置不同的位置权重,使用域加权评分方法计算位置权重评分,将相关度评分与位置权重评分的乘积设置为关键词在文档索引向量上相应位置的取值;其次,根据WordNet语义网对授权用户输入的检索关键词进行语义扩展,得到语义扩展检索关键词集合,使用编辑距离公式计算语义扩展检索关键词集合中关键词之间的相似度,并将相似度值设置为检索关键词在文档检索向量上相应位置的取值;最后,加密产生安全索引和文档检索陷门,在向量空间模型(VSM)下进行内积运算,以内积运算的结果为密文检索文档的排序依据。理论分析和实验仿真表明,所提方案在已知密文模型和已知背景知识模型下是安全的,且具备对检索结果的排序能力;与多关键字密文检索结果排序(MRSE)方案相比,所提方案支持关键词语义扩展,查询准确率比MRSE方案更加准确可靠,而检索时间则与MRSE方案相差不大。

关键词:云计算;语义扩展;位置权重;相关度;相似度;密文检索

中图分类号: TP309.2; TP393.08

文献标志码:A

Abstract: Focusing on the shortages of existing ciphertext retrieval schemes in cloud computing, such as not supporting semantic extension of retrieval keyword, low accuracy and not ranking search results, a ranked ciphertext retrieval scheme supporting semantic extension of retrieval keyword was proposed. Firstly, Term Frequency-Inverse Document Frequency (TF-IDF) method was used to calculate the relevance scores between keywords and documents, and different weights were set for keywords in different document domains. The position weight scores of keywords in different document domains were calculated based on domain-weighted scoring method. The value of keyword corresponding position on document index vector was set as the product of position weight score and relevance score. Secondly, according to WordNet semantic Web, semantic extension was performed on retrieval keywords that input by the authorized users, and edit distance formula was used to calculate the similarity among semantic extension keywords, and the value of retrieval keyword corresponding position on document retrieval vector was set as similarity value. Finally, security index and document retrieval trapdoors were generated by encryption, and the inner product operation was performed based on Vector Space Model (VSM), and the result of ciphertext retrieval documents was sorted by the value of inner product operation. The theoretical analysis and experimental simulations show that the proposed scheme is safe under the known ciphertext model and the known background knowledge model, and has the ability to sort the search results. Compared with Multi-keyword Ranked Search over Encrypted cloud data (MRSE) scheme, the proposed scheme supports keyword semantic extension, and is more accurate and reliable than MRSE, while the retrieval time is not much different from MRSE scheme.

Key words: cloud computing; semantic extension; position weight; relevance; similarity; ciphertext retrieval

0 引言

随着大数据、云计算技术的日益流行,越来越多的用户选择将数据外包给云,以减少数据在本地维护的开销,同时极大地方便数据共享,但是,数据外包给云将会给数据隐私带来安全隐患,这是因为,云服务器是一个“诚实而好奇”的半可信实体,会泄漏用户数据中原本不愿意公开的隐私信息,因此,数据在外包给云之前需要先进行加密处理,以保护数据隐私的安全。数据加密后上传云,使得传统环境下的明文搜索方案不再可行,提出适合云计算环境下的有效密文检索方案显得十分有必要。

为实现在云计算环境下对密文数据的有效检索,文献[1]率先开始了密文检索研究,在2000年提出了首个基于密文扫描思想的对称可搜索加密方案,该方案不支持文件检索索引,而是采用对称加密技术将文件划分为“单词”进行加密,算法的存储开销大、时间效率极低。此后,国内外学者绕圈着如何提高可搜索加密算法的效率、可操作性能等问题开展了大量的研究工作,文献[2-4]为文档构建了检索索引,提出了基于索引的可搜索加密检索方案,提高了文档密文检索的效率;但是文献[2-4]中的索引都是基于文档中已有的固定关键词构建的,不支持文档更新。文献[5-7]对云服务器中存放的密文文件的动态添加、更新或删除操作进行了深入的改进研究,提出了支持文档更新的密文检索方案;但是文献[5-7]中方案没有提供对检索结果的排序功能。文獻[8]采用向量空间模型(Vector Space Model, VSM)计算文档向量和检索向量的内积,以内积运算的结果为依据对文档检索结果进行排序,提出了多关键字密文检索结果排序(Multi-keyword Ranked Search over Encrypted cloud data, MRSE)方案。文献[9]采用保序加密后的相关度分数进行多关键词排序搜索,提高了搜索的精确度。文献[10]基于二叉树构建了可排序文件检索结构,实现结果排序的同时减少了存储空间开销。文献[11]针对文献[8-10]中算法索引维护开销大和时间性能低的问题,提出了一种基于计数型布隆过滤器的分布式文本检索模型(Text Retrieval Model based on Counting Bloom Filter, CBFTRM),但是以上方案都要求用户输入的检索关键词必须与文档中存在的关键词精确匹配才能得到检索结果;然而,实际的文档检索场景下,当用户输入的检索关键词不存在文档中时,需要云服务器根据检索关键词的语义返回语义上相似的关键词的检索结果。为了满足语义相似性检索需求,提高检索结果与用户检索请求之间的匹配度,文献[12-15]中提出了多关键词语义相似的模糊检索方案;但是文献[12-15]中方案却忽略了不同位置上的关键词对检索结果的作用是不同的,没有区别对待不同位置上的关键词对检索结果的作用,使得检索结果不够精确有序。

综上所述,已有的研究成果没有兼顾考虑语义相似的检索关键词在不同位置时对检索结果的作用,认为不同位置上检索关键词对检索结果的作用是一样的。这显然是不合理的,例如,标题中存在的关键词和文档正文中存在的关键词对检索结果的作用是不一样的,标题中存在关键词的权重要大于正文中存在关键词的权重。因此,本文提出支持检索关键词语义扩展的可排序密文检索方案,通过WordNet语义网对授权用户输入的检索关键词进行语义扩展,得到语义扩展检索关键词集合,使用编辑距离公式计算语义扩展检索关键词集合中关键词之间的相似度,在满足语义相似性检索需求的同时,对不同位置的关键词设置不同的位置权重,分别使用域加权评分方法和词频逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)[16]方法计算位置权重评分、文档中关键词与文档之间的相关度评分,为密文检索文档的准确排序提供评分依据。

1 问题描述

1.1 系统模型

为满足效率和安全性能方面的需求,本文使用如图1所示的混合云结构模型,主要由数据拥有者、授权用户、私有云服务器、公有云服务器4部分组成,如下所示。

1)数据拥有者。首先从待发布的明文文档集合F=(f1, f2,…, fm)中提取n个关键词,构成文档的关键词字典W=(w1,w2,…,wn),并将关键词字典W上传至私有云服务器;然后,设置W中关键词在文档不同位置的权重,计算文档中关键词与文档之间的相关度分数,对W中关键词进行二元分词处理,将关键词映射到文档索引向量I=(I1,I2,…,Im),设置关键词在索引向量相应位置上的取值为位置权重评分与相关度评分的乘积;最后,加密F、I,产生密文文档集合C=(c1,c2,…,cm)和安全索引向量SI=(SI1,SI2,…,SIm),一起上传至公有云服务器。

2)授权用户。输入感兴趣的检索关键词η1,发送至私有云服务器。获取有序的密文检索文档,使用数据拥有者分发的密钥解密得到明文目标文档。

3)私有云服务器。“诚实而可靠”的实体,安全性高、存储空间小。首先接收并存储数据拥有者上传的关键词字典W和授权用户发送的检索关键词η1,使用WordNet语义网对η1进行语义扩展,得到语义扩展检索关键词集合Γ=(η1,η2,…,ηk)。然后,判断Γ中的关键词与W中相应位置上的关键词是否匹配,如果是,设置关键词在文档检索向量Q中相应位置的值设为相似度值;反之设为0,完成Γ中关键词到文档检索向量Q的构造。最后,对Q进行加密得到文档检索陷门TQ,发送至公有云服务器。

4)公有云服务器。“诚实而好奇”的半可信实体,安全性低,存储空间大,可用于存储密文文档集合、安全索引向量,用接收到的文档检索陷门与安全索引进行向量的内积运算,根据内积运算的结果对检索到的密文文档进行排序,返回最相关的top-t篇文档给授权用户。

1.2 威胁模型

公有云服务器普遍被认为是一个“诚实而好奇”的半可信实体,通常情况下会诚实地遵守用户数据托管和通信协议进行工作,不会刻意泄漏用户隐私信息;但是,它会出于“好奇”而分析挖掘用户的检索请求,在分析挖掘的过程中会不经意泄漏用户数据中原本不愿意公开的隐私信息,因此,根据系统中公有云服务器可以获得的有效信息,本文考虑以下两种威胁模型[8]。

1)已知密文模型。在这种模型下,公有云服务器只能获取用户提交的密文文档、安全索引、文档检索陷门,除此之外,不能获取任何有用的明文信息,公有云服务器只能选择唯密文攻击方式。

2)已知背景知识模型。在这种模型下,公有云服务器根据用户的检索请求,统计分析用户检索记录中的隐含信息,可以挖掘出一些其他有用信息,如:用户的文档检索偏好、关联记录、检索结果等,公有云服务器可以进行统计分析攻击。

1.3 主要符号说明

本文涉及到的一些主要符号说明如下。

2 预备知识

2.1 TF-IDF方法

在信息检索领域,广泛采用TF-IDF加权统计计算方法计算关键词与文档的相关度。TF-IDF由关键词词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)两部分组成,为了表示给定关键词wj与文档fi之间的相关度分数,本文使用式(1)进行计算:

其中: fi,wj表示文档fi中包含关键词wj的个数;|fi|表示文档fi中包含关键词的总数;|F|表示文档集F中文档的总数;|Fwj|表示文档集F中包含关键词wj的文档数。

2.2 位置权重

在对文档检索结果按评分进行排序时,以往研究成果把出现在同一文档中不同位置的关键词视为具有相同的作用,而事实上,关键词在同一文档中的标题、摘要以及正文中所起的作用是不同的,因此,本文根据文献[17]中的域加权评分方法,把同一文档划分为标题、摘要以及正文三个不同的区域,对三个区域中的关键词设置不同的位置权重,其中,标题的位置权重设为g1,摘要的位置权重设为g2,正文的位置权重设为g3,g1、g2、g3之间满足关系式(2):

同一个关键词可能出现在文档的三个位置,需要综合衡量关键词在三个位置的权重评分,因此,本文用ρ1、 ρ2、 ρ3来分别表示关键词在标题、摘要以及正文中是否出现的评分,如果出现,则相应的评分为1;反之评分为0,使用式(3)来计算关键词在文档三个位置的权重评分:

例如,某关键词wj在文档fi的标题、正文中出现,则关键词wj在文档fi中的位置权重评分为Zij=g1+g3。

2.3 WordNet语义网

WordNet[18]是一个大型的认知语言学英语词汇语义网,由Princeton大学的心理学家、语言学家和计算机工程师联合设计而成。传统的词典根据词形来组织词汇,忽略了词汇间的语义关系,WordNet则根据单词的语义来组织词汇,将名词、动词、形容词和副词各自组织成一个同义词网络,每个同义词集合代表一个基本的语义概念,并通过概念语义词汇关系相互关联。经过多年来的发展,WordNet已经成为了计算机语言学、自然语言处理、知识工程等领域研究的有力工具,也是密文检索系统中对检索关键词进行语义扩展的重要工具[19]。

2.4 编辑距离

编辑距离(Edit Distance)[20],又稱Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离是两个字符串之间相似度比较的重要计算函数,也可用来作脱氧核糖核酸(DeoxyriboNucleic Acid, DNA)分析、拼写检测、抄袭识别等相似性比较,如果两字符串之间的距离越大,说明它们越不同。

数学定义上,用式(4)表示两个字符串a、b之间的距离,用式(5)表示它们之间的相似度:

其中:la、lb分别记录字符串a、b的长度;temp记录两字符串中相应字符是否相等,如果相等,则temp记录为0,否则记录为1。

2.5 向量空间模型

VSM[21]是一个应用于信息过滤、撷取、索引及相关性评估的代数模型,已成功地应用于著名的Smart文本检索系统。使用VSM进行信息检索时,将文档和检索中的关键词都表示成同一向量空间下、维度大小相同的向量,向量的维度大小等于关键词的长度,每一维对应于一个关键词,把对文档内容的处理转化为对向量空间模型下向量的内积运算,内积运算的结果即可表明检索关键词与文档是否匹配:若结果为0,则表示不匹配;反之,则表示匹配。VSM在可搜索加密研究领域应用的成功案例起源于文献[8]中提出的MRSE方案,MRSE首次尝试使用VSM构建安全索引和文档检索陷门以解决加密数据的多关键词排序搜索,本文接下来借鉴此方法完成文档检索。

3 方案实现

本文提出的支持检索关键词语义扩展的可排序密文检索方案主要分如下几个阶段具体实现。

3.1 初始化设置

1)提取关键词。数据拥有者从明文文档集合F=(f1, f2,…, fm)中提取n个关键词,构成关键词字典W=(w1,w2,…,wn),并将W上传至私有云服务器。

2)产生安全密钥。数据拥有者使用概率密钥函数随机的产生安全密钥sk=(M1,M2,S,Pplu),并使用秘密通道(如Kerberos密钥分配协议)将安全密钥sk发送给授权用户,完成对授权用户的身份认证和密钥分发。其中:M1、M2为n阶随机可逆矩阵,S=(0,1)n为n位二元指示向量,Pplu为随机产生的秘密的大素数,n为关键词个数。

3)文档加密上传。采用AES(Advanced Encryption Standard)对称加密算法,使用密钥sk加密文档集合F,将得到的密文文档集合C=(c1,c2,…,cm)上传至公有云服务器。

3.2 构造安全索引

3.3 构造检索陷门

根据Franzen等[22]对微软公司旗下的Encarta在线百科全书网站连续两个月的用户检索行为的分析结果,49%的用户习惯选择输入单个关键词表达检索请求,33%的用户习惯选择输入两个关键词表达检索请求,平均仅使用1.4个关键词描述检索请求;而且对检索结果的分析发现,输入的关键词越少,检索结果命中的概率越低。用户检索习惯和目标需求之间的这种矛盾,需要尽可能地考虑扩展关键词数量,以提高文档检索结果的命中率。本文接下来以授权用户首先输入单个感兴趣的检索关键词,然后根据检索关键词的语义进行相似性扩展,产生多个语义上相似的关键词进行文档检索为例,详述文档检索陷门的构造过程如下,如图3所示。

3.4 文档检索过程

公有云服务器收到文档检索陷门TQ后,依次与每篇文档的安全索引SIi进行内积运算,以判断文档中是否包含检索关键词,如果包含,则内积运算的结果为非0;反之,如果不包含,则内积运算的结果为0。然后,将所有包含检索关键词的密文文档按内积运算的结果从大到小排序,返回最相关的前top-t篇密文文档给授权用户;授权用户再使用数据拥有者分发的密钥进行解密,还原得到目标明文。安全索引与文档检索陷门的内积运算过程如下:

安全索引与文档检索陷门进行内积运算的结果表明,若文档fi包含扩展语义关键词集合Γ中的关键词,则计算结果的值为非0, fi是否为用户感兴趣的前top-t篇最相关目标文档,由位置权重评分Zij、相关度评分score(wj, fi)、相似度评分Ne三者的乘积进行排序决定;若文档fi不包含扩展语义关键词集合Γ中的关键词,则计算结果的值为0, fi不是用户感兴趣的目标文档。

4 性能分析

4.1 安全性分析

本文首先使用了成熟的对称加密算法AES加密文档集F,产生密文文档集C上传至公有云服务器,有效保证了文档内容本身的安全性;然后借鉴文献[8、14、21]中的方法,随机生成了可逆矩阵M1、M2,对文档索引Ii和文档检索向量Q进行加密,产生安全索引SIi和文档检索陷门TQ上传至公有云服务器。由于密钥矩阵的空间是无穷大的,每次随机产生的密钥矩阵只有唯一的一个可逆矩阵,公有云服务器正确伪造密钥矩阵破解安全索引、文档检索陷门的可能性几乎为0,有效保证了文档索引、检索向量中包含信息的安全性,因此,在已知密文模型下,由于公有云服务器只能获取密文文档集、安全索引、文档检索陷门,除此之外不能获取任何有用的明文信息,只要保证密钥sk不被人为泄漏,本文方案是安全的;同时,为了进一步防止公有云服务器根据已知的背景知识,即根据文档索引、检索陷门之间的内在联系,挖掘泄漏文档隐私信息,本文在密钥sk中产生了二元指示向量S对索引向量Ii和文档检索向量Q进行分裂运算,并且进行索引向量Ii和文档检索向量Q的分裂时引入了随机数r、r′,保证了多个文档索引、检索向量之间是无关联的,即使用户多次重复同一检索操作,公有云服务器收到的检索陷门也是不一样的,有效地抵抗了统计分析攻击,因此,本文方案针对已知背景知识模型也是安全的。

4.2 可排序能力分析

本文方案在构建安全索引时,以关键词在文檔中的位置权重评分和相关度评分之积设为索引向量相应位置上关键词的取值,既可以判断目标文档是否包含检索关键词,还可以很好地体现检索关键词与目标文档的相关性程度。在文档检索的授权用户端,构建文档检索陷门时,为了很好地体现语义扩展检索关键词之间的内在联系,以关键词之间的语义相似度取值为检索向量对应位置上的取值。最后,进行文档检索时,可以快速地计算得到由位置权重评分、相关度评分、相似度评分三者之积构成的排序依据,以此依据对检索结果进行排序,很好地体现了关键词与文档之间、关键词与关键词之间内在联系,使得排序结果更加精确、可靠。

4.3 效率分析

本文以IEEE数据库中的外文文献为测试数据集,使用Java语言编程进行仿真实验。在Intel Core i5-3230 2.60GHz双核心CPU、2.0GB RAM内存、Windows 7 64位操作系统平台上,使用开源开发环境Apache-tomcat-7.0.23、MyEclipse2014、JDK1.7完成实验。在进行实验测试时,使用PDFBox的Java类库提取PDF文档中的关键词构造关键词字典,并使用WordNet-InfoContent-2.1、WordNet3.0对检索关键词进行语义扩展和相似度计算。

4.3.1 查准率

信息检索领域普遍使用返回相关文档数与实际检索得到的文档总数之比表示文档检索时的准确率,为测试本文方案进行文档检索时的查准率。首先从IEEE数据库中选取1000篇文档作为测试数据集,并从中提取3000个关键词构造安全索引;然后,使用不同数量的语义扩展检索关键词构造检索陷门进行文档检索,测试排序靠前的top-20篇相关文档的查准率。图5所示为语义扩展检索关键词规模对文档检索查准率的影响,结果表明,单个关键词检索时查准率最低为45%,而随着语义扩展检索关键词数量的增加检索查准率也随之提高,当语义扩展检索关键词数量增大到20时,查准率最高达到92%左右,原因是,关键词数量太少不足以清楚表达文档检索意图,太多又容易语义表达混乱产生噪声,因此,可以考虑将语义扩展检索关键词的规模设为20。

图6所示为设置检索关键词数k=20、关键词字典规模n=3000时,在不同文档集规模中进行文档检索,返回排序靠前的top-20篇目标文档时,本文方案与MRSE方案的检索查准率对比。

圖6中结果表明,随着文档规模的增大,本文方案的查准率基本维持在92%左右,而MRSE方案的查准率会随着文档规模的增加而降低,这是因为,本文方案在构建安全索引时,不仅使用TF-IDF词频方法计算了关键词与文档之间的相关度,还考虑了不同位置关键词的权重作用,使得构建安全索引所用的关键词与文档之间的内在联系更加紧密;并且,授权用户端在构建文档检索陷门时,使用了编辑距离公式建立了检索关键词之间的相似度联系,因此,使得本文方案可以在不同规模文档集中保持较高的查准率。

4.3.2 检索时间

文档检索的时间开销主要包含产生安全索引时间、构建文档检索陷门时间、内积运算时间三部分,三部分时间都与文档集规模、关键词字典规模线性相关。为了较好地评测本文方案与MRSE方案的检索时间开销,本文设置MRSE方案中输入的检索关键词数量和本文方案中语义扩展检索关键词的数量一样,都为20,分别在文档集规模m值变化和关键词字典规模n值变化的情况下重复执行多次实验,统计实验结果的平均值进行对比分析,如图7(a)、(b)所示。实验结果表明,随着文档规模和关键词字典规模的增大,两种方案进行文档检索时所耗费的时间都会随之增加,且本文方案所耗费的时间比MRSE方案略长。这种结果的原因是,随着文档规模和关键词字典规模的增大,安全索引和检索陷门的维度都随之变大,使得矩阵加密、向量分裂与内积运算花费的时间开销都随之增大;并且,相比MRSE方案来讲,由于本文方案在构建安全索引时多了关键词位置权重和相关度计算、构造检索陷门时增加了相似度计算,因此,总体上来讲,本文方案进行文档检索时的运算复杂度比MRSE方案大,总的耗费时间也就相对稍长一些;但是,从检索时间开销的数值来看,两种方案所花费的时间开销都不大,都在可接受的有效范围之内。

5 结语

密文检索是近年来随着大数据、云计算发展起来的一项重要技术,既可以实现密文检索,又可以保护用户隐私不被泄漏,但是云计算环境下已有的密文检索解决方案存在不支持检索关键词语义扩展、检索结果不够精确有序等问题,因此,本文使用TF-IDF方法、位置权重、WordNet语义网、编辑距离计算方法、VSM技术提出了支持检索关键词语义扩展的可排序密文检索方案。该方案能够在保护文档隐私安全性的同时,在有效、可接受的检索时间范围内实现对密文检索文档的准确排序,实现了检索关键词的语义扩展需求。但是由于本文方案相对MRSE方案来讲增加了关键词位置权重、相关度与相似度计算,使得检索时间比MRSE方案略长,因此,下一步的研究方向是改进算法,减少检索时间开销。

参考文献 (References)

[1] SONG D X, WAGNER D, PERRING A. Practical techniques for searches on encrypted data [C]// Proceedings of the 2000 IEEE Symposium on Security and Privacy. Washington, DC: IEEE Computer Society, 2000: 44-55.

[2] CHANG Y C, MITZENMACHER M. Privacy preserving keyword searches on remote encrypted data [C]// Proceedings of the 2005 International Conference on Applied Cryptography and Network Security. New York: ACM, 2005: 442-455.

[3] GOH E J. Secure Indexes [EB/OL]. (2004-03-16)[2018-05-28]. http://eprint.iacr.org/2003/216.

[4] CURTMOLA R, GARAY J, KAMARA S, et al. Searchable symmetric encryption: improved definitions and efficient constructions [J]. Journal of Computer Security, 2011, 19(5):895-934.

[5] LIESDONK P V, SEDGHI S, DOUMEN J, et al. Computationally efficient searchable symmetric encryption [J]. Secure Data Management, 2010, 63(58): 87-100.

[6] KAMARA S, PAPAMANTHOU C. Parallel and dynamic searchable symmetric encryption[C]// Proceedings of the 2013 International Conference on Financial Cryptography and Data Security. Berlin: Springer, 2013:258-274.

[7] YANG C, ZHANG W, XU J, et al. A fast privacy-preserving multi-keyword search scheme on cloud data[C]// Proceedings of the 2013 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2013:104-110.

[8] CAO N, WANG C, LI M, et al. Privacy-preserving multi-keyword ranked search over encrypted cloud data [J]. IEEE Transactions on Parallel & Distributed Systems, 2014, 25(1):222-233.

[9] XU J, ZHANG W, YANG C, et al. Two-step-ranking secure multi-keyword search over encrypted cloud data[C]// Proceedings of the 2012 International Conference on Cloud and Service Computing. Washington, DC: IEEE Computer Society, 2012:124-130.

[10] 李倩,岳風顺,王国军.安全云存储中高效的多关键词查找方案[J].计算机科学,2012,39(12):158-161.(LI Q, YUE F S, WANG G J. Efficient multi-keyword search over secure cloud storage[J]. Computer Science, 2012,39(12):158-161.)

[11] 冯加军,王晓琳,田青.基于计数型布隆过滤器的文本检索模型[J].计算机工程,2014,40(2):58-61.(FENG J J, WANG X L, TIAN Q. Text retrieval model based on counting bloom filter[J]. Computer Engineering, 2014, 40(2):58-61.)

[12] FU Z, SUN X, LINGE N, et al. Achieving effective cloud search services: multi-keyword ranked search over encrypted cloud data supporting synonym query [J]. IEEE Transactions on Consumer Electronics, 2014, 60(1):164-172.

[13] XIA Z, ZHU Y, SUN X, et al. Secure semantic expansion based search over encrypted cloud data supporting similarity ranking [J]. Journal of Cloud Computing: Advances, Systems and Applications, 2014, 3(1):1-11.

[14] 何亨,夏薇,张继,等.一种云环境中密文数据的模糊多关键词检索方案[J].计算机科学,2017,44(5):146-152.(HE H, XIA W, ZHANG J, et al. Fuzzy multi-keyword retrieval scheme over encrypted data in cloud computing[J]. Computer Science, 2017, 44(5):146-152.)

[15] 黄汝维,李志坤,江恩玮,等.云计算环境中支持模糊检索的加密算法[J].广西大学学报(自然科学版),2017,42(3):1121-1130.(HUANG R W, LI Z K, JIANG E W, et al. An encryption algorithm supporting fuzzy retrieval in cloud computing[J]. Journal of Guangxi University (Natural Science Edition), 2017, 42(3):1121-1130.)

[16] ZHANG W, XIAO S, LIN Y, et al. Secure ranked multi-keyword search for multiple data owners in cloud computing[C]// Proceedings of the 2017 IEEE International Conference on Parallel and Distributed Systems. Piscataway, NJ: IEEE, 2017: 276-286.

[17] MANNING C D, RAGHAVAN P. Introduction to Information Retrieval [M]. Cambridge, UK: Cambridge University Press, 2010:79-113.

[18] RISTAD E S, YIANILOS P N. Learning string-edit distance [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(5): 522-532.

[19] MILLER G A, BECKWITH R, FELLBAUM C, et al. WordNet: An Electronic Lexical Database [M]. Cambridge, MA: MIT Press, 1998:156-178.

[20] WITTEN I H, MOFFAT A, BELL T C. Managing gigabytes: compressing and indexing documents and images [J]. IEEE Transactions on Information Theory, 1995, 41(6):79-80.

[21] FU Z, WU X, WANG Q, et al. Enabling central keyword-based semantic extension search over encrypted outsourced data [J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2986-2997.

[22] FRANZEN K, KARLGEN J. Verbosity and interface design[R]. Kista: Swedish Institute of Computer Science, 2000: 5.

猜你喜欢

排序检索文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
轻松编辑PDF文档
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
恐怖排序
瑞典专利数据库的检索技巧
节日排序
英国知识产权局商标数据库信息检索
Word文档 高效分合有高招