计算机科学技术

2019-01-28

中国学术期刊文摘 2019年5期

可搜索加密机制研究与进展

沈志荣，薛巍，舒继武

摘要：目的：随着云计算的迅速发展，用户开始将数据迁移到云端服务器，以避免繁琐的本地数据管理并获得更加便捷的服务。而云存储中的数据安全和用户隐私得到了越来越多的关注。将数据密文存储在云端虽然简单易行，但是如何在密文上进行安全搜索成为了随之而来的一个难题。可搜索加密（searchable encryption，简称SE）是近年来发展的一种支持用户在密文上进行关键字查找的密码学原语，它能够为用户节省大量的网络和计算开销，并充分利用云端服务器庞大的计算资源进行密文上的关键字查找。近年来具有不同特性的可搜索加密机制被不断提出，本文回顾总结了当前主要的可搜索加密机制，分析了它们所适用的应用场景，并对可搜索加密机制未来的发展进行展望。方法：本文首先总结了当前主流的可搜索加密机制的研究内容，即灵活高效的搜索语句设计、模糊搜索和基于相似度排序的模糊搜索、以及在不同现实场景下的应用等。其次，对构造可搜索加密机制的算法进行总结回顾。按照构造算法的不同，本文将当前的可搜索加密机制分为基于对称密码学算法的可搜索加密机制和基于非对称密码学算法的可搜索加密机制。对不同分类的可搜索加密机制，本文介绍了其构建算法方式、构造原理、以及各自的优缺点等。再次，本文按照搜索效果将当前的可搜索加密机制分为支持单词搜索的可搜索加密机制、支持连接关键字搜索的可搜索加密机制、和支持复杂逻辑结构的可搜索加密机制。同时分析比较了当前主要的可搜索加密机制的存储开销、网络传输开销和加解密复杂度。最后，本文分析了可搜索加密机制的应用场景，分别为数据独享场景、数据共享场景和邮件处理场景等，并对可搜索机密机制进行了总结和展望。结果与结论：SE机制的研究逐渐成熟化，将逐渐成为云计算环境下用户对数据密文进行操作的有利工具。未来的一段时间，SE机制依然将被视为解决云计算中的安全问题的研究热点之一。随着越来越多的数据存储在云端服务器中，以及用户对数据安全和个人隐私的敏感程度越来越强，如何高效、精确且安全地对存储在云端服务器中的密文进行搜索，将是研究者不断研究的方向。我们认为，未来可搜索加密机制研究将应重点解决以下问题：高效率且支持灵活查询语句的 SE机制是未来重点的研究方向之一。支持模糊搜索（fuzzy search）和支持按相关性排序的可搜索加密机制依然是未来需要解决的问题。支持关系运算（＞，＜，＝等）的可搜索加密机制依然是未来需要研究的内容。保留语义的 SE机制依然是研究难点。应用于实际场景中的SE机制得到业界更多关注。

来源出版物：软件学报， 2014， 25(4)： 880-895

入选年份：2016

社会计算：大数据时代的机遇与挑战

孟小峰，李勇，祝建华

摘要：目的：社会计算作为一种数据密集型科学，在收集和分析数据的广度、深度以及规模上都产生了巨大影响，社会计算作为一种新的计算范式，产生了一个新的跨学科研究与应用领域，其广阔的研究内容与应用已引起了学术界和工业界的广泛关注。本文旨在帮助读者快速了解社会计算产生的历史背景及概念、研究现状及大数据带来的机遇，从面向社会科学和面向技术应用两个发展趋势出发，总结社会计算研究领域存在的挑战，包括跨学科合作与训练的问题、科学研究中大数据共享问题以及隐私保护。方法：物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展，数据正以前所未有的速度迅速增长和积累，数据是人类社会最重要的财富，大数据时代的到来，为研究人类社会动态和模拟社会问题带来了前所未有的机遇。首先，从自然科学、社会科学和人文科学的角度概括出社会计算产生的历史背景；然后，给出社会计算的定义；接着，阐述社会计算的主要研究领域（包括社会网络分析、计算社会科学等）、大数据时代的社会计算、社会计算研究现状等；最后，着重对社会计算面临的挑战进行了合理的分析。结果：（1）社会计算是使用系统科学、人工智能、数据挖掘等科学计算理论作为研究方法，将社会科学理论与计算理论相结合，为人类更深入地认识社会、改造社会，解决政治、经济、文化等领域复杂性社会问题的一种理论和方法论体系。（2）社会计算形成了2种发展趋势：一种是面向社会科学的社会计算；一种是面向技术应用的社会计算，这两种发展趋势同时又相互影响。（3）社会科学与自然科学本质区别在于思维方式的不同，社会科学是总体逻辑思维，自然科学是类型逻辑思维。（4）从大数据中采集到足够准确、系统而有代表性的社会个体特征，面临着伦理、法规和技术等多个方面的困难，这些难题已经构成大数据时代社会计算的严重挑战。结论：工业化时代的学科分类为推动社会进步做出了巨大贡献，随着后工业化时代的到来，这种学科划界越来越成为人们思想上的羁绊。计算机科学的基础虽然基于电子学等自然科学，但集成电路、操作系统等都不是自然界客观存在的，是人类智慧的产物。社会计算为人类发现自身价值提供了更多的机会，计算语言学、计算人类学、计算广告学、城市计算等跨学科研究领域不断产生。社会计算的研究还处于起步阶段，本文作了一些初步的探索，分析了社会计算产生的历史背景、学科分类，给出了确切的定义，对现有的研究工作及方法进行了归纳总结，最后指出了大数据时代社会计算面临的挑战性问题。

来源出版物：计算机研究与发展， 2013， 50(12)： 2483-2491

入选年份：2016

微博数据挖掘研究综述

丁兆云，贾焰，周斌

摘要：目的：随着近几年微博的快速发展与普及，微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性，在网民中快速渗透，发展成为一个重要的社会化媒体，微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介，从而使得微博成为社会公共舆论的重要平台，对国家安全和社会发展都会产生深远的影响。对微博的研究也存在巨大的挑战，微博是人类在虚拟网络世界生活的抽象概括和延伸，与一般信息网络不同，微博本身具有大规模、噪音数据多样性、快速传播演化性、非线性、社会媒体性、以及多关系等特征，因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别，在技术上也带来了更大的挑战。针对微博新特性，研究了微博近几年的相关研究现状，同时分析了Twitter数据集特征，且总结了未来研究面临的挑战。方法：在微博话题事件分析上，研究了事件检测与跟踪、首事件与突发事件检测、话题摘要、话题模型等国内外发展趋势；在微博情感分析上，总结了基本概念，研究了微博情感分析国内外发展趋势；在微博信息检索与推荐上，提炼了信息检索中的概率模型与发展趋势，研究了信息推荐中的协同过滤技术与发展趋势；在微博关系分析与挖掘上，研究了关注关系形成机制、转发关系形成机制、关系预测的国内外发展趋势；在微博信息传播上，研究了传播机制、传播预测、以及传播案例等国内外发展趋势；在微博影响力分析上，研究了点度中心度、接近中心度、中间中心度、HITS算法、PageRank算法、扩散能力、以及个体特征与网络结构影响力计算等相关方面的发展趋势；另外，研究了微博特征、地理位置、博文价值与可信度、以及用户分类和垃圾用户发现等国内外发展趋势。结果：实验获取了Twitter的 261954个中文用户，10091543条博文，和17546289条关注关系边。Twitter用户粉丝数目和发帖数目皆近似服从幂律分布，表示大部分中文用户拥有少数量的粉丝和发布少量的博文，仅存在少部分中文用户拥有高数量的粉丝或者发布大量的博文；Twitter用户时区分布前八为北京、阿拉斯加、香港、台北、夏威夷、新加坡、美国太平洋时区、美国东部时区，表明大部分中文用户来自中国境内、香港、和台湾地区；Twitter刚创建的时候，仅有少部分中文用户使用 Twitter，在2007年和2008年，Twitter的中文用户数量缓慢上升；2009年和2010年两年内，Twitter的中文用户数量开始急剧上升；在随后的2011年内，Twitter中文用户数目基本保持稳定，略有下降。结论：主要总结了微博的话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等研究现状；分析了Twitter中文用户的发展特征。

来源出版物：计算机研究与发展， 2014， 51(4)： 691-706

入选年份：2016

基于DTN的空间网络互联服务研究综述

林闯，董扬威，单志广

摘要：目的：空间任务的通信需求不断增长，数据链路的工作模式也不断变化。早期针对单一任务开发专用通信系统，后来发展到基于可复用技术和模块阶段，进一步发展到基于标准的协议和技术、实现跨机构协作的阶段。发展到现在，为实现信息共享、资源共享和提高效率的目标，产生了空间数据系统组网的需求。地面网络技术的飞速发展和成熟应用，也为空间网络互连提供了发展思路和技术支持。空间网络具有子网异构、网络拓扑不断变化、链路传输延迟大、链路误码率高的特点。TCP/IP网络需要连续稳定的网络连接和较短的传输时延，空间网络不能满足这些条件，因此相关协议不能直接应用于空间网络。需要有一种特定的协议来实现空间网络互连。方法：DTN（delay/disruption tolerant networking）是一种通用的面向消息的覆盖层网络体系结构，能够适应空间网络的特点，是实现空间网络互连的有效连接方式。与传统方式相比，基于DTN体系结构实现空间网络互连具有明显优势。本文首先阐述了DTN应用于空间网络互连服务（space internet working service，SIS）的体系结构，分析了组成要素和工作模式，包含协议栈构成、消息转发机制、命名与寻址机制等，介绍了支撑空间 DTN应用的 LTP（licklider transmission protocol）传输层协议，并给出了火星探测场景实例。然后针对路由机制、安全机制和服务质量控制3个重点研究方向，阐述了关键技术和进展情况，分析了存在的问题和下一步的研究方向。路由问题方面，首先阐述了DTN网络的路由问题，而后介绍了CGR（contact graph routing）路由算法及其他确定性路由算法。安全机制方面，首先阐述了 DTN网络的安全威胁，而后介绍了束安全协议框架和基于DTN的SIS安全。QoS机制上，首先明确空间DTN网络的QoS需求，而后在队列管理与调度，拥塞控制和QoS路由等方面介绍了相关成果。结果：文中介绍了DTN协议的的开发、实践，及基于DTN的空间网络应用，包括NASA开展的基于DTN的空间网络互联研究，灾难检测星座（disaster monitoring constellation，DMC）及ESA资助的“扩展Internet到太空”等相关研究项目中，都应用到了基于 DTN体系结构进行的数据传输飞行验证。接下来，本文分别从路由问题，安全问题，QoS机制等方面综述了在我国开展基于DTN的SIS应用的相关研究成果及研究前景。结论：基于 DTN的空间网络互连的体系结构逐渐成熟，关键技术不断完善，具有广阔的应用前景。在我国大力加快航天事业发展大背景下，基于DTN实现空间网络互连，建成一体化的空间网络，可以满足多用户、多业务、动态、可扩展的数据传输需求，提高通信系统的开发和使用效率。我国也在航天领域与其他航天机构广泛开展了合作，这也要求我们开展进一步研究与应用。基于DTN的空间网络互连技术对建设我国天地一体化航天互联网具有重要意义。

来源出版物：计算机研究与发展， 2014， 51(5)： 931-943

入选年份：2016

暗原色先验单幅图像去雾改进算法

孙小明，孙俊喜，赵立荣，等

摘要：目的：为解决传统基于暗原色先验的单幅图像去雾算法实现效率低以及恢复雾化图像在天空、白云等明亮区域颜色失真的不足。方法：分析传统算法，存在如下两个问题。一是传统暗原色先验去雾算法估计的透射率偏小，在天空、白云等明亮区域的雾化图像的恢复，会出现明显的颜色失真。实际上，在无雾条件下，自然图像在天空、白云等明亮区域处各通道值很大，不存在暗通道，或者说这些区域暗通道值很高，接近于大气光强度值。二是传统基于暗原色先验的单幅图像去雾算法时间复杂度高，无论采用软抠图算法，还是引导滤波算法，其透射率计算都是逐像素为中心在空间分辨率为的范围内估计而得，每个像素都要参与比较次，透射率估计算法时间复杂度为，虽然这种估计透射率的方法有很好的空间自适应性，但过于耗时。基于上述分析，作出如下改进，（1）采用图像分块方法估计透射率以降低算法时间复杂度。和传统算法每个像素都对应一个透射率不同，改进算法将每个图像块内所有像素都对应同一个透射率。实际上，传统算法对像素透射率要求过于苛刻，我们认为：空间相邻像素的属性应该近似，雾化图像透射率的空间不均匀性，并不是每个像素的透射率都不同，而是图像的局部不同区域存在不同的透射率，基于此，我们逐块估计透射率，每个块有各自的透射率，这也是一种空间自适应属性，而非逐像素估计。本文逐块求取透射率，每个像素仅参与比较一次，因而算法求取透射率时间复杂度为。（2）提出明亮区域和非明亮区域的分类算法，以提高整幅图像透射率估计的精准度。借助简单的、明亮/非明亮区域判定准则，对明亮/非明亮区域采用不同的透射率计算公式。和传统算法在R，G，B 3个通道分别估计透射率不同，本文引进一个参数K，通过判断每个块的暗通道值和大气光强度A的差值绝对值，来人为改变透射率函数。若差值绝对值大于K，则代表非明亮区域；若差值的绝对值小于K，则代表明亮区域。结果：改进算法不仅降低传统算法的时间复杂度，而且能够弥补传统算法在明亮区域透射率估计的不足，针对大量雾霭笼罩的、存在天空、白云等明亮区域图片，都取得了不错的去雾效果。结论：实验结果表明：改进算法可行、有效，完全满足实际应用的需求。

来源出版物：中国图象图形学报， 2014， 19(3)： 381-385

入选年份：2016

基于特征选择的模糊聚类异常入侵行为检测

唐成华，刘鹏程，汤申生，等

摘要：目的：网络攻击连接具有行为的多变性和复杂性等特征。基于传统聚类的网络行为挖掘技术来构建异常入侵检测模型是十分困难的。本文基于模糊聚类算法的改进，利用网络攻击行为的特征分析方法和特征属性选择数据集，探索入侵行为的异常检测模型及其过程。方法：利用层次聚类算法和遗传算法来改进和优化 FCM聚类算法来研究攻击行为的特征，从而建立异常入侵检测模型。首先通过Agnes层次聚类算法克服FCM聚类算法对随机选取初始聚类中心敏感的缺点，再利用遗传算法的全局搜索能力避免其在迭代时陷入局部最优，实现聚类的快速收敛，并将它们合构成一种AGFCM算法。该算法利用遗传算法在初始过程中需要产生多个种群个体这一特点，保证产生能够很好地代表整个原数据集的数据子集。然后采用信息增益方法对网络攻击连接数据集的特征属性进行排序，同时利用约登指数来删减数据集的特征属性以确定特征属性容量。该方法对数据集进行特征属性选取以去除冗余分类特征属性保留分类能力强的特征属性，从而降低数据特征容量。最后利用低维特征属性集和改进的FCM聚类算法，基于AGFCM的分类与检测，构建异常入侵检测模型，能够输出关于网络攻击连接的相关信息。结果：在对网络连接行为数据集进行聚类，建立异常检测模型的过程分析中可以看出，（1）对于数据集中的DOS、PROBE、U2R和R2L 4种异常连接类，其中由于U2R和R2L这两类连接行为的特征与正常连接十分相似，导致它们经常和一些正常连接类聚在同一类中，随着聚类个数增加，这种现象更为显著，导致在利用聚类结果对这两种连接的检测效果不明显。（2）随着聚类个数的增加，对异常类的检测能力逐渐增强，但是对正常类检测的正确率却在下降，即误警率在增加。通过计算约登指数并对比实验结果，本文的聚类个数设置为2，但此时对于U2R和R2L的检测率却很低，可在日常生活中以正常连接为多数，若是增加聚类个数虽然提高了U2R和R2L的检测率，却会导致误警率的大幅提高。（3）具有较大信息增益的特征属性有更强的分类能力。通过计算信息增益量得出特征属性对分类的重要性，选取生成的4组新特征子集，在运行AGFCM算法的时间上对于未筛选特征子集的聚类时间有比较大的优越性。（4）在同样的训练数据集和5组测试集的情况下，选择数据集中的特征子集进行基于AGFCM聚类，与FCM和NavieBayes相比，在异常入侵检测应用中有更高的检测率和更低的误警率。结论：传统的 FCM 是通过隶属度矩阵对数据集中网络连接数据进行软划分，因此，本文有针对性的将层次聚类引入到FCM聚类算法的初始聚类点的选取中，通过遗传算法提高了FCM算法对聚类中心的全局搜索的能力，利用信息增益算法实现数据集特征属性的排序，同时结合不同特征属性容量下的约登指数值来删减冗余分类属性提高了聚类算法速度。在降低特征集容量的情况下，仍能达到较好的聚类效果，这为解决特征子集的选取及利用 FCM 取得更好的聚类效果等问题提供了一种可行的思路。

来源出版物：计算机研究与发展， 2015， 52(3)： 718-728

入选年份：2016