基于大数据分析的热熔胶粘接芯片存储安全检测
2019-10-12李金
李金
摘要:随着互联网的发展,网络进入了大数据时代。未来发展日益趋近信息化,人们的生活也因此发生了巨大改变。作为一项新兴计算机技术,云计算技术可以给大数据的计算提供非常大的便利,云存储系统也得以普及。热熔胶粘接芯片是一种较为优异的存储芯片,可以为大数据的存储提供硬件载体。但是,在实际应用的过程中,大数据分析带来便利的同时也存在很多问题。其中,大数据的存储安全是一个重点的问题。文章针对大数据分析背景下的热熔胶粘接芯片存储如何做好安全保障进行探究,希望通过研究对后期工作有所参考。
关键词:大数据分析;热熔胶粘接芯片;存储安全
中图分类号:TQ430.7+72
文献标识码:A
文章编号:1001-5922(2019)08-0112-06
近年来,随着信息技术的不断发展,大数据分析的使用广泛,随之而来的安全问题也逐渐显现。存储系统是保障数据信息安全的第一道防线,通过身份认证可以检查用户身份是否有效。用户在进行数据存储时被爆出经常出现信息丢失或被窃取的问题,致使大数据的存储备安全受质疑,为此社会各界对信息的存储安全也给予了广泛的关注。保障大数据存储安全,作为存储载体的芯片有很多种,其中热熔胶粘接芯片具有明显优势。因此,如何更好地保证基于大数据分析存储的安全性与完整性是当下保障大数据安全的热点课题。
1 大数据分析
随着数据的数量不断增长,大数据的重要性日益突出,得到了研究者们的广泛关注。但是,目前人们对大数据的概念理解仍然存在不同的看法,并且大部分人还是认为大数据是个抽象概念。从大数据的本质出发,才能更加深刻地理解大数据在社会经济、网络效应等各方面的内涵,这对于探究大数据分析下的安全风险控制具有重要意义。
1.1 大数据的基本定义及主要特征
大数据是超出传统数据库范畴的具有创造性思维的,用来收集、存储、管理和分析大量数据信息的方式[1]。首先,大数据与时间相关,随着时间的增长,大数据的数量也不断增长。其次,不同层级的机构,对数据集的需求也不同,目前大数据通用的计算单位是TB。最后,对于大数据描述和控制,我们一般从种类、数量和速度这3个维度进行。因此,大数据拥有时效性,数据存在形式也具有多样性,这些使大数据理论与传统的数据库理论有明显差异。
大数据的主要特征[2]为:①大数据的数据量非常大,通常以几何级数形式增长。②数据类型多样化,包括原始类数据、多元型数据、函数数据多种形式。③对数据的运算和处理速度加快,大数据分析可以为用户提供大量有价值信息。研究表明,利用大数据可以推测趋势,可以剔除对个体数据,可以预测社会现象,也可以做个性化的预测。大数据分析的应用范围相当广泛,数据处理能力不断增强,可以为用户提供更多更广泛的信息依据。
1.2 大数据应用模式
通过云计算技术通常可以实现大数据的应用模式。云计算是一种应用技术,其计算通常以分布计算和网络计算作为基础,并融合了网络存储和虚拟化等技术,把个人计算机和私有数据中心需要执行的命令及任务转交给有存储功能的计算机中心完成[3]。这种数据应用模式不仅节约了基础设施购买的成本,个人或企业也可以按照计量的方式来支付租赁计算资源。由于大数据的数据来源众多,其应用模式分析也呈现多样化。根据不同的数据特性,可以将大数据应用模式进行分类。由于数据的规模不同,可将大数据应用模式分成内存级和海量级两种。内存级是指数据的总量不超过集群内存的最大值。当前内存量较大的服务器,可以将热点数据内存常驻,从而达到数据分析效率提高的目的。海量级是指数据量大,可能达到PB级别,不能一次性载人内存或者没有办法在短时间内处理完成。最简单的海量数据处理方法是分治法,通过将庞大的数据分开处理,由大化小,从小治之。除此之外,海量数据也可以通过集群分布式进行处理。
1.3 大数据安全风险分析
当前大数据的应用逐渐普遍化,因此,用户对数据安全的要求也越来越高。如果没有妥善地处理大数据信息,大数据的存储不够安全,那么用户的隐私安全将存在较大风险。对人们的状态及行为预测是个人隐私的泄漏的主要形成原因,收集并分析用户的上网信息,用户的消费习惯以及喜好因而被推理和发现。通过大数据提供的这些信息,从而对每个用户提供针对性的服务,这对用户隐私信息的泄露埋下了巨大的隐患。纵观实际发展,由于对用户数据收集、存储以及管理等过程不够规范,导致用户个人隐私信息泄露的监管力度也不够强。除此之外,大数据的可信度也存在问题,人们无法分辨信息的真伪。从大数据的实际信息情况来看,有些数据可能是伪造的,给用户带来错误的认识,从而得到错误的结论。
2 热熔胶粘接芯片
热熔胶的基底材料通常是热塑性树脂或弹性体,然后,在基底上添加增黏剂、增塑剂、抗氧化剂、阻燃剂及填料,再经过熔融混合等步骤形成固态粘合剂[4]。与其他形态的胶粘剂,例如:热固型、溶剂型和水基型胶粘剂等相比,热熔胶具有很多优越的性能。因此,热熔胶在许多领域得到快速发展及应用,在芯片制造过程中也是不可少的粘接材料。
用于粘接芯片的热熔胶具有以下几方面的优异性能:①具有良好的防潮,绝缘性能;②固化后胶体收缩率低,柔韧性佳,物理性能稳定;③与芯片,基板材料之间的粘接力强;④耐高低温,耐化学品腐蚀性能优良;⑤对芯片及基材无腐蚀。但是,正是由于热熔胶这些特殊的化学结构与特性,不能使其不能被环境降解,会长期滞留在环境中,可能会对环境造成威胁。不过为了降低热熔胶的负面影响,近年来研究者们已经在开发绿色热熔胶,有望在不久的将来研制出不仅性能优异,而且可生物降解的绿色热熔胶。
3 存储安全检测流程
安全检测系统工作流程见图1,首先对合法访问请求数据进行收集,然后对数据进行二进制建模,再通过阴性选择算法得到生成检测器,此檢测器可用于区分合法请求和非法请求。与此同时,收集真实运行系统的访问读或写请求数据,以此数据进行二进制建模,然后,根据阴性选择算法确定二进制建模的字符串长度和与之相匹配的字符位数,这样通过二进制建模得到的自我集合有效性和科学性比较高,同时检测系统根据不断变化的访问请求,周期性地更新自我集合和生成的有效检测器,达到不断加强自我集合的完备性的效果。
阴性选择算法包含两个阶段:审查和检测。首先是审查阶段,在此阶段会根据请求数据随机产生大量的候选个体,随后计入自我耐受过程,在此过程中不断地将候选个体跟自体元素相匹配,如果匹配成功就会将这个候选个体舍弃,否则将其保留进入下一阶段;第二阶段为检测阶段,通过上一阶段保留的候选个体与未知个体进行匹配,如果此过程中匹配成功,则说明该个体为非法请求,反之则为合法请求。
3.1 元数据的二进制建模过程
从大量数据中发现并检测出数据的变化或者异常是相当困难的,有时候甚至不可能实现这种检测,但是,已经出现的元数据技术可以很好地解决这个棘手的问题。元数据是用来描述其他数据信息的数据,即数据的数据。元数据的定义也能够应用到存储系统安全的检测中:访问系统调用中的元数据被抽取出来,被抽取的元数据包括访问文件的有效信息等。通过二进制建模将元数据转变为检测系统能识别的二进制字符串,再通过模拟生物免疫系统中的抗原与抗体的识别过程来实现二进制匹配技术,最终将根据识别的结果进行相应的读、写、删除或者修改等处理。对上述内容进行二进制建模,那么存储安全的检测过程也就能够通过获取文件的访问控制模式、文件ID、用户ID、组ID等信息,进一步将这些信息建模转换为二进制字符串序列,通过区分合法操作和非法操作,从而保障存储系统的安全。元数据的二进制建模方式,如图2所示:
3.2 阴性选择算法
阴性选择算法是由Forrest在1994年提出算法,其原理是基于生物体的阴性选择,因此阴性选择算法具有一些特殊的性质:①由该算法产生的检测器并没有完全覆盖非我集合,在检测器内部并不一定非得进行交流与协调。②检测器的检测之所以能够对检测异常活动进行有效地检测,是因为检测过程是通过概率性地检测非我集来进行匹配,而不是与已知模式库进行匹配。③对于某一特定长度的字符串,只能产生有限种可能的情况,所有当自我集合相当完整时误报情况不会出现。从上面所述阴性选择算法特性可知,其检测过程具有一定的概率性,因此,需要对选取字符串识别算法的过程以及决策不同的匹配精度生成的检测器数量等过程进行比较精确的估算。与阴性选择算法相关的参数,如表1所示。
由表1中所述的定义可知,随机产生的两个字符串在某种匹配算法下匹配成功的概率是PM,因此一个随机串与一个自体元素匹配的失败的概率为(1-PM),假设含有Ns个元素的自我集中的各个元素之间彼此独立,那么一个随机串和所有自体元素均匹配失败的概率为:
上述公式(4)是有效检测器数量在数学上的描述,当Pf的取值固定时,通过这个公式能够得到有效检测器数量NR与成功匹配概率PM之间的关系折线图(如图3所示)。从图3的折线图可知,当有效检测器匹配失败率Pf的取值固定时,随机产生的两个字符串与某种算法匹配成功的概率PM越大,所需要的有效检测器数量NR越少。而根据不同取值的Pf对应的折线可知,当系统的安全要求越高时,对应所需要的有效检测器数量NR也越多。除此之外,由公式(4)可以得到,当Pf的取定值时,有效检测器的数量NR仅与PM有关,而跟自我集中元素的数量Ns没有关系。
公式(5)是对候选检测器数量在数学上的描述。当Ns和Pf的取值一定时,由公式(5)能够绘制出NRO和随机字符串匹配成功概率PM的折线图,如图4所示。图4是在Pf=0.0001的条件下绘制得到的折线图,由图中折现变化关系可知,当匹配失败率Pf的取值固定时,随着随机产生的两个字符串与某种算法匹配成功的概率PM的增大,对应需要的候选检测器数量NRO越大。通过自我集中数量Ns不同时对应的曲线可以得到,自我集合中元素數量Ns越大,所需要的候选检测器数量NRO也越大。
上述所采用的与字符序列匹配的算法为r连续位匹配规则(R-contiguous Bits Matching Rule)。这种规则属于模糊匹配规则中的一种,经常应用在对亲和力免疫系统模型建立中。如果两个随机字符序列在对应位置上至少有r个连续位置字符相同时,则称这二者符合r连续位匹配规则。若令l表示随机字符串数,那么当字符串为二进制字符串时,会存在以下关系:
公式(6)是对随机产生的两个字符串与某种算法匹配成功的概率PM在数学上的表述。当字符串长度1的取值大小一定时,由这个公式(6)可以得到随机串匹配概率PM和r连续位匹配之间的折现关系图像,如图5所示。从图5可以看出,当字符串长度l为一定时,随机产生的两个字符串与r连续位匹配成功的概率PM随着匹配位数r的增大而减少。而当匹配位数r为定值时,随机产生的两个字符串相匹配的概率PM随着字符序列长度l的增大而增大。
4 存储安全检测实验
4.1 安全检测实验测试内容
检测系统主要对大数据分析下的胶粘剂粘接芯片的存储安全进行功能测试,关注的重点在于检出率和误报率这两个方面。检出率是用来衡量检测非法访问信息的能力,误报率是用来描述将合法访问请求误判为非法访问的概率。当需要对系统的一些动态参数进行确定时,检出率和误报率将会作为重要参考依据。
4.2 检测系统的实验环境
(1)硬件环境:内存:4G,处理器:2.7GHz IntelCore i5,硬盘:2T硬盘
(2)软件环境:操作系统:Ubuntu Server 14.1064bit,Linux内核版本:3.16.1,集群环境:OpenStackHavana
4.3 安全检测系统功能测试
用于测试的数据集合应当具备如下条件:①数据的数量足够多;②数据足够全面;③数据能够真实地反映系统安全状态。以此为原则,采用的数据是从MIT LL实验室收集得到的DARPA 1999IDS离线评估数据集[6]。此离线评估数据集不仅包括收集的模拟网络中的网络流量,还包括审计日志。我们首先从原始文件中提取了文件的ID、所属的用户,所属的用户组以及访问模式等信息,然后将其建模为10000条合法的20位二进制数据,再在这个基础上,变异得到10000条异常数据。从合法数据中选取4000条记录作为自我集进行测试。当测试的算法采用r连续位匹配算法时,我们对r的长度取不同的值,结果表明当r取9时能得到较好结果,因此,文中所述的测试条件为r=9。