APP下载

基于大数据分析技术的数据安全与机器学习

2018-02-23张靖雨王潇枫周楠

电子技术与软件工程 2018年6期
关键词:机器学习数据安全大数据

张靖雨 王潇枫 周楠

摘要 大数据时代,数据在成为国家战略资源和创新生产要素,资产和战略价值急速攀升的同时,伴随着海量数据的不断产生,安全性也成为人们无法忽略的问题。而机器学习是一门新兴学科,应用广泛。本文以大数据为基础,分析了以机器学习来解决一定范围的数据安全问题。

【关键词】大数据 数据安全 机器学习

1 引言

随着计算机等多种学科的发展,机器学习应运而生,且得到广泛应用。如检测垃圾邮件、检测信用卡的欺诈、人脸识别、识别语音等。通过已有的研究成果可知,机器学习已经在数据安全方面得到了一些应用。

本文对大数据的概念、特点进行了分析,并以此为基础分析了当前数据安全的重要性,探讨了如何利用机器学习解决一定的数据安全问题。

2 大数据概述

2.1 大数据的产生和来源

网络的普及使得人们的网络行为成为常态化,而大数据就伴随着这些网络而产生,一些企业、部门对着些数据进行采集。这些行为渗透面广泛,如社交软件的言论、网络购物数据等等。和传统结构和意义的数据不同,这些数据包含了数据的生产者一些真实的信息,如习惯、喜好、意图等。总的来说,大数据具有极大的价值,大数据时代已经到来。

2.2 大数据的特点

不同于传统意义上的数据,大数据来源广泛,可以来源于人、机、物。这就决定了大数据规模庞大且具有高复杂。总的来说大数据具有以下几个特征:高速行、多样性、大规模。

3 基于大数据的数据安全

数据的产生、流通和应用更加普遍和密集。然而,新的技术、需求和应用场景给数据安全防护带来了全新的挑战。

3.1 新技术带来的挑战

分布式计算存储架构、数据深度发掘及可视化等新技术提升了数据资源的存储规模和处理能力,但也为数据安全保护带来了新挑战。首先,系统安全边界模糊、可能引入的未知漏洞、分布式节点之间和大数据相关组件之间的通信安全已逐渐成为新的安全薄弱环节其次,分布式数据资源池能够汇集众多用户数据,却造成了用户数据隔离的困难。大数据往往在云端存储,而云端的开放性强、使用范围、用户数据较庞大,使数据安全风险更加集中。

3.2 新需求带来的挑战

大数据时代下,各方对数据资源的占有和利用的需求持续增加,数据被广泛收集并共享开放。移动智能终端、传感器、智能联网设备广泛应用,使得虚拟世界正在成为现实世界的完整映射。数据的广泛、多源收集对数据安全本身及个人信息保护带来了新的挑战,数据来源和真实性验证存在困难,个人信息过度收集、未履行告知义务等现象侵害了个人合法权益。

3.3 新应用场景带来的挑战

当前,数据应用浪潮逐渐从互联网、金融、电信等热点行业领域向融合业务、物联网、传统制造等行业和领域拓展渗透。数字化生活、智慧城市、工业大数据等新技术新业务新领域创造出纷繁多样的数据应用场景,使得数据安全保护具体情境更为复杂。频繁的数据共享和交换使得数据溯源中数据标记的可信性、数据标记与数据内容之间捆绑的安全性等问题更加突出。一旦发生数据安全事故,导致的损失往往是不可估量的,且危害具有延续性、扩散性。可见,数据安全问题已经成为大数据时代不可忽略的一个问题。

4 机器学习概述

机器学习是一门新兴的交叉科学,已被应用在多个领域,如信用卡诈骗检测、语音识别、垃圾邮件检测等。机器学习策略丰富,包括机械学习、类比学习、归纳学习、演绎学习等。如今机器学习已经被应用到了大数据一些领域,如基于大数据利用机器学习对微博用户行为进行分析等。

5 机器学习技术在数据安全的应用

机器学习具有一定的智能行为,方法多样,而大数据具有高复杂性和多样性,因此机器学习可以为数据安全提供一些新的思路。

(1)大数据中的一个重要环节是存储,往往用户信息的泄露都是由于存储机制不健全,导致受到恶意攻击,从而导致数据安全事故。对大数据存储建立防火墙,利用机器学习对防火墙异常进行检测,应对各种攻击。

在机器学习过程中,自学习与训练是基础,大数据中数据量巨大,但受到入侵的数据占少数,因为产生的样本数量较少,这样使学习模型与训练较为困难。机器学习使用监督学习方法解决这个问题,利用统计学习模型,从海量的数据中获得隐蔽的、可以理解的、有效的信息,通过这些信息甄别出与正常数据不同的异常数据。

模型中首先建立数据特征集,其次针对数据特征建立统计模型,针对每个测试样本,利用Chebyshev不等式计算异常值(用P表示),得到异常程度。用μ表示均值,σ2表示方差,x表示随机变量。用公式Pr(|X-μ|>=kσ)<=1/k2进行统计。找到偏离正常值的异常数据,并进行进一步分析,从而采取措施对异常数据进行防御,预防数据安全问题发生。

不同于传统的入侵检测,监督学习使入侵者更难绕开,增加了检测的灵活性和效率。而大数据数量巨大,统计数据更具有说服力、且容易聚类,符合机器学习对数据的基础需求。

(2)随着移动网络的普及,截止到2017年6月,我国手机用户超过7亿,用户更多的网络行为都与软件相关,在大量的软件中恶意软件数量也不断增长。这些恶意软件威胁着用户的数据安全。针对此问题,机器学习可发挥一定的作用。在训练过程中,从大数据中己知软件行为中提取样本,区分恶意软件和正常软件的行为特征,并进行存储。随后建立相应的算法、模型,最终的出检测结果,甄别出恶意软件。在此过程中,可通过自学习进行不断地修正、补充。当新型恶意软件出现时,机器学习通过发现这些新型恶意软件与己学习过的恶意软件的特征联系与共同点,提前进行判断、预测和分析,从而进行一定的预警,进而提高检测的效率。

6 结论

大数据时代使数据发挥了极其重要的作用,同时也增加了数据安全风险。机器学习为数据安全提供了新的思路。本文通过对大数据特点机器学习技术模型进行分析,得出大数据特点适用于机器学习的模型建立及训练学习,机器学习具有一定的灵活性,对恶意攻击检测有一定的优势。

参考文献

[1]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰,大数据系统和分析技术综述[J].软件学报,2014,25 (09):1889-1908.

[2]章博亨,刘健,朱宇翔,吴帆,程维,基于大数据和机器學习的微博用户行为分析系统[J].电脑知识与技术,2017:1009-3044.

[3]张巍,任环,张凯,李成明,姜青山.基于移动软件行为大数据挖掘的恶意软件检测技术[J].集成技术,2016 (05).

猜你喜欢

机器学习数据安全大数据
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
大数据安全搜索与共享