APP下载

面向大数据的隐私保护系统研究

2022-08-12金伟民张逸凡张淑丽

现代信息科技 2022年7期
关键词:质数数据保护正整数

金伟民,张逸凡,张淑丽

(哈尔滨理工大学,黑龙江 哈尔滨 150080)

0 引 言

随着互联网对各行各业的渗透,数字经济的规模不断扩大,人们的生活开始迈向数字化,世界进入数据大爆炸的“大数据时代”,人们对生活质量的要求越来越高,也越来越注重个人隐私数据的安全。蕴藏着巨大价值的数据能够以极低的成本复制和无限使用,这种“野蛮掘金”的诱惑导致数据泄露、盗用、滥用等案件频频发生,给人们带来诸多困扰,同时也造成社会各界对于数据安全和隐私保护的担忧。

1 隐私保护的重要性

在大数据时代背景下,数据的来源越来越广泛,处理方法也越来越复杂,如图1所示。云基础设施中存储大量的用户信息数据,各种数据供给平台从中提取数据,对数据进行计算、存储并通过网络传输数据,其中包括政府数据资源、信托数据资源、企业数据资源等。在各个平台之间使用统一的安全管理机制、统一的服务、统一的采集、统一的加工,虽然具有极大的便利性,但与此同时也存在着极大的安全隐患——隐私数据的泄露。

图1 数据来源及处理方式示意图

在现代生活中,有关个人隐私的数据越来越多,个人隐私被暴露的风险也越来越大,由此造成的个人损失也愈发严重。在个人隐私保护方面,国家出台了一系列的法律法规,同时在技术上也要注意数据传递的安全性,从而为隐私数据的保护提供保障。有鉴于此,研发一款面向大数据的隐私保护系统,其在金融、政务、医疗等行业具有广泛的市场应用前景。

2 基于大数据的隐私保护模型研究

隐私数据的保护主要分为发布阶段的数据保护、传输阶段的数据保护、发布结果的保护。发布阶段的数据保护是指在数据发布之前要对数据进行预处理,包括加密、重编码、混淆、哈西散列等,避免窃取者直接获得数据的真实含义;传输阶段的数据保护是指在整个传输过程中,不泄露与传输信息无关的数据,以提高数据的安全性;发布结果的保护是指对发布的数据进行脱敏处理,以确保发布的数据中不存在隐私漏洞,消息接收者即便是对所接收的数据进行数据挖掘也不能分析出其所蕴含的隐私信息,从而避免隐私信息的间接泄露。

数据加密处理主要有两种形式——对称加密和非对称加密,前者使用的是对称加密算法,后者使用的是非对称加密算法。对称加密系统是使用相同的密钥对数据进行加密和解密,非对称加密系统是使用一个密钥加密,使用另一个密钥解密。从使用安全性来看,非对称加密更有优势,市场应用前景也更加广阔。非对称加密的典型算法就是RSA(Rivest、Shamir、Adleman)算法,其具体过程为:

(1)先找到两个正整数(这两个正整数互为质数)。

(2)用函数()表示正整数可以在小于的正整数中找到与互为质数的个数,通常也把这个函数称为欧拉函数。

(3)如果两个正整数和互为质数,则的欧拉函数()可以使式(1)成立。

这个公式也称为欧拉定理。

(4)如果两个正整数和互为质数,那么一定能够找到整数,使×-1 可以被整除,那么就称是的模反元素,得到式(2)。

本系统在实现过程中需要对数据进行加密处理,在这里数据加密算法采用RSA 算法。

3 系统设计

3.1 以数据保护为核心的数据安全管理体系

数据安全管理体系的功能包括五个方面:

(1)数据安全需求。明确存在哪些外部和内部数据安全需求。

(2)数据安全关键要素识别。盘点被保护的数据资产目标及其保护等级。

(3)数据安全评估。针对一些敏感数据,根据其重要等级和安全保护等级,评估数据采集、存储、传输、使用等各个环节的风险。

(4)数据安全规划。针对这些需要保护的数据,明确风险控制等级并制定相应的管理规范、管理制度、数据使用规则、技术架构等,确保数据安全。

(5)数据安全持续改进。通过行为管理、内部审计稽核和闭环管理等措施,推进数据安全管理体系的持续优化。以数据保护为核心的数据安全管理体系如图2所示。

图2 以数据保护为核心的数据安全管理体系

本系统的应用场景选择医疗管理领域,以病例管理为例,病人的病例信息中包含许多隐私信息,在信息的存储和传输过程中都需要进行加密处理,下面给出统计计算病历的关键代码:

3.2 系统的主要功能设计

运用模块化的思想将算法应用于具体的系统设计中,如图3所示为系统整体研发架构。在系统开发中首先分析功能需求,然后利用开发工具和相应技术进行功能模块的设计,明确各个模块之间的数据交互与数据传递,构建系统的整体架构,然后对各个模块进行详细的功能分析和设计,这些模块包括数据匿名结果可视化、数据匿名结果效用度量、数据匿名结果风险分析、数据匿名结果快速导出等功能模块。

图3 系统整体研发架构

在研发系统时,基于面向大数据的隐私保护与风险分析,能够构建安全的数据管理体系,主要体现在以下三个方面:

(1)实现身份匿名保护。在现实生活中,每个人都有其自己的活动规律,在计算机应用场景中,采用行为识别技术进行数据挖掘发展出了用户身份的重识别攻击,攻击者采用数据连接的形式,利用多个数据源发起身份识别请求,企图发现用户的真实身份。在此攻击方式下采用匿名模式可以实现对用户隐私数据的安全保护。

(2)保护敏感信息。敏感信息是指社交关系、位置属性等信息。在很多分布式系统中都存储有大量的用户个人隐私数据,借助人工智能、数据挖掘、深度学习等技术可以根据非敏感信息分析推测出部分或全部敏感信息,例如可以通过共同好友、兴趣爱好等分析出用户的社交关系;通过行为轨迹、网络社交等预判出用户的地理位置、健康状况等隐私信息;也可以通过用户的生活习惯、人际关系等分析出用户的宗教信仰、社会地位等隐私信息。因此,在大数据的背景下保护敏感信息是极其重要的。

(3)确保隐私信息安全。在数据采集之后,要采用RSA 算法对一些敏感数据进行加密处理,在网络上传输的数据也要采取加密手段,确保数据在安全管控之内,不被泄露。

3.3 主要算法设计

病例中的患病时间、诊断数据、治疗方案等敏感信息都需要进行加密处理,本系统采用RSA 加密算法实现加密处理,主要包括以下六步:

(1)随机选择两个不相等的质数与。

(2)计算、的乘积,在RSA 算法中,基于大数分解的原理,选择乘积中较低的位数,一般选取1 024 位。

(3)求的欧拉函数()。

(4)再次选取一个正整数,使得1 ≤≤(),同时满足与()互为质数。

(5)求对的模反元素。

(6)将与封装成公钥,将与封装成私钥。

在数据交互的过程中,采用公钥对数据进行加密,加密如式(3)所示;在接收到数据后可对数据进行解密,解密使用私钥,如式(4)所示。

4 系统实现与应用

面向大数据的隐私保护在诸多领域有广泛的应用,本文以医疗领域为例,在电子病例系统、预约挂号系统等多个医疗系统中进行了实践应用,隐私保护系统在医疗领域的应用如图4所示。

图4 隐私保护系统在医疗领域的应用

经过加密的数据在传输过程中即使被人意外窃取,窃取者也无法获得数据的真实含义,数据加密能够对数据起到很好的保护作用。在数据存储的时候,数据库也是以加密方式保存数据,以防数据意外丢失,敏感医疗数据信息数据库存储加密情况如图5所示。

图5 电子病历数据信息的MySQL 数据库存储结果图

5 结 论

面向大数据的隐私保护系统在医疗领域进行了初步尝试,其在一定程度上满足了医院信息化服务和数据安全存储的要求,但是在大数据领域还存在许多不同格式的数据以及不规范的数据,在传输的过程中也容易出现隐私泄露的情况,在后续的研究中可以结合数字签名技术、区块链技术等,进一步完善对个人隐私数据的保护。

猜你喜欢

质数数据保护正整数
关于包含Euler函数φ(n)的一个方程的正整数解
怎么教让质数学习更有趣
被k(2≤k≤16)整除的正整数的特征
方程xy=yx+1的全部正整数解
质数“嫌疑犯”
TPP生物药品数据保护条款研究
欧盟数据保护立法改革之发展趋势分析
欧盟《一般数据保护条例》新规则评析
一类一次不定方程的正整数解的新解法
巧记质数