一种基于GDK-means的高校贫困生信息隐私保护方法研究
2023-08-01刘晓娜王恺王成德徐彦强
刘晓娜 王恺 王成德 徐彦强
摘 要:高校在对贫困生的资助过程中,为保证公开、公平,会获取相关学生很多关键性隐私数据,如贫困原因、生源所在地、家庭收入、家庭成员、在校消费等敏感隐私数据。同时资助的结果又要求必须公开以保证管理过程的公正性。针对高校对贫困生数据发布中的公开与隐私保护之间的矛盾,提出了一种基于GDK-means的隐私保护方法。在该算法下,在K-means聚类的基础上,对生成的簇进行簇内泛化,来对发布的敏感数据进行去隐私化处理,以达到用户隐私保护的目的,同时量化了处理所带来的信息丢失度。经理论分析和实验,验证了采用GDK-means算法,在保证数据可用性的前提下,可实现数据发布中较好的隐私保护性。
关键词:贫困生资助;分布式聚类;隐私保护;K-means算法
中图分类号:TP311.13;G647 文献标识码:A 文章编号:2096-4706(2023)11-0030-04
Research on a College Information Privacy-Protection Method for Poor Students
Based on GDK-means
LIU Xiaona1, WANG Kai1, WANG Chengde1, XU Yanqiang2
(1.Lanzhou University of Arts and Science, Lanzhou 730000, China; 2.Lanzhou Institute of Technology, Lanzhou 730050, China)
Abstract: In the process of providing financial aid to poor students, colleges and universities obtain a lot of key private data about the students in order to ensure openness and fairness, such as the reason for poverty, the location of the student's origin, family income, family members, school spending and other sensitive private data. At the same time, the results of financial aid must be made public to ensure the fairness of the management process. A privacy-protection method based on GDK-means is proposed to address the contradiction between disclosure and privacy-protection in the release of data on poor students in colleges and universities. Under this algorithm, the published sensitive data can be de-privatised by intra-cluster generalisation of the generated clusters on the basis of K-means clustering to achieve the purpose of user privacy-protection, while quantifying the degree of information loss caused by the processing. After theoretical analysis and experiments, it is verified that the use of GDK-means algorithm can achieve better privacy-protection in data publishing under the premise of ensuring data availability.
Keywords: financial aid for poor students; distributed clustering; privacy-protection; K-means algorithm
0 引 言
高校在對生活困难学生认定时,主要标准就是家庭条件困难和在校期间生活简朴。其中评定时需要收集学生在校日常消费数据,以及影响家庭经济状况的有关因素开展认定工作,如家庭收入、家庭负担、特殊群体、生源地、突发状况、学生食堂和教育超市消费等数据,以供对学生进行资助和相关等级认定,并在完成评定后需要对学生的部分信息进行公示,才能保证整个评定过程公平、可靠。但是,这些原始数据中通常包含很多的个人隐私信息,如果不经过任何处理就直接发布,势必会造成严重的隐私泄露,从而导致困难身份披露和属性披露,使得善意的助学行为变成对困难学生的心理伤害,甚至会降低部分困难学生的参与度,从而降低了资助的善意效力。而且,保证数据的私密性和保证数据的效用又是相互矛盾的。采用传统的数据匿名、扰乱、添加噪声等,均不能很好地解决这方面的问题。因此,如何在数据发布中保证个人敏感信息不被泄露,避免各种隐私攻击,同时保证发布数据具有较高效用是当前面临的一个重大挑战[1]。同时,由于隐私数据的特殊性,数据库表中各个字段的不同数据,需要具有完全不同的隐私敏感度,在发布过程中对这部分数据的隐私保护需求也各不相同,即数据的敏感度与数据组自身的独特性也有关系。现有数据收集和发布中的隐私保护方案,大多数未充分考虑需要对隐私数据进行垂直分级,即个性化隐私需求的情况。另一方面,极端相反的过度保护现象,也可造成可用数据的丢失,从而使得资助的评定过程失去了部分原始数据的支撑,降低了公平性。基于隐私数据发布过程的保护,就是要从学生数据的个体角度出发,考虑数据敏感度因素,真正实现个性化隐私保护,同时实现原始数据的使用价值。基于以上原则,就要求在学生资助的整个评定、公布过程中,采用的数据发布算法,不仅要保证对学生消费数据的充分利用,更要在保证挖掘结果和用户数发布后,在不泄露用户隐私的前提下,使脱敏后的数据具有可用性。
1 隐私数据发布保护
关于信息发布的隐私保护方面的研究还处在起步阶段,目前的解决技术主要有以下3种。
1.1 匿名保护
数据发布为保护个人资料,通常将ID、姓名等能标识该用户的显性属性字段进行了删除和加密,但恶意数据获取者往往可根据已发布数据中的相关知识背景,如专业、年级、籍贯等其他数据库中取得的数据进行链接,从而可推导出隐私数据,尤其是一些特殊的数据,如青海、软件、19级,这三个字段数据在数据库表中均非关键字属性,但由于某些取值的独特性,如籍贯青海生源的学生如果人数较少,那么在非显性属性字段的情况下,仍能造成隐私的泄露。
1.2 对原始数据进行扰乱
分布式系统中数据发布时,其标示符字段会被删除,但通过记录关联技术,将准标示字段与知识背景匹配后,则可推理出用户身份,从而获得用户隐私数据。在目前已有算法中,已验证可保持结果的统计特性,但是该方法通常会破坏掉数据的完整性和真实性,导致需进一步对其中的数据丢失度与可用性进行分析,在实际应用中很难达到数据可用与隐私保护两者之间的平衡。
1.3 安全多方计算
安全多方计算采用密码学技术来解决用户的隐私问题,在无可信第三方的情况下,要求多个参与方共同但独立的计算一个目标函数。该过程需构造多方安全协议,算法难度大。并且需要严格要求每一方仅获取自己的计算结果,其他方的输入数据在整个过程中不能交互。该方法会消耗过多的计算资源,实现难度大,实际应用较少。
2 基于匿名发布的聚类算法
为解决上述3种方法的不足,近期提出了一些基于匿名发布的聚类算法,如K-means(K-均值算法)、DK-means(分布式均值聚类)、PPDK-means(安全多方计算均值聚类)等,这些算法主要基于集中式数据库进行设计,主要通过一个横向划分表来实现分布式数据的隐私保护[2]。
其中K-means算法是一种较为经典的基于距离的聚类算法,k代表要分的组数,可由用户预先给定。组之间数据的通过组内元素的相似性划分,采用距离作为相似性的评价指标,即认为某一个数据距离核中心对象的距离越大,其数据独特性就越强,由该值暴露整体数据的可能性就越大。该距离可根据实际要求,选用欧几里得距离、明科夫斯基距离和余弦距离等。K-means算法核心思想是各聚类本身尽可能地紧凑,而各聚类之间尽可能地分开,通过迭代寻找k个类簇的一种划分方案,使得用这k个类簇的均值来代表相应各类样本时所得的总体误差最小,其求解过程非常直观简单[3]。具体实现步骤如下:
1)创建一初始模糊伪划分k个点。
2)利用模糊伪划分,计算每个簇的质心。
3)对全局数据集中的每一个数据点,计算质心与数据点的距离,将数据点分配到距离最近的簇分组。
4)对每一个簇,计算簇中所有点的均值,并将均值作为新的质心。
5)重复以上2)~4)步骤,直到簇的质心不再改变。
K-means按照如上步骤将相同一类的数据聚集后,在组内聚集的基础上,按照所属类型发布,即可有效减少数据的隐私度。本文在上述算法的基础上,提出了一种用遗传算法来提高K-maens数据发布计算效率的GDK-means方法。在具体实现时,针对已有大学生信息数据的垂直划分数据库,在K-means算法的基础上,加入遗传算法来修改聚类中心,采用欧几里得距离确定系列数据的K个划分,使得各数据之间的差异最小,且各簇集之间数据差异明显,减少相互之间的关联。在大数据体量下,该算法具有一定的可伸缩性和高效性,并且计算复杂度仅为O(t)数量级,具体为O(NKt),其中N为数据表中数据项个数,t为迭代次数[4]。
3 GDK-means算法与模型建立
GDK-means为一个使用遗传算法来实现K步聚类分类的过程,它通过遗传算法中的过程来对节点数据进行选取,以生成一个隐藏用户标识数据的发布数据库。选择出最合适的隐私保护技术,可以有效地衡量和评价对隐私信息的保护程度,可对资助学生信息表中,按数据特征和应用需求来使用。一般按照以下条件对数据进行选择:簇内数据的相异度最小,达到聚类的目标函数;所选数据带来的信息丢失量是最小[4]。
3.1 数据标准化
令P为当前分布式数据库中节点个数,使用聚类方法将数据点到原型的聚类Dij作为优化的目标函数,利用函数拘束极值的方法对迭代运算调整规则,即使用聚类方法将节点划分为clt1,clt2,…,cltm等m个互不相交的簇[5]。
3.2 衡量信息敏感度
从信息理论的角度来看,自信息是用来衡量单个事件所含的信息量,即事件发生的概率与事件中包含的信息量先关,同步变化[6]。因此,学生资助信息发布数据中,每个敏感属性上某个特定值出现的频率越低,就意味着该值独特性越强,会因此泄露出更多的信息,如上述举例中的生源籍贯地,该取值在某些时候具有特殊独一性的情况。那么对该属性字段的敏感度赋值就应该越高。因此,可引入自信息概念,来度量敏感属性中不同敏感值的敏感度。
其中,设数据表T中,各属性字段敏感值的敏感度s的取值,设其在自信息上发生的概率记为Pr[s],则其敏感度定义为:
3.3 衡量信息丢失量
可以用被保护的隐私信息仍然被发现或者预测出来的可能性来衡量[7]。信息丢失量Breach = P真实数据所占的比例×P真实数据被识别出来的概率 + P非真实数据所占的比例×P非真实数据被识别出来的概率×P非真实数据被还原的概率。
设学生数据隐私破坏区间宽度BreachWidth,如果原始数据x落到区间[x1,x2]上的概率为c%,则称区间[x1,x2]是置信度为c%的隐私破坏区間,而该区间的宽度(x2?x1)就定义了置信度为c%的隐私破坏区间宽度,该值需小于等于k。
3.4 生成簇集合
基于以上的隐私保护模型以及衡量信息丢失量的方法,提出以下基于K-means隐私保护基础上的GDK-means生成簇方法。借助MATLAB中的F_JIR.m库,使该算法一次生成一个簇,并向簇中添加数据,当前簇中节点度达到k时,在产生新的簇来表达数据,直至无新的数据加入。
具体过程描述如下:
输入:局部数据集{DB1,DB2,…,DBP},聚簇个数k。
输出:k个聚簇。
Step1 以随机值初始化找到一个原始个体Si;
Step2 以Si为初始种群Q(1)主站点,随机产生k个初始聚簇中心
Step3 While(未达到聚类目标函数E)
{对每一个节点Si,(i∈1,p)
Receive({C1,C2,…,Ck});/*接收簇中心*/
利用遗传算法中的目标函数方法计算得到个体的适应值;
对于局部数据集DBi计算到所有全局聚簇中心的距离;}
Step4 while(数据项! = null)
{取出运行得到的数据集中的某个字段;
取出查询数据集中需要字段的值;
按选择策略和个体适应值大小从Q(n)中选择下一代再生个体;
设定交叉概率值q1和变异概率q2,对本代中的再生个体进行遗传交叉、数据变异等操作,生成最新一代的族群Q(n + 1);
重新按照目标函数来计算新一代族群Q (n + 1)中的个体适应值;}
Step5 用最接近目标适应值即数据最近原则确定当前Si所属聚簇;
Step6收集各站点所有的局部聚类信息后,修改新的目标聚类函数E;
Step7 直至目标函数E稳定,或达到一定的迭代次数,算法结束。
4 模拟实验
为了验证本文提出的算法的性能,使用资助学生的现有数据,并将其纳入模型进行模拟实验。实验所用计算机CPU为Intel core i7,8 GB内存,64位Windows 10操作系统,软件借助MATLAB。在实验中,实验数据集信息如表1所示。原始数据Student1、Student2、Student3、Student4是往年资助数据集,在这三组基础数据上,采用数据标准化,组合后得到数据样本集DataSet_1- DataSet_4。其中,DataSet_1服从均匀分布,聚类之间的划分清晰;数据样本集DataSet_2服从高斯分布并包含噪声数据点;数据样本集DataSet_3根据欧氏距离排序,三个聚类之间存在部分重叠;数据样本集DataSet_4服从高斯分布,五个簇之间存在绑定现象;最后四项是添加一些噪声后的数据集。
实验中随机从数据库中抽取500条记录,分别采用DK-means算法与文中所提出的GDK-means进行数据丢失量与执行效率的比较,其结果如图1和图2所示,明显可见采用GDK-means算法分析后的数据丢失量更小,执行时间更小,具有更好的效率。
通过实验,可以看出:
1)图1中,信息丢失量随着k的增加而变大。
2)确定的k个划分平均方差最小,对大的数据集比较高效。
3)聚类的运算时间有所降低,时间复杂度为O(Nkt)。
4)用户可以根据自己的隐私保护需求来设定迭代次数和改变k的值,来定义可承受的数据丢失量。
5 结 论
本文针对贫困学生数据发布中信息披露与隐私保护之间的矛盾,提出了一种基于GDK means的隐私保护方法。在该算法下,对学生信息数据库中的数据进行划分,对其中的敏感字段进行聚类分析,并量化了这一过程中的数据丢失量,同时有利于在实现隐私保护的同时,提高数据统计的有效性。敏感数据可以在K-means聚类的基础上在集群内进行泛化,从而对发布的数据进行去隐私,从而达到用户隐私保护的目的。通过理论分析和实验,验证了GDK-means算法在保证数据可用性的前提下,可以在数据发布中实现更好的隐私保护,运行过程对数据来说公平而高效,为安全有效的发布学生隐私信息数据提供了可行的解决方案。
参考文献:
[1] 宋海娜.数据收集与发布中的分级隐私保护关键技术研究 [D].北京:北京邮电大学,2021.
[2] 叶青.隐私保护轻度量化度量技术研究 [D].南京:东南大学,2019.
[3] 严加展,陈华,李阳.改进的模糊C-均值聚类有效性指标 [J].计算机工程与应用,2020,56(9):156-161.
[4] 张可铧,成卫青.基于空间动态划分的差分隐私聚类算法 [J].计算机工程与应用,2021,57(2):97-103.
[5] 刘越.K-means聚类算法的改进 [D].桂林:广西师范大学,2016.
[6] 王延军.基于模糊聚类分析的教学评估 [J].甘肃高师学报,2022,27(5):34-36.
[7] 王海燕,崔文超,许佩迪,等.Canopy在划分聚类算法中对K选取的优化 [J].吉林大学学报:理学版,2020,58(3):634-638.
作者简介:刘晓娜(1980—),女,汉族,甘肃庆阳人,讲师,硕士,研究方向:软件理论、隐私保护。
收稿日期:2023-01-28
基金項目:甘肃省高等学校创新基金项目(2020B-256)