浅析校园大数据的脱敏问题
2020-12-07莫可
莫 可
北京林业大学,北京 100083
一、背景
当前,校园大数据分析作为“智慧校园”的重要组成部分,在教学和学生管理、校园状态管理和预测等方面能提供实时而有效的决策支撑,同时,大数据分析的探索功能也帮助学校的管理者以全新的角度去重新认识校园里的一切事物,这一切的基础,都不离开对校园内部各类数据的收集和利用。但诸如学生学习成绩、校园一卡通消费记录、校园网络使用日志等隐私数据,能否被用于或者如何被用于大数据分析,人们的观点不一而同。在隐私保护讨论日趋激烈、隐私泄露日益严重的背景下,如何制衡大数据分析与个人隐私保护之间的“矛与盾”,成为了必须解决的问题。
二、数据脱敏及其意义
一般而言,在收集、处理、展示数据的过程中,当个人数据贡献于一个高度抽象的统计结果或预测结果时,人们通常不会认为或者感受到自己的隐私受到了侵犯,因此并不会介意相关数据以诸如汇总的方式被抽象地使用。但在大数据分析的实际工作中,尤其是涉及学生管理的事务中,经常会遇到“由结果至源头的追溯”问题,例如:大数据判断有部分学生作息不规律,有健康风险,需及早干预。从学生管理的角度而言,大数据发挥预测的功能是十分有益的。但仅仅是预测和发现情况是远远不够的,作为管理者必须要想办法将危险消除在萌芽之中,因此往往需要将发现的问题联系到实际个人。但此时若直接根据数据结果,定位到个人,不免令人产生隐私被侵犯的感受。
数据脱敏,是指按照一定规则降低数据的敏感程度,使其在采集、传输、使用等环节能够将暴露风险降到最小。2019年国家网信办公开发布《数据安全管理办法(征求意见稿)》,明确要求个人信息的存储和利用必须经过匿名化处理,切实降低个人信息的泄露风险。因此,数据脱敏技术成为解决个人隐私信息保护的关键过程。
三、隐私泄露根源与隐私分类
如今隐私泄露在生活中非常多见:例如,知名网站的用户数据库被黑客攻陷,明文存储的用户信息成为黑市交易的对象;快递公司内部人员暗中收集的客户快递单贩卖给电话诈骗团伙,诸如此类的报道屡见不鲜。根据安全公司Risk Based Security 公布的数据,2019年上半年全球发生数据泄露事件3800余起,相比上年同期增加54%。从本质而言这些问题都是由于不分类、不规范地存储和使用含有个人隐私信息的数据而造成的。正是因为意识到数据泄露可能造成的潜在危害,如今在国家、行业、企业等各个层面,都越发重视数据的安全问题。
根据由一项或几项隐私信息识别到具体个人的能力,本文将隐私信息总结划分为四个类型:(1)完全识别型隐私,即通过一项信息就能识别个人,例如每个人的身份证号、手机号等;(2)联合识别型隐私,即某一项信息不足以识别个人,但足够多的几项联合起来可以识别个人,例如性别、身高、年龄、地址等;(3)敏感隐私,即无法直接识别个人,但内容不宜公开,公开后会对当事人造成困扰的信息,例如:各类账号、密码、疾病信息、学习成绩、家庭住址、个人收入、各类购物信息等;(4)普通隐私,即无法直接识别个人,公开后对当事人造成的影响较低的信息,例如:单位名称、职称、职务、民族、籍贯、学习经历等。
上述四类隐私,若未经授权而形成泄露,对个人造成的影响也有轻重之分。针对不同类型的隐私,应当根据其特点和内容的重要程度,制定不同的管理或使用规范。
四、常见脱敏方法
脱敏处理由易到难,一般可有三个层次的要求:
(一)基本处理
常见脱敏方法包括:(1)替换法或省略法,例如将性别“女”替换为字母F,将“1号楼1单元101室”替换为“1-1-101”,此类方法通常能够保留一定的信息完整性和阅读性,对信息的持有者来说容易维护,但相应的也容易被恶意侵犯者破解和掌握信息的含义,从而造成信息泄露;(2)重排,例如将“apple”倒序重排为“elppa”,应用此类方法时,数据可依照一定规则进行恢复,但同样容易被破解;(3)字典加密,最简单凯撒加密法就是一种字典加密,例如以“+1”方式将“123456”加密为“234567”,其实质是将数字0对应为数字1,数字1对应为数字2,……,数字9对应为数字0,具体选用什么样的字典进行加密是根据实际情况而决定的;(4)截断或掩码,例如以159开头的11位手机号码截断为159,通过前三位判断用户的所属运营商;又例如在快递或外卖单上,将11位手机号码处理为159XXXX1234,此类方法舍弃了一定数据精度,虽然信息的持有者和使用者容易识别,但此类数据只能满足特定的信息应用场景,对其他场景的适应性不好,或称,对信息生产环节不友好;(5)取整,例如将一个五位数字按千位四舍五入取整,比如将12,345取整为12,000,此类方法一般是根据实际工作的需要而舍弃一定的原始数据精度,对原始数据的内容具有一定的保护意义。
(二)K-匿名处理
在常见的脱敏规则基础之上,对隐私信息的处理还有许多更高级别的处理模式。K-匿名处理方法就是其中一类。K-匿名处理主要针对联合型隐私数据,其基本思想是在消除完全识别型隐私数据影响的基础之上,通过对数据集的数据项进行掩码或截断等方式的处理,使数据集中的任一一条记录,都有另外K条记录与它相等,使得非法接触数据的攻击者无法准确识别到具体的信息主体。
设某个数据集包含学生的基本信息,其部分字段分别为{序号,年龄(岁),身高(厘米),助学金(元)}。数据集中的记录A为{1,19,176,1000},记录B为{2,18,178,1000},记录C为{3,19,181,1500},记录D为{3,18,175,1000},记录E为{5,19,182,1500}。假设攻击者知道某学生的年龄(18岁)和身高(178厘米),则容易知道该生的记录为B记录,对应的助学金为1000元。此例中,年龄和身高,属于联合识别型隐私数据,而助学金属于敏感隐私。
此时对记录A、B、C、D、E的年龄和身高字段进行掩码处理,处理后记录A为{1,1*,17*,1000},记录B为{2,1*,17*,1000},记录C为{3,1*,18*,1500},记录D为{4,1*,17*,1000},记录E为{5,1*,18*,1500}。此时,若知道某学生的年龄(18岁)和身高(176厘米),与之符合条件的数据记录为 A{1,1*,17*,1000}、B{2,1*,17,1000}、D{4,1*,17*,1000}三条记录,无法准确判断某学生对应哪一条记录。此时,我们称记录A、B、D在识别方面的能力是相等的,称为一个相等集。若知道另一个学生的年龄(19岁)和身高(182厘米),此时数据集里能匹配到的记录是 C{3,1*,18*,1500}和 E{5,1*,18*,1500},此时称记录C和D是一个相等集。
在某一个数据表里,对任意一行记录,都至少有K-1条记录与它相等,则称该数据表符合K-匿名要求。对攻击者而言,猜中准确记录的概率低于或等于1/K。对于上述示例数据集而言,其达到了2-匿名要求,即攻击者准确猜中记录的概率低于1/2。
(三)L-多样性处理
在上述例子中,虽然无法明确某学生(18岁,身高176厘米)是A记录、B记录、D记录,但是依然可以知道,该生的助学金为1000元。为此,可以对数据集插入一条干扰数据,记录F{6,1*,17*,2000}。此时攻击者便无法判断该学生的助学金是1000元或2000元。对于记录A、B、D、F构成的相等集而言,它助学金字段的多样性为2,此时攻击者猜中准确记录的概率低于1/2。如果对于某个相等集的记录,对应的敏感数据的结果有L个“合适的”值,则称该相等集满足L-多样性要求。
五、脱敏原则及典型过程
在校园大数据相关工作中,需根据实际情况对数据进行脱敏处理,对于常规脱敏方法可以直接实现,K-匿名处理和L-多样性处理一般需要借助软件或者程序实现。在实现脱敏处理的过程中,还需要注意以下的原则:其一、对数据加密尽量使用可逆的加密方法,避免对原始信息造成损失;其二、完全识别型隐私必须进行脱敏处理,切实保护用户信息;其三、结合实际情况考虑是否满足K-匿名或L-多样性要求,以设计数据格式,合理使用脱敏方法处理为宜,尽量不插入干扰数据,避免信息失真。其四,以保障可读性、可用性为原则,选择合适的脱敏方法向第三方提供部分数据,避免提供原始数据。
在校园大数据分析领域内,校园网络日志数据是常见的需要脱敏处理的对象,以下以其处理过程为例进行说明。
(1)学号:一般学号的编排都遵循年级-学院-专业-班级等逻辑,其最后两位或三位一般为班内编号,通常可以对其进行掩码操作,对学号信息进行部分保护;(2)IP地址,可以采用凯撒加密方式对IP地址的各段数字进行处理,常见映射为“+1”操作,其中255进行“+1”操作后应该为0。需要进行解密操作时,只需要对IP地址的各段数字进行“-1”操作即可。采用此类可恢复的加密方式能够有效的实现对数据的保护,对掌握加密算法的内部人员而言又易于还原;(3)连网和断网时间,可以根据需要将时间的记录精度进行取整操作,一般精确到小时或每15分钟即可;(4)在线时长、产生流量、产生费用等,这些数据一般需要进行准确的统计或计算操作,因此一般不进行处理。
按上述的方式对网络日志数据进行处理后,任何第三方依然可以使用该数据对学生的网络行为或习惯进行分析,例如通过连网断网时间判断学生是否正常作息(熬夜),通过在线时长和产生流量判断学生的网络行为(长期上网、流量异常)。对于数据异常的用户,可以通过掩码后的学号确认其所在的学院、班级,并以班级为范围进行提示,避免直接接触个人,以充分尊重其个人的隐私保护问题。如果确因现实情况,需要进一步确认具体身份,可以将IP地址进行对应解密,比照相关资料,识别到具体的个人。