身份隐私信息保护方案设计
2017-12-22柳小文雷军程
柳小文,雷军程
(1.邵阳学院 湘西南农村信息化服务湖南省重点实验室,湖南 邵阳,422000;2.邵阳学院 信息工程学院,湖南 邵阳,422000)
身份隐私信息保护方案设计
柳小文1,2,雷军程1,2
(1.邵阳学院 湘西南农村信息化服务湖南省重点实验室,湖南 邵阳,422000;2.邵阳学院 信息工程学院,湖南 邵阳,422000)
文中提出了一种基于身份结构特征的身份隐私信息保护方案。模拟和仿真的结果表明本方案易于实现,在保障身份隐私信息安全的同时,较好地保留了原信息的有用性和使用效率。
隐私信息保护;匿名技术;结构特征;加密技术
近年来,个人隐私泄漏问题层出不穷,2016年徐玉玉案让国人深刻感受到个人隐私泄漏造成的严重危害。正是因为其姓名、住址和学校被犯罪分子掌握才使得这名涉世未深的准大学生相信了骗子精心编织的谎言。治理个人隐私泄露带来的犯罪问题,在公安机关加大对侵害公民个人信息犯罪活动的打击力度同时,更需要从技术层面解决个人隐私信息保护问题。
我国公民的居民身份证号码具有唯一性。在许多管理信息系统(尤其是需要实名制的系统,如银行、通信、考试、学籍系统等)中用身份证号作为用户的标识。然而,由于技术等各方面的原因,大多数应用场景并不能防范个人身份被冒用或盗用。公安部从2010起开展网络身份管理试点,建设了全国唯一的“公安部公民网络身份识别系统”(即EID),该系统已经通过了国家密码管理局的系统安全性审查及权威技术鉴定,并于2011年投入正式运行。EID是以密码技术为基础、以智能安全芯片为载体、由“公安部公民网络身份识别系统”签发给公民的网络身份标识,能够在不泄露身份信息的前提下在线远程识别身份[1]。然而,涉及到EID芯片的发放和应用系统的改造,EID的推广应用需要一定的时间才能实现。在全面启用EID之前,如何解决系统存储的个人身份信息的隐私保护问题呢?
文献2总结基于数据失真、数据加密、限制发布等隐私保护技术用于个人身份信息的隐私保护。这些隐私保护技术的理论研究取得不错的进展,有各自的优缺点和适用范围,其研究的重点在于“数据挖掘”和“匿名发布”两大领域,并不能直接套用于身份隐私保护[2]。
文献3提出了一个针对网络信息中的个人隐私保护方案,将隐私信息加密后存储的同时设计文本索引和查询转换方法,有效解决直接加密存储信息数据利用率低的问题[3]。方案建立索引时将隐私信息划分为多个子集,当子集的个数较小时不能较好的抵御“统计攻击”。
文中设计了一种基于身份证结构特征的隐私保护方案来解决信息系统中身份信息隐私保护问题。该设计使用的身份证号的字符集为[0-9X],仅包含10个字符,与文献相比,该设计具有一定的优越性。
1 身份隐私信息保护方案
身份隐私信息保护要求系统即使遭遇了黑客入侵或内部人员恶意窃取,个人的身份信息也不会泄露出去。最简单的方法是将身份信息采用加密算法(如DES,AES,RSA,MD5)加密存储于数据库。但是,加密后的密文失去了原始信息的一些固有特性(如有序性、相似性等),并且身份信息的查询效率也不高。
根据GB11643-1999《公民身份号码》,我国第二代居民身份证号具有以下特征[4]。
公民身份号码由十七位数字本体码和一位校验码组成。排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。 其中地址码表示所在县(市、旗、区)的行政区划代码。地址码的第一、二位表示省(自治区、直辖市、特别行政区)。第三、四位表示市(地级市、自治州、盟及国家直辖市所属市辖区和县的汇总码)。其中,01-20,51-70表示省直辖市;21-50表示地区(自治州、盟)。第五、六位表示县(市辖区、县级市、旗)。01-18表示市辖区或地区(自治州、盟)辖县级市;21-80表示县(旗);81-99表示省直辖县级市。
一个典型的身份证号如图1所示。
图1 身份证号编码规则Fig.1 Coding rules of ID number
根据身份证号的结构特征,设计了如下分案:
(1)编码
1.将身份证号分解成若干个集合,集合的划分从业务需要和抗攻击攻击两个因素出发。如业务系统需要频繁查询某省的个人用户情况,则可将行政编码拆分为{Province}、{City}、{Country}三个集合,生日同样也如此考虑。划分的结果为:IDX={x1,x2,x3,...xn},1 2.为增加识别的难度,增加干扰。 IDX={x1+a1,x2+a2,…,xn+an} 其中a1,a2,…,an的取值可根据系统的实际情况设置。 (2)查询 比较加密技术,除了能够很好地支持精确查询,还可满足一定程度的模糊查询需求。查询时,需要先对查询的身份证号预处理,将其编码得到待查询集合,将查询由原来的单个关键字检索转化为多个关键字检索。加密保护技术加密后的密码长度变长且无规律,查询只能以字符串比较的方式进行。而转为多关键字查询并结合数据库索引,查询效率可以得到较大幅度的提高。 为检验身份隐私信息保护方案的有效性,以某学生信息管理系统为例进行模拟与仿真。数据库为Sql Server 2000,系统开发工具为VS CSharp 2008,操作系统Windows 2008 Server R2。 (1)构造映射 映射集合设计为: IDX={x1,x2,x3,x4,x5} 其中: x1∈P,P为省级编码集合,x2∈S,S为市级编码集合,x3∈C,C为县级编码集合,x4∈B,B为生日集合,可能范围为19000101~至今,x5∈Z,0 在实际操作时为处理方便和增加干扰,将x4(生日)转化距离1900-1-1的天数。 设计干扰集合 A为 {-1,23,3,0,-207},加上干扰项后,令: IDY=IDX+A={x1-1,x2+23,x3+3,x4,x5-207} (2)更新数据库 首先,执行如下命令为个人信息表添加5个字段,x1,x2,x3,x4,x5,数据类型为整型。 alter table[表名]add x1 int null, x2 int null, x3 int null, x4 int null, x5 int null 然后,遍历表按照上述映射,计算每个字段的值,并更新相应字段。最后,删除存储了原始身份信息的列。 (3)查询的处理 查询时,系统先对查询数据做预处理,处理方法与更新数据库操作相同,先将其按设计好的映射和干扰规则处理,然后拼接出查询字符串提交到数据库查询。 假设,用户界面提交一个身份证号码430000190001019991(为避免隐私泄漏,文中虚拟了一个不存在的身份证号)的精确查询,系统首先预处理后得到一个IDY集合如表1所示。 表1 映射示例Table 1 Mapping example 生成查询字符串为: select * from [表名]where x1=42 and x2=23 and x3=3 and x4=0 and x5=702 (4)效率分析 文中对MD5加密方式和采用文中方案改造的系统,进行了精确查询效率的比较,从运行情况看,采用本方案的执行效率当数据量大时有较大性能的提高,见表2。 表2 执行效率分析{s}Table 2 Analysis of executive efficiency {s} 由于历史原因,许多信息管理系统都以公民身份证号作为个人信息的唯一标识,用于身份核对或系统登录等。当系统遭遇黑客攻击或内部恶意窃取,就可能引起身份隐私泄漏,造成严重危害。我国公安部已经加大力度推广EID用于网络信息系统身份认证。但系统改造需要时间以及软硬件成本,短时间不能覆盖到所有的信息系统。文中提出的身份隐私保护方案在保护隐私不被泄漏和保障数据的可用性之间取得了一个较好的平衡。对系统改造可以根据业务情况灵活调整集合划分和干扰,改造过程简单且易于实现,改造后系统功能基本不会受到影响,具有较强的可操作性。 [1]EID-百度百科[EB/OL].[2017-10-20].https://baike.baidu.com/item/eID/612330?fr=aladdin [2]周水庚.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861 [3]卢成浪.针对网络信息的个人隐私保护方案[J].小型微型计算机系统,2016,36(6):1291-1295. [4]柳小文.基于结构特征的身份证号码基数排序算法研究[J].邵阳学院学报(自然科学版),2015,12(2):22-24. DesignofIdentityPrivacyInformationProtection LIU Xiaowen1,2,LEI Juncheng1,2 (1.Shaoyang University,Hunan Provincial Key Laboratory of Informational Service for Rural Area of Southwestern Hunan,Shaoyang 422000,China;2.School of Information and Engineering,Shaoyang University,Shaoyang 422000,China) privacy information protection;anonymous technology;structural features;encryption technology 1672-7010(2017)06-0019-04 TP309.2 A 2017-09-26 湖南省高校科技创新团队支持计划资助 柳小文( 1978-) ,女,湖南邵阳人,讲师,系统设计师,从事算法、软件工程研究 Received:A scheme of identity privacy information protection is presented in the paper.Simulation results show that it is easy to realize,and it is better to preserve the usefulness and efficiency of the original information,while ensuring the security of identity privacy.2 模拟与仿真
3 结束语