银行系统大数据共享隐私保护问题研究
2018-06-19袁凤霞
袁凤霞
摘要:在大数据时代,企业实现数据共享,可以减少数据采集、资料收集等重复劳动和相应费用。但在共享并使用数据的道路上,我们必须面对的一个问题是数据隐私,它已成为制约大数据共享进一步发展的最大障碍。在银行系统中,由于各银行考虑到客户及企业隐私,各银行间并不进行数据共享,这导致一些通过数据共享可以非常简单的业务操作也要消耗大量的人力物力来解决。文章提出的隐私保护实体匹配技术在保证个人和企业隐私的前提下,解决了上述问题,阐述了隐私保护实体匹配技术的概念,并提出了两个针对银行系统具体问题的解决框架。
关键词:实体匹配;隐私;密码学;金融
随着计算机应用越来越广泛,各行业各部门对信息的需求也越来越广泛,要求越来越高。但由于数据由不同用户以不同方式建模,导致了各数据源之间不同程度的异构,使得相关信息无法方便地统一起来。数据集成技术就是为实现各种数据源间信息的交流和共享而发展起来的。大数据共享在金融、医疗、政府等领域都具有广泛而深远的意义,然而,在大数据共享的同时,不得不考虑到隐私问题。例如,在金融行业,各银行在为个人提供外汇业务时,并不知情该客户是否己在其他银行办理过此项业务,各银行间的数据不共享可能导致一些违规操作。又例如,客户在申请信用卡前,各银行会调取该客户的个人信用记录,该行为无疑侵犯了客户的个人隐私。
隐私保护技术[1-2]的出现就是为了解决上述问题。具体地说,实施数据隐私保护主要考虑以下两个方面:(1)如何保证数据应用过程中不泄露隐私;(2)如何更有利于数据的应用。当前,隐私保护领域的研究工作主要集中于如何设计隐私保护原则和算法更好地达到这两方面的平衡。
1 隐私下的实体匹配概述
隐私保护下的实体匹配是将描述现实世界中同一实体的不同表现形式的信息进行匹配的过程[2-3],该过程中除了最终匹配结果被数据源间共享,其他信息均未泄露。隐私保护下的实体匹配的输入为结构己知的记录集合,即关系数据库中的表,其输出是两个数据库中匹配上的实体的ID对。匹配的流程如图1所示。
隐私保护下记录匹配的流程主要分为分块、比较、决策3个核心过程。
(1)分块过程:在实体匹配中,Blocking占有非常重要的地位。Blocking算法可以将记录进行分块,从而减少比较次数,进而提高实体匹配的效率。应用隐私保护技术在安全的环境下对数据源进行分块处理。
(2)比较过程:根据模式匹配信息,在隐私保护技术的保护下分别对候选匹配对中各属性进行相似度计算,得到属性间的相似度。
(3)决策过程:采取特定策略将各属性的相似度结合成为两条记录的相似度,例如将各属性的相似度进行加权求和。最后通过判断两条记录的相似度是否大于阈值,来确定两条记录是否描述同一实体。
2 银行系统存在的隐私保护问题及解决框架
2.1各银行间数据不共享导致的外汇违规操作问题
在银行系统中的外汇业务规定,每位客户每天外币转账不得超过5 000美元。但如果某位客户己在银行B转出外币5 000美元,又到銀行A继续办理外币转账业务则可以正常办理。该现象说明由于银行间的数据不共享,导致一些违规操作的存在。但将各银行的客户信息进行共享又会导致企业内部隐私信息的泄露。因此匹配出同一客户在不同银行办理的所有外汇业务,并且不泄露除了该项信息以外的其他客户信息是亟待解决的问题。
应用框架如图2所示,可以保旺在各银行的客户信息均未被泄露的前提下,匹配出该位客户己在银行B转出过5 000美元。该技术即为隐私保护实体匹配技术,因此,实体匹配中隐私保护问题的研究成为当今热点。该技术在接下来的部分会具体提到。
2.2在客户办理信用卡时,个人信用记录泄露问题
在某位客户在办理信用卡时,地方银行会从中国人民银行调取该位客户的个人信用记录信息,该行为侵犯了客户的个人隐私。
个人信用记录保护框架(见图3)可以解决以上问题。通过在中国人民银行设立信用评测系统,各地方银行只需向中国人民银行传入客户信息,信用评测系统会自动评测该客户信用,判断其是否符合开卡标准并返回给各银行。这样避免了该客户个人信用记录的泄露。
3 结语
本文讨论了实体匹配中隐私保护的有关问题并提出了两个解决银行系统内具体问题的解决框架。通过本文介绍的隐私保护的实体匹配技术,可以在不暴露隐私信息的情况下得到实体匹配的结果。隐私保护的实体匹配技术的研究,对于大数据共享具有深远的意义。