APP下载

大数据背景下的信用管理和隐私安全研究

2018-11-09李红娟丁红发

电脑与电信 2018年8期
关键词:信用聚类分类

王 祥 李红娟 丁红发

(1.贵州财经大学,贵州 贵阳 550025;2.贵州建设职业技术学院,贵州 贵阳 551400)

1 大数据与信用数据管理

随着信用经济的普及,典型的个人信用记录已经难以满足经济发展的需要,市场经济需要比普通的个人信用更高层级的信用平台,以促进经济的良性发展,以征信为代表的行业信用应运而生。

国务院于2014年发布的《社会信用体系建设规划纲要(2014—2020年)》中指出,需要建立健全社会征信体系,并推动其在政务诚信建设、商务诚信建设以及社会诚信建设等方面的应用。征信业的普及应用从侧面反映了数据从互联网初级阶段迈步到大数据时代。

当前大数据背景下的信用管理还存在不少问题[1]:(1)信用管理观念落后。多数企业对信用管理的认识不足,还将重点放在发展用户、市场营销上,还没有让用户体验到信用管理服务带来的优良体验,重视不够导致信用管理水平低下。(2)信用管理体系不健全。信用管理部门缺乏对信用数据价值的正确认知,不能精确测算信用数据间的内在联系,因而也就不能借助已有的信用数据进行风险防范。(3)信用数据维度少。已有的信用数据管理还主要是用户注册时提交的初始数据,很少利用网络上公开的信息,诸如网站访问记录、商品浏览记录、朋友圈信息等等。

2 大数据与隐私安全

随着网络技术的普及以及手机等终端的联网,用户个人信息会被收集到互联网公司的数据库中。除此之外,大数据背景下还有一些隐含的隐私风险:在长期使用互联网、各种通信设备的过程中,用户的习惯等各种行为模式会被记录下来。例如,长期使用的输入法会记录个人习惯用语;搜索引擎会保留经常搜索的内容,从而分析用户的关注目标[2];电商系统中的浏览记录会记录个人喜好,从而推荐同类或相关商品。这些数据在经过大数据技术的分析后,变相地时时“监控”我们的日常活动。

大数据技术和物联网的有效结合,使得各种数据变得更加多元化。不同类型的传感器收集到的用户信息远比个人主动提交的数据丰富。以支付宝为例,其人脸支付功能相当于银行卡以及实时面孔的组合,这种人脸支付功能将面部特征转换为唯一的识别码,并和数据库中的信息进行匹配,从而确定实际支付的使用者是银行卡本人。然而,这样也会存在问题:虽然每个人的面孔是唯一的,每个人的面孔可能大量出现在诸如微信朋友圈、微博、QQ空间、博客等各种社交工具中,通过对分析大量照片的局部面部特征,极有可能合成得到全局的面部特征,从而骗过人脸识别系统。

上面的例子说明,在大数据时代多维数据的组合带来的风险比传统数据模式下的风险更大,这就需要对信用管理及隐私安全等方面更加重视。

3 信用数据间的关联性

在对大量的信用数据进行分析时,可以借助k-means聚类算法分析不同信息的特点,以此进行分类。为了区分重要数据、非重要数据对分类的不同影响,可以为不同的数据分配不同的权重。对于不同数据的使用者采用不同的脱敏方案,不论哪种方案都会从整体数据集中抽取大概5%的数据进行脱敏处理。

k-means聚类算法的目标是找到一个中心,使得给定的n个数据点和中心的距离之和最小。目标函数可以描述为:

当p=1时,数据点和中心间的距离是“街区距离”;当p=2时,数据点和中心间的距离是“欧式距离”。k-means聚类算法的步骤是:(1)初始化。随机指定k个聚类中心。(2)初始数据归类。对于每个数据xj,找到离它最近的聚类中心ai,并将其分配到ai所在的类。(3)重置中心。计算目前k个中心的中心。(4)计算距离。计算每个数据和新的中心间的距离。(5)判断目标函数wk是否收敛。如果收敛则返回当前的中心(a1,a2…,ak),否则跳转到步骤(2)。

信用数据通常是一些特定的个人信息,主要包括:身份信息(姓名、性别、年龄等)、银行信用(贷款记录及信用卡交易有关的信息)、非银行信用(与商业机构的赊销信息以及在公共服务单位的缴费及欠费情况)等。另外,从日常生活中选择会用到上述信息的代表性机构,如银行、医院、公共服务单位、电信行业、公安局等;如果信息在机构中出现则标记为1,否则标记为0,对这些信用数据信息,用k-means聚类算法直接进行分类及先加权后再分类,得到的分类结果如表1所示。

表1 信用数据信息分类结果

由表1可以看出,真正和信用管理相关的“银行信用”、“非银行信用”被分到同一类,其他基本信息被分到另外一类。信用数据加权对分类有影响的原因是,加权的数据更能体现自身的重要程度。综合分类结果可以看出,被分为一类的信息同时在同一机构中出现的概率比较大。另外,不同类别中的信息在经过组合后很可能推断出其他信息,也就是说信用数据间存在一定的关联性。

对于这种大数据环境下信用数据关联性导致的隐私安全问题,很难找到非常有效的解决方法,最直接的解决方式是提高数据库的安全性,同时将用户习惯分散到多个节点,避免在同一节点留下长期的访问信息记录。这样一来,在保证了节点分散化以及信息分片的同时,就可以大大降低信用数据风险,保证用户隐私安全。

4 总结

本文对大数据背景下的信用数据管理以及隐私安全等问题进行分析,并从数据挖掘入手,找到用户征信数据等各种信用数据间的相关性,以此评估信用数据的风险大小,并在此基础上对信用数据及隐私风险进行控制。

猜你喜欢

信用聚类分类
分类算一算
为食品安全加把“信用锁”
基于K-means聚类的车-地无线通信场强研究
信用收缩是否结束
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
信用中国网
基于高斯混合聚类的阵列干涉SAR三维成像
信用消费有多爽?