APP下载

基于浏览行为的用户身份认证方法研究

2016-03-04张鸿博

电脑知识与技术 2015年36期
关键词:身份认证特征向量

张鸿博

摘要:为了解决当前普遍存在的用户身份认证问题,通过分析用户浏览行为,为每个用户以时间相似性为基础划分浏览过程,建立了基于支持度或提升度的特征向量的行为模型,通过向量间距离判定新浏览序列是否属于该用户。系统的误报率较低,且算法时间复杂度为O(n),可以配合其他身份认证手段共同使用。

关键词:身份认证;浏览行为;支持度;提升度;特征向量

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)36-0055-02

Abstract: In order to solve user authentication problem, this paper analyzed the user browsing history, divided browsing process for each user based on the similarity of time, established the feature vector model based on the degree of support or lift, and determined whether new browser sequences belonging to the user by the distance between vectors. The system has low false positive rate, and the time complexity of the algorithm is O(n), and can be used with other authentication methods.

Key words: authentication; browsing behavior; support; lift; feature vector

1 概述

在电子商务所面临的安全性威胁中,用户身份盗用是一类发生率较高但仍未有有效防治策略的问题。目前,利用用户的浏览行为来对用户的身份进行认证是研究的一个热点[1]。在利用用户浏览行为建立用户模型方面,主要包括用Web日志挖掘用户行为模式[2]、基于用户查询意图识别的模型[3]、基于Web数据挖掘的用户浏览兴趣路径模型[4]、马尔科夫模型[5]及加权马尔科夫模型[6]等。然而,以上认证方法普遍存在误报率过高的问题。本文为了尝试解决当前用户身份认证系统中误报率过高的问题,设计了用户浏览行为模型及身份认证算法,并通过实验验证系统效果。

2 用户行为模型及身份认证方法

2.1 用户行为模型总体设计

本文使用提取特征向量的方法来为每个用户建立统计模型。对于每个用户的浏览记录,我们按照时间相似性将其划分为多个浏览过程。接下来,我们根据这些浏览过程,为每个用户挖掘5个最能代表该用户的域名。我们将所有用户挖掘到的所有域名的并集作为特征向量的分量。所有用户共享特征向量的分量,因此特征向量的分量本身并不能表示用户之间的区别。对于每个用户,我们计算特征向量中的每个域名对该用户的支持度或提升度,并将其作为该用户特征向量的值。这样,我们就为每个用户建立了特征向量,也就是该用户的行为模型。当我们需要验证一个新的浏览序列是否属于某个用户时,首先按照上文所述的方法为新的浏览序列求出特征向量的值,通过计算新的浏览序列特征向量与该用户特征向量间的距离判断新的序列是否属于该用户。如果新的浏览序列通过了认证,系统对用户特征向量进行更新,以反映用户习惯的变化。模型整体设计如图1所示。

2.2 建立用户行为模型

我们首先对用户的浏览记录划分浏览过程。用户浏览过程是指用户一次连续不间断浏览网页的过程,通常是指从浏览器打开到浏览器关闭期间浏览的网页。根据时间上的相似性,用户一次浏览过程中浏览网页的时间间隔总是小于一个值。因此,我们可以根据这一特性划分浏览过程。如果连续的网页浏览记录之间的时间间隔小于30分钟,将这些网页归为同一浏览过程;否则,划分为不同的浏览过程。

接下来需要建立用户特征向量。用户特征向量是本文用来表示用户浏览习惯的模型。用户特征向量的分量是域名,分量对应的值是该域名对用户的支持度或提升度。系统从每个用户的浏览记录中挖掘5个出现频率最高的域名,对于n个用户,共有5n个域名。系统以这5n个域名的并集中的域名作为特征向量的分量。由于域名可能重复出现,因此特征向量的分量数小于等于5n。设特征向量的分量数为m,在这里我们将特征向量中的域名表示为。我们以特征向量中的域名对用户的支持度(support)或提升度(lift)作为用户特征向量的值。支持度与提升度的定义如文献[7]所示。

2.3 用户身份认证

通过上一节的方法,我们为每个用户建立了特征向量。当一个新的浏览序列出现时,我们用同样的方法对该序列划分浏览过程。接下来我们计算特征向量各个分量在新浏览序列中的对应值,这样我们就为新浏览序列建立了特征向量。通过计算向量间距离,我们可以判定用户行为是否匹配。

当我们需要认证新序列是否符合某个用户的行为模式时,我们计算新序列的特征向量与所有用户的特征向量的距离并排序。当该用户特征向量与新序列特征向量之间的距离最小,且距离d小于一个阈值时,我们认为这个新序列是符合该用户行为模式的,接受该序列,否则认定为不符合行为模型,拒绝该序列。

3 实验结果分析

我们选取三个用户在异端时间内的浏览记录作为实验数据建立特征向量。实验结果显示,特征向量中共含有11个域名。为方便后文叙述,我们对这11个域名以1~11进行编号。三个用户支持度特征向量的分布如图2所示。

通过分析支持度特征向量间距离与提升度向量间距离,我们发现提升度对变化敏感,震荡幅度大年,表现不稳定。由于支持度特征向量整体变化幅度不大,支持度特征向量对用户的区分度变化也不大,选取阈值相对容易。因此,我们选择以支持度作为特征向量的值。我们将认证准确率定义为系统正确判定用户合法以及正确判定用户非法的频率,理想状态下系统认证准确率应为100%。

现在我们每次使用用户单个的浏览过程作为新浏览序列来测试系统的认证效果,以模拟用户浏览网页的认证效果。具体做法是,从用户的验证集中取出一个浏览过程,利用该浏览过程作为新浏览序列判断系统是否能正确认证用户。系统的认证准确率见表1。

系统的总体认证准确率为82.05%。通过分析系统认证准确率,我们可以发现,系统对三个用户的误报率较低,分别为14.29%、1.59%和2.13%,即每个正常用户通过认证的概率较高。这说明系统可以较好地识别正常用户。由于在实际的浏览行为中,身份盗用只占非常少的一部分,因此对正常行为降低误报率是至关重要的。而另一方面,系统对用户身份盗用的检测率较低,即漏报率较高。

我们将认证效果与文献[8]的认证方法进行对比。在文献中的认证方法下,系统最好情况下在2个用户时的认证准确率为89.80%,5个用户时的准确率为85.35%,其误报率分别为19.82%和16.57%。在本文的实验环境中,系统的认证方法在整体准确率上低于该方法,但误报率较低,可以避免正常用户被频繁打扰。由于系统漏报率较高,因此系统可以与其他常规认证手段共同使用以提高检测率。

3 结论

本文针对现存的Web用户身份认证系统误报率过高的问题,给出了一种基于统计模型的Web用户身份认证系统。系统无需额外硬件设备,无需特殊装置,只需要用户浏览记录即可对用户身份进行认证。本系统计算用户特征向量的过程可以离线进行,不占用服务器与客户端之间的通信信道。本系统只有用户身份认证阶段需要进行在线计算,占用用户时间少,而判定算法的复杂度是O(n),算法复杂度较低,可以应对大流量用户的访问。由于系统不依赖用户行为的时间顺序,因此误报率较低,避免了正常用户被频繁打扰的问题。

参考文献:

[1] 谢逸, 余顺争. 基于Web用户浏览行为的统计异常检测[J]. 软件学报, 2007, 18(4):967-977.

[2] 杨风雷, 阎保平. Web用户行为模式挖掘研究[J]. 微电子学与计算机, 2008, 25(11): 146-149.

[3] 杨艺, 周元. 基于用户查询意图识别的Web搜索优化模型[J]. 计算机科学, 2012, 39(1): 264-267.

[4] 何跃, 陈大勇. 基于Web数据挖掘的用户浏览兴趣路径研究[J]. 计算机工程与应用, 2012, 48(7): 106-108. [5] Mamoun A. Awad. Prediction of User's Web-Browsing Behavior: Application of Markov Model[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2012, 42(4): 1131-1142.

[6] 张玉成, 徐大纹. 基于加权马尔可夫链的主动用户行为预测模型[J]. 计算机工程与设计, 2011, 32(10): 3334-3337.

[7] 家炜. 数据挖掘: 概念与技术[M]. 北京: 机械工业出版社, 2012:175-176.

[8] Yinghui Yang. Web user behavioral profiling for user identification [J]. Decision Support Systems, 2010, 49(3): 261-277.

猜你喜欢

身份认证特征向量
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
一类三阶矩阵特征向量的特殊求法
一类特殊矩阵特征向量的求法
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
云电子身份管理与认证系统中的关键技术优化改进
校园网云盘系统存在的安全问题及对策
基于指纹身份认证的固定通信台站干部跟班管理系统设计
基于PKI与基于IBC的认证技术比较
Kerberos身份认证协议的改进