APP下载

用户网络行为模拟技术研究*

2018-01-29李晶晶刘红日王佰玲

网络安全与数据管理 2018年1期
关键词:鼠标键盘建模

李晶晶,刘红日,刘 扬,宋 佳,王佰玲

(哈尔滨工业大学(威海)网络技术研究所,山东 威海 264209)

0 引言

用户的网络行为往往体现了其兴趣特点、行为习惯以及影响其行为的因素等诸多特性,对网络用户行为的分析研究以及预测模拟,对于面向用户的网络服务而言,不仅在改善服务的性能上可以有所提高,使用基于用户行为爱好习惯的模型来向用户提供推荐结果亦或其他信息也将在大大提高用户体验的同时取得更大的效益。因此,如何进行高逼真度的用户行为模拟是一个相当值得研究的问题。

用户的网络行为可以定义为互联网用户在某个时间点或者时间段操作某个或某种应用程序产生网络流量,与网络上其他人、服务进行交互的行为。根据用户规模,用户的网络行为可以分为个人行为和群体行为,对于个人行为来说,对其进行分析建模可以得出单人的行为习惯、预测其行为序列;对于群体行为来说,对其进行分析建模可以实现大规模人群的综合效果的模拟,发掘出单人行为所无法获得的信息。本文对近年来关于用户网络行为分析模拟的研究进行简单的阐述和梳理,并且对其未来的研究与发展进行了展望。

1 研究现状及分类

用户网络行为的研究在研究方向上比较集中,主要可以分为个人网络行为和群体网络行为两大类,除去肖云鹏[1]将个人行为动力学模型结合群体动力学模型建立了一个针对在线社会网络场景的用户行为动力学模型之外,各类研究均可归结为在个人网络行为和群体网络行为两个方面中单独选择一个进行深入探讨。

1.1 个人行为

在个人行为的研究中,可以分为粗粒度行为和细粒度行为两大类,其中细粒度行为研究是指对用户使用鼠标或者键盘的操作行为进行的研究,其关注点在于用户对鼠标、键盘等外部设备的使用特征,如用户在使用鼠标时所产生的轨迹;而粗粒度行为研究是指对用户使用应用程序的操作进行的研究,其关注点在于用户使用何种应用程序以及使用应用程序进行了何种操作,如用户使用浏览器进行网页内容的浏览。

1.1.1细粒度行为

在用户细粒度行为研究方面,Zheng Nan等人[2]通过研究不同用户操纵鼠标时的行为特征,选取三个角度相关的特征族,训练得到一个在Block框架下错误率和错误接受率均可低至1.3%的SVM模型,从而证实用户的鼠标行为具有强区分性。文中同时指出,通过模拟鼠标行为有可能成功地欺骗该身份认证模型。而在鼠标行为模拟方面,使用真实的用户行为模板进行模拟是许多学者的选择,如GARG A[3]等人从真实用户的操作数据中提取了用户动机、技能、软件安装配置、键盘鼠标活动四部分相关特征,生成行为模板,进一步使用其团队开发的Usim用户行为模拟接口进行了一些异常操作的模拟。其实验数据表明,通过使用此模拟数据来对用户异常行为检测模型的训练进行辅助,模型的精度得到了有效提高。由于在应用该模拟方法时,使用了关于用户紧张程度的特征,并且键盘、鼠标操作的宏观形势与原始数据类似,故其对用户行为特征理应有一定的刻画,但是其具体效果还有待考证。除此之外,Hu Shujie等人[4]提出了一种用户级鼠标行为模拟的方法,使用该方法可以在仅有少量已知鼠标行为数据的情况下,模拟出该用户在各种常见场景下的鼠标行为。该文针对上文提到的经典鼠标身份认证框架[2]进行了模拟数据实验,实验结果表明此方法能够以平均超过60%的通过率成功欺骗错误率已经低至1%的认证模型。但是,此方法只是进行了简单的模拟,并没有考虑到不同用户的行为特征分布会有不同的情况。在进行鼠标行为建模时,其特征维度通常比较高,Cai Zhongmin等人[5]考虑到用户在鼠标动力学上的差异,对44种特征进行抽取,基于Multidimensional Scaling、Laplacian Eigenmaps、Isometric Feature Mapping、Local Liner Embedding等降维方法,分别使用了Random Forest、SVM、Neural Network以及Mearest Neighbor进行二分类实验,结果表明,通过使用降维方法处理过的数据来进行分类,效果要好于直接使用未降维的数据进行分类。除此之外,该实验还显示,序列的特征空间如果足够长,行为的差异就会变小,使得分类的FRR和FAR有所提高。在鼠标行为模拟之外,敲击键盘的行为也是用户行为的重要部分,在此方面,MONACO J V等人[7]通过研究发现,人们通常使用的单词的平均长度为6个字母或者5个字母再加上1个空格字符,而绝大多数人敲击键盘的频率平均是200次/分钟,这相当于每分钟打出了33个单词,而职业打字员其打字速度是平均速度的两倍,因此,模拟键盘行为时需要对此进行考虑。鼠标行为和键盘行为共同构成了用户的细粒度行为,因而在模拟用户的行为时,需要将二者综合考虑,使得模拟结果尽量符合用户鼠标和键盘的行为习惯。

1.1.2粗粒度行为

在粗粒度行为研究方面,根据模拟的层次不同,可以粗略地分为行为序列的生成和行为的实现两种研究,在行为序列生成上,LETHAM B等人[8]提出一种通用的序列预测模型,该模型基于其团队提出的一个序列预测损失函数,其核心在于建模时并不无条件地使用原始行为序列,而是考虑其中对于预测结果有影响的行为序列。对该模型分别使用食品推荐、邮件收件人预测、病人状态预测三个数据集进行实验,采用拟牛顿法来对损失函数的参数进行拟合,结果表明,相对于余弦相似度模型和关联规则模型,此模型可以获得更高的模拟精度。而在行为实现上,AMIRKHANYAN A等人[9]设计实现了一种基于用户行为状态图(User Behavior States Graph,UBSG)的用户行为模拟方案。使用预定义的状态、动作以及动作实现接口,描述用户在特定场景下的行为。从本质上来讲,其模型为有限状态机,模型使用人工手动编写脚本来对虚拟机进行操作从而实现用户的操作行为,其状态被定义为屏幕截图,用户的操作行为是将登录、输入密码、Ctrl+C等常用操作进行了封装,状态之间的切换被设计为一套接口。此模型最主要的问题在于:由于状态定义为屏幕截图,其状态的确定只能通过截图匹配的方式进行,故其鲁棒性较差;状态图的具体定义和状态之间的切换方式完全依赖于人工的手工操作,导致模型的自动化程度以及可扩展性较差。总体来说此模型实现了状态之间的切换,但未完成用户行为的自动生成工作,不能单独进行针对具体用户进行高逼真度的行为模拟。其典型的用户行为状态图如图1所示,其中,Si代表状态,Ai代表用户转换到下一个状态所要执行的操作。

图1 用户行为状态图

吴书等人[10]通过研究发现,为达到大幅度提升用户行为预测任务性能的效果,可以通过引入充足的情景大数据,从而揭示出用户行为发生的机制的方法来实现。通过借鉴自然语言领域常用的词向量处理方法word2vec[11]的思想,Wu Shu等人[12]提出了一种名为情境操作张量(Contextual Operation Tensor,COT)的建模方法。该方法的思想为通过将名词语义表达向量化、情境信息表达矩阵化,从而使得情境下实体的新属性能够将特定情境下实体表达上的改变反映出来;与此同时,将情境信息的潜在语义作为操作矩阵来进行描述,使用多个基本的操作矩阵共同生成情境操作矩阵来描述共同点的情境语义操作。将该模型与 CARS2[13]、Hetero-MF[14]、FM[15]、Multiverse Recommendation[16]以及SVD++[17]等情境建模方法进行对比,可以得出该模型在RMSE和MAE上具有一定的优越性。

张新星[18]对用户行为的实现进行了实验验证,使用基于“录制-回放”策略的网络桌面应用操作模拟方案,结合KVM虚拟机技术,实现了在Windows XP、Windows 7和Ubuntu12.04桌面版等多种操作系统平台上用户对浏览网页、播放音视频、首发邮件、使用即时通信软件等典型网络应用的操作行为,该实验方案以生成的网络流量的真实性(网络流量的突发性及自相似性)作为用户行为真实性的评价依据,在模拟过程中随机选择两个时长为450 s的时间段,对其中流量数据使用R/S法[19]求解Hurst参数,分别得到0.854 4和0.905 5的结果,表明模拟行为产生的流量具有良好的长相关特性。

1.2 群体行为

在群体用户行为的研究中,最为常见的方法是根据统计特征来建立统计模型从而对群体用户的行为特征进行刻画,Yang Jie等人[20]通过对中国某南方城市一周的2G/3G移动网络流量行进分析处理,将群体用户行为在数据流量消耗、移动模式、网络应用使用三个方面进行了研究,使用分裂层次聚类的方法将用户进行分类,对每类用户的行为进行分析后得出此三方面之间的关系,进一步得出有50%的用户每天使用5种以上的不同的应用,在不同的时间段用户所偏好的应用种类亦有所不同,并且移动流量使用与移动模式对用户的应用使用有很大的影响。受统计模型的限制,其并不能满足对用户行为进行模拟的需求,基于统计之上对统计结果进行再次建模处理的模式越来越受重视, LOYOLA P等人[21]使用蚁群算法从聚类的用户Web会话集中学习到一个文本偏好向量作为用户特征描述,根据此文本偏好向量,发布到网络图中的蚁群便可生成一系列的网页访问行为。通过与原有真实会话对比可以得出,该模型所生成的模拟会话与真实会话的相似度接近80%。除此之外,Wang Gang等人[22]构建了一个使用无监督模型来识别用户行为的系统,该系统通过分析用户的点击流数据(用户点击事件所形成的路径信息)来划分相似度图(节点表示用户,节点之间的边通过点击流的相似性加权得到)来进行用户聚类。其思想是通过利用迭代特征修剪来捕获用户群内的自然层次结构,从而识别用户的行为。通过使用Whisper和人人网的真实数据来进行实验验证,结果表明,该系统可以准确地辨别出用户的异常行为,甚至可以预测用户的未来行为。

2 未来研究展望

综上所述,在可以预见的未来,针对用户网络行为模拟技术研究,在个人行为方面还将依然围绕提高用户个人行为的细粒度模拟精度、粗粒度的行为序列生成的逼真度的方向发展,除此之外,粗细粒度结合、用户序列生成与执行之间的结合的重要性也将日渐凸显。而在群体行为方面,在将统计特征完整提取的基础之上,如何将个人行为与群体行为有机结合,即如何对个人行为进行合理调度,使由众多个人行为构成的群体行为依然保持符合群体的统计特征将是一个重要的研究方向。

[1] 肖云鹏. 在线社会网络用户行为模型与应用算法研究[D]. 北京:北京邮电大学, 2013.

[2] Zheng Nan,PALOSKI A, Wang Haining. An efficient user verification system via mouse movements[C]. ACM Conference on Computer and Communications Security. ACM, 2011:139-150.

[3] GARG A,VIDYARAMAN S, UPADHYAYA S, et al. USim: a user behavior simulation framework for training and testing IDSes in GUI based systems[C].Simulation Symposium, 2006. IEEE, 2006:8.

[4] Hu Shujie, Bai Jun, Liu Hongri, et al. Deceive mouse-dynamics-based authentication model via movement simulation[C].International Symposium on Computational Intelligence and Design. IEEE, 2017, in press.

[5] Cai Zhongmin, Shen Chao, Guan Xiaohong. Mitigating behavioral variability for mouse dynamics: a dimensionality-reduction-based approach[J]. IEEE Transactions on Human-Machine Systems, 2014, 44(2): 244-255.

[6] Shen Chao, Cai Zhongmin, Guan Xiaohong, et al. User authentication through mouse dynamics[J]. IEEE Transactions on Information Forensics & Security, 2013, 8(1):16-30.

[7] MONACO J V,BAKELMAN N, CHA S H, et al. Developing a keystroke biometric system for continual authentication of computer users[C]. Intelligence and Security Informatics Conference. IEEE, 2012:210-216.

[8] LETHAM B, RUDIN C, MADIGAN D. Sequential event prediction[J]. Machine Learning, 2013, 93(2-3):357-380.

[9] AMIRKHANYAN A, SAPEGIN A, GAWRON M, et al. Simulation user behavior on a security testbed using user behavior states graph[C].International Conference on Security of Information and Networks. ACM, 2015:217-223.

[10] 吴书, 刘强, 王亮. 情境大数据建模及其在用户行为预测中的应用[J]. 大数据, 2016, 2(6):110-117.

[11] MIKOLOV T, SUTSKEVER I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, 26:3111-3119.

[12] Wu Shu, Liu Qiang, Wang Liang, et al. Contextual operation for recommender systems[J]. IEEE Transactions on Knowledge & Data Engineering, 2016, 28(8):2000-2012.

[13] Shi Yue, KARATZOGLOU A, BALTRUNAS L, et al. CARS2: learning context-aware representations for context-aware recommendations[C]. ACM Conference on Information and Knowledge Management CIKM. ACM, 2014:291-300.

[14] JAMALI M, LAKSHMANAN L. HeteroMF: recommendation in heteroge-neous information networks using context dependent factor models[C]. International Conference on World Wide Web. ACM, 2013:643-654.

[15] RENDLE S, GANTNER Z, FREUDENTHALER C, et al. Fast context-aware recommendations with factorization machines[C].Proceedings of the 34th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2011: 635-644.

[16] KARATZOGLOU A, AMATRIAIN X, BALTRUNAS L, et al. Multiverse recommendation:n-dimensional tensor factorization for context-aware collab-orative filtering[C].ACM Conference on Recommender Systems, Recsys 2010, Barcelona, Spain, September. DBLP, 2010:79-86.

[17] KOREN Y. Factorization meets the neighborhood: a multifaceted col-laborative filtering model[C]. ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008:426-434.

[18] 张新星. 基于虚拟化的网络流量模拟系统设计与实现[D].哈尔滨:哈尔滨工业大学,2017.

[19] JULIO C, PACHECO R, ROMAN D T, et al. R/S statistic: accuracy and implementations electronics[C]. Proceedings of the 18th Conference on Communications and Computers, 2008: 17-22.

[20] Yang Jie, Qiao Yuanyuan, Zhang Xinyu, et al. Characterizing user behavior in mobile Internet[J]. IEEE Transactions on Emerging Topics in Computing, 2015, 3(1):95-106.

[21] LOYOLA P,ROM′N P E, VEL′SQUEZ J D. Clustering-based learning approach for ant colony optimization model to simulate web user behavior[C]. IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. IEEE, 2011:457-464.

[22] Wang Gang, Zhang Xinyi, Tang Shiliang, et al. Unsupervised clickstream clustering for user behavior analysis[C].CHI Conference on Human Factors in Computing Systems. ACM, 2016:225-236.

猜你喜欢

鼠标键盘建模
你知道手机拨号键盘上为什么要有*和#吗?
键盘猫
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
Progress in Neural NLP: Modeling, Learning, and Reasoning
Cлово месяца
ikbc R300机械键盘
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
三元组辐射场的建模与仿真
45岁的鼠标