APP下载

基于异构身份的用户行为分析系统设计*

2020-07-19陈昭昀朱洪亮王睿恒高明成

通信技术 2020年7期
关键词:跨域异构身份

陈昭昀,辛 阳,2*,朱洪亮,王睿恒,高明成

(1.北京邮电大学,北京 100876;2.贵州大学 贵州省公共大数据重点实验室,贵州 贵阳 550025)

0 引言

随着互联网的发展,网络应用已经成为人们生活的一部分,当人们通过网络进行网购、社交、游戏等活动时,产生了大量的异构用户行为数据[1]。利用这些来自同一用户在不同网络环境中的行为数据,可以对用户的网络行为进行更全面的描述与分析。如何描述异构网络中用户的行为特征并对用户行为进行分析管控,是网络空间安全的一个研究热点。

用户行为分析和审计一直是用户行为管控的重点研究内容,尽管已经有大量网络行为分析和审计系统模型的研究,但这些模型主要针对的是单域或单平台多域的应用环境[2-3],而某些可疑行为只有通过用户在多个平台上的行为联合分析才能得出,这表明单域模型在针对异构网络的用户行为分析中具有局限性。现有的行为分析和审计系统模型难以对异构网络中大规模、多维度的用户行为特征进行准确描述和建模。在异构网络环境下,现有单域模型的表现对用户跨域行为的有效挖掘与细粒度分析具有一定的困难,导致用户行为分析、审计、活动定位和追踪手段的缺乏,从而难以及时分析和发现具有可疑行为与非法行为的用户,无法满足异构网络环境下网络用户行为的安全管控要求。

面对以上异构网络中用户行为分析问题,本文将单域的用户网络行为分析方法扩展到跨域平台上。用户行为分析历年来一直是理论研究重点关注的领域之一。郝增勇[4]采用基于Linux 内核的高效数据包获取技术PF-RING 来获得网络人口数据作为数据源,并将其存储在HBASE 分布式存储数据库中进行后续的用户行为分析,之后利用Libnids技术将对应网络人口数据进行TCP/IP 重组,实现应用层HTTP 数据的还原,最后采用Hadoop 集群架构编写对应算法对用户在应用层的网络行为进行分析,从而达到网络人口数据从物理层到应用层全层分析的效果。杨帆[5]在图书馆读者行为分析研究中以用户的行为偏好为出发点,利用用户检索、浏览、收藏、借阅等行为数据,为读者建立用户画像,从而实现图书馆用户的个性化推荐功能,该功能可以根据用户画像以及用户的行为偏好为其推荐相应的书籍及服务。熊伟[6]收集Cookie 域中相关的用户行为数据、将对应用户的行为数据生成对应用户画像,之后基于LDA 模型进行修改建立用户画像以及内容的服务重定向的数据模型,实验结果表明,该基于用户画像以及内容的服务重定向的LDA 模型有效的降低了服务的搜索时间以及提高了系统计算效率。目前,国内外研究学者对用户异常行为分析的研究成果主要集中在单平台或单域上[7],缺少异构环境中用户行为分析与审计模型的研究。

本文针对跨域用户行为数据的非结构化特性、多维度特性、海量大数据等特性[2-3],提出了一种基于异构数据挖掘的异构身份用户行为分析系统,详细论述了该系统的结构功能模块设计,并在跨域平台上对该系统的功能进行实验论证。

1 系统设计

用户在不同网络平台会产生大量不同结构的行为数据,这些数据具有异构多维、结构多样的特点,利用跨域数据可以挖掘联合分析出更深层次的用户行为信息,构建出更全面的用户画像,对具有可疑行为的用户实现审计追踪。针对单域的用户行为分析和审计系统在异构网络中具有局限性,本文设计了一种基于异构身份的行为分析系统,该系统首先处理多维度异构的用户行为数据,同时采用MongoDB 数据库存储跨域用户的非结构化数据,最后采用行为数据关联算法对异构用户的行为数据进行关联分析,以及时发现可疑或非法用户,并能通过少量标记的非法用户发现可疑用户群组,实现用户的网络管控。

1.1 原型系统流程设计

由于用户行为数据的海量性、异构性和复杂性,为此以大数据分析挖掘流程设计原型验证系统,系统流程如图1 所示,主要包括用户行为数据采集、用户行为数据预处理、用户行为数据分析、用户行为数据审计等阶段。

图1 基于异构身份的用户行为分析系统流程设计

基于异构身份的用户行为分析系统用来挖掘、分析、存储和管理用户行为数据,由于用户行为数据的海量特征,为此系统应具备大容量、高并发等特点,同时系统需要对用户的结构化和非结构化的行为数据进行分析。

1.2 基于异构身份的用户行为分析系统架构

基于异构身份的用户行为分析系统架构图如图2 所示。

图2 基于异构身份的用户行为分析系统架构

该用户行为分析系统架构主要分成数据采集层、数据预处理层、数据存储管理层、用户行为分析与审计、用户行为管控和可视化,下一节分别对各个模块进行介绍。

2 功能模块

2.1 数据采集层

数据采集层结合系统运作实际需求,对互联网、移动通信、物联网、行业网、社交网络、电商等网络中产生的用户行为数据进行采集,并优化数据结构,完善数据采集、存储、检索和归档机制。优化基础数据更新模式,提高基础数据的鲜活性和实用性。制定数据采集标准和基础信息采集目录,完善业务应用规则,建立基础信息源头采集和动态维护的工作机制,利用数据监测等技术手段,定期核查基础数据的采集维护情况,提高源头数据的准确性和真实性。

系统数据采集需要遵循如下四个原则:保证数据的及时采集;保证数据采集中数据的可靠性;保证数据采集中数据的完整性;保证数据采集中数据的机密新。

数据采集管理架构如图3 所示。

采集的数据源包括两类,其一为实时的用户数据导入等,可以直接通过与第三方的数据接口传输,其二为非实时的用户数据导入,可以采用离线数据导入的方式等。

图3 数据采集管理架构

数据采集将采用云化ETL,流数据处理、爬虫或者代理等模式,将靶场产生的结构化和非结构化数据存储到靶场数据仓库中。

2.2 数据预处理层

数据预处理层具体功能包括:解析去重、清洗、筛选、分类、转换或者合并增强,具体如图4 所示。

具体步骤如下:

(1)源数据导入ETL,进行数据的清洗、转换和入库。

(2)用户数据经清洗、转换后的用户数据加载到分布式数据库。

(3)平台通过数据访问接口获取所需求数据。

图4 数据预处理层

2.3 数据存储管理层

数据存储分为包括三部分存储:临时数据存储区、历史数据归档存储、大数据存储区。具体如图5 所示。

临时数据区:主要存储每日新增的增量数据和应用缓存数据,供预处理层进行批量访问。主要支撑的功能为数据抽取与存储、数据预处理程序的调用。

历史归档区:主要存储各数据区产生的结果数据,归档数据以及历史支撑数据。主要供业务人员进行历史数据查询。主支撑的功能为分布式计算、集群归档、历史查询。

大数据存储区采用Hadoop 存储架构实现,用来为大数据挖掘提供数据支撑,存储结构化数据和非结构化数据。供业务人员进行用户行为分析、预测、管控;其主要支撑的功能为MR 计算、大数据分析与挖掘(包括文本检索、关联分析等)。

图5 数据存储层

2.4 用户行为分析与审计模块

用户行为分析与审计包含身份管理模型与行为分析审计模型。

身份管理模型基于已知身份信息库与跨域未知身份概率化对齐模型,实现异构身份联盟下统一身份标识及同域重复身份检测,为用户行为审计提供支撑。已知身份信息库包含用户ID、身份证号码、姓名、性别、出生日期、出生地、民族、工作单位、学历学位、婚姻状况、户籍地址等信息,跨域未知身份概率化对齐模型实现概率化的跨域身份信息对齐功能。

身份管理模型设计如图6 所示。

首先从大数据存储中调用用户行为数据与已知身份信息;其次将多源身份特征嵌入模型,形成跨域身份概率化对齐模型和同域重复身份检测模型;基于身份对齐和检测模型分析后,进行跨域身份关联和概率化的未知身份管理;最后将用户身份融合结果反馈至大数据存储区。

用户行为分析审计模型主要是通过模型的调用的方式,分析用户兴趣偏好、活动规律,构建用户画像,实现基于半监督学习的行为预测模型,基于迁移学习的用户行为追踪模型。模型采用JSON 与Restful 的格式,进行数据传输和结果反馈,其流程图如图7 所示。

图6 身份管理模型

首先形成基于多态行为特征的行为知识库;然后将知识库中的数据传入基于半监督学习的行为预测模型和基于迁移学习的行为预测模型;最后将上述模型结果传递到基于可信代理的用户行为审计模型和基于深度学习的用户行为追踪模型。

图7 用户行为审计与追踪模型

2.5 用户行为管控和可视化

用户行为管控主要是基于概率化的身份判别功能,对不同身份在管理系统中的对应关系进行关联。同时用户行为的管控将通过可视化的方式进行展示。

用户行为管控与可视化流程如图8 所示。

图8 用户行为管控与可视化

系统中的用户行为管控包括用户行为统计、展示、异常用户行为管控(行为发现、处置、反馈等)。

3 原理验证系统

本文设计的基于异构身份联盟的用户行为分析系统主要包括数据采集、身份管理、行为分析与管控、行为审计等模块。

原理验证系统以异构身份联盟网络行为分析与监控理论体系作为研究基础,融合未知情况下异构身份联盟多身份融合识别与管理模块、异构身份联盟用户行为分析模块、异构身份联盟用户行为审计与追踪模块。原理验证系统在采集用户行为数据的基础上,生成部分异常用户群体作为网络安全维稳场景下的分析对象,数据源中跨域实体信息包括用户ID、用户名、地区、民族等,跨域实体行为包括社会域用户与用户之间建立联系、博客域发布博文、说说域发表说说、电商域购买物品。

该系统的工作流程如下:

(1)未知情况下异构身份联盟多身份融合识别与管理模块将不同域中的实体进行融合、对齐,得到概率化实体身份关联结果;

(2)异构身份联盟用户行为分析模块对实体在不同域中的时空上下文、语义化描述、特征偏好、群体一致性建立多态网络行为关联分析模型,结合机器学习半监督学习方法,检测发现实体的异常行为,形成异常证据链;

(3)异构身份联盟用户行为审计与追踪模块对实体行为进行语义距离度量,利用深度学习理论,构造用户行为追踪模型,实现对异常行为的追踪监管。

异构身份联盟行为分析与监管原理验证系统前端共包含7 个页面,如图9 所示。

图9 原理验证系统

该系统首页展示了数据集中实体活跃情况分布及实体在不用域中活动行为统计;用户信息页面展示了实体基本的属性信息与实体间的关联关系;博客内容页展示了不同实体在博客域中发表的博客内容;说说内容展示了不同实体在说说域中发表的说说内容;电商内容页面展示了不同实体在电商域购买商品类别内容;关联分析页面展示了跨域实体行为分析与异常行为检测的半监督模型及异常行为检测结果;追踪溯源页面展示了异常实体的证据追踪链。

异构身份联盟多身份融合识别与管理模块将用户身份进行对齐,得到概率化实体身份关联结果后,基于异构身份的用户行为分析系统模块对用户在不同域中的行为数据进行采集并建立多态网络行为关联分析模型,结合机器学习模型对用户异常行为进行检测发现形成证据链,由用户行为审计与追踪模块利用深度学习技术实现异常行为的追踪溯源。

4 结语

为支撑异构身份用户行为分析、审计、追踪、溯源、管控以及可视化展示,本文设计了基于异构身份的用户行为分析系统,该系统包括数据采集层、数据预处理层、数据存储管理层、用户行为分析审计层、用户行为管控和可视化层共5 个层次,实现了异构身份用户行为的海量非结构化数据挖掘处理和分析,通过对用户的行文关联分析能够及时发现可疑或恶意用户,达到监管用户网络行为的效果。

猜你喜欢

跨域异构身份
ETC拓展应用场景下的多源异构交易系统
基于多标签协同学习的跨域行人重识别
试论同课异构之“同”与“异”
为群众办实事,崂山区打出“跨域通办”组合拳
混合跨域神经网络的草图检索算法
G-SRv6 Policy在跨域端到端组网中的应用
多源异构数据整合系统在医疗大数据中的研究
吴健:多元异构的数字敦煌
跟踪导练(三)(5)
妈妈的N种身份