APP下载

网吧记录数据可视分析系统SRDVis

2021-09-17赵凡马小东任芃锟

数据与计算发展前沿 2021年4期
关键词:时序视图网吧

赵凡,马小东,任芃锟

1.中国科学院新疆理化技术研究所,新疆 乌鲁木齐 830011

2.中国科学院大学,北京 100049

3.新疆民族语音语言信息处理研究室,新疆 乌鲁木齐 830011

引言

时空数据是包含了时序特征及空间特征的数据集合,针对时空数据的研究是目前数据分析领域的重要方向之一。在时空数据分类中有一种类型具备了特有的数据特征,这些数据记录的是个体在某固定空间位置里的驻留状态信息,常见的业务场景包括网吧上网记录、宾馆住宿记录以及停车场出入记录等。这类数据记录了不同用户不同时间段在固定的地点停留的信息,从中可以绘制不同特征的用户画像,总结个体的行为模式,挖掘出具有相似行为的群体,对从业者精准营销、安全防控等领域有很重要的指导意义。

现有的统计分析或机器学习等数据挖掘技术很难做到从庞杂的时空数据中发现系统化的知识,自动识别复杂的模式,这为相关数据的分析工作带来不小的挑战。如何通过更为自然、智能的方式提升相关人员对个体/群体时空信息的理解能力和利用效率,已经成为当前信息领域必须解决的关键问题之一。为了充分挖掘利用海量时空数据其中蕴藏的价值,需要结合数据分析与可视化技术,即把复杂时空数据转换为业务人员更易理解的图形,通过人-机信息交互得到更多更有价值的知识。

因此可视分析方法已成为目前大数据分析领域近期研究的热点。使用数据可视分析方法分析数据记录特征,发现用户行为模式,展示统计结果,将复杂的数据用直观的表现手段呈现,增强用户信息认知能力,减少用户的认知负荷,提升数据分析结论的可解释性。

本文以网吧用户上网记录数据为基础,研究用户模型构建和行为模式发现方法,结合先进的多模态可视化技术,支持多角度、多视图的数据描述,通过色彩、布局、方向、形状等多维度的渲染,实现了一个针对此类时空数据的可视分析系统SRDVis,该系统开发目标是满足相关业务监管人员的管理和经营需求,已在相关领域开展应用并取得了良好的效果。

1 相关工作

1.1 时序数据可视化

时序数据指的是包含时间属性的数据,体现数据随时间变化的规律以及数据分布的时间规律,时序数据可视化在数据可视化领域目前属于热点研究,例如使用时间轴的线性和周期时间可视化,使用日历视图的可视化,或分支和多角度时间可视化[1]等。有的研究工作则试图解决大规模时序数据可视化中的视觉混淆问题,例如使用平行坐标图[2],或使用多模态可视化技术结合多种视图的方式[3]。

常见的时序数据可视化的映射方式有基于时间坐标轴的柱状图、折线图等[4-6]视图。针对有周期性时序数据特征的设计空间表达,Weber 等[7]提出一种基于螺旋线的新方法。有学者使用可重新排序的图表矩阵,通过交互式探索来比较相关数据的不同侧重点[8-9]。Javed 等[10]提出的Stack Zooming 交互式构建多焦点缩放的层次结构。Gruendl 等[11]针对高维时序数据提出了平行坐标图的三维扩展。

除了设计新颖的视图,研究者还通过结合用户视觉信息和人机交互的手段帮助人们提高数据分析的效率,如Martin 等[12]设计刷选式动态过滤技术来探索时序数据的特征。Yang 等[13]提出DOSFA 发现多维度数据间的相似性,通过交互的维度层次结构操作,探索不同维度之间关系。Furnas 等[14]使用上下文用户界面交互技术。Zhao[15]和Chen 等[16]使用多视图关联协调技术实现多元复杂数据的可视分析任务。

1.2 地理空间分布可视化

地理空间数据普遍具有稀疏、多维、时空等特点,使用地图视图是最常见的空间数据可视化方法。除此之外,Cornee 等[17]提出基于点(特征编码、颜色、密度、连接)的交互探索世界贸易数据的方法。Chen 等[18]采用分层多类采样技术来表现多类数据特征,使用分层多类蓝噪声采样方案,生成点分布的可视化抽象。Guo 等[19]提出基于核的密度估计,使用流密度聚类模型,过滤重复信息来表示移民情况。Collins 等[20]引入气泡集方法,使用一个连续的、闭合的、等值线来描绘集合的成员。Yuan 等[21]提出的高维传递函数,结合3D 时空视图等多种视图高效支持多模态数据探索。

2 数据处理与分析

SRDVis 系统使用的是公开数据集,来源自ChinaVis2017 数据可视分析挑战二,该集合中包含重庆市内3 000 多个网吧的基本信息及2016年三个月约1 600 万行上网脱敏记录,数据大小为1.7G。本章首先介绍该数据集的数据格式,数据分析的任务,然后介绍系统工作流程和数据处理方法。

2.1 数据描述

2.2 任务分析

根据数据的描述,联系具体问题,可以对驻留行为时空数据进行以下几个任务来进行分析:

任务1:全局时空特征分析,主要是展示所有记录数据的时空统计特征及网吧的经营情况。例如按日期区分统计上网人数和上网时间,按每天的时段区分上网人数和上网时间,及按照用户年龄、性别进行统计。

任务2:用户行为模式分析,主要是对数据中的个体用户行为记录进行分析。行为特征包括周期性、趋势、高频使用阶段以及不同用户间的行为相似程度。例如统计不同省市的上网人数、人均平均上网时间和次数,或按不同籍贯统计分析对应的人群上网行为特征,包括常去网吧的地理分布特征等。

任务3:共现群体发现,发现可能存在共现行为的群体。在网吧个人行为记录数据中,将多个人在同一个网吧,“同时”上机且“同时”下机定义为一个群体。这里的“同时”表示一个极短的时间间隔,本文中,我们将这一阈值定义为5 分钟,即同一个网吧中,两两用户之间上机的时间间隔必须在5 分钟之内,且下机时也满足此条件。该阈值的越大则挖掘出的群体越多,同时设置群体最小规模为2 人。

2.3 系统工作流程

SRDVis 系统主要分为数据处理、数据分析及数据可视化3 个部分,如图1所示。数据处理部分主要是对原始数据进行清洗和重新组织,提取分析所需的特征;数据分析部分主要是建立完善的用户画像标签体系结构,从不同维度对用户进行描述,对个体行为进行建模,探索可能存在的群体模式;数据可视化部分采用多模块协同交互式可视界面,展示记录数据时变特性及空间分布特征。

图1 系统工作流程图Fig.1 System workflow

2.4 数据处理与分析

数据处理工作首先是数据清洗,包括修正格式异常的数据,缺少字段的数据,或字段不合规范的数据,或字段明显不合情理的数据,去除格式异常的上网日期、上网人员生日、籍贯等数据。其次是从上网记录中清除经纬度为空的网吧,并删除与该网吧有关的上网记录,去除不需要的字段。最后将毫无规律的数据整理成两种格式,分别为以网吧的数据标识为主要索引的记录文件(包含了网吧的经纬度位置信息、经过脱敏后的网吧名称信息以及经过统计处理后的经营信息)和以日期为主索引的记录文件,且文件中的记录按上机时间排序,以便于之后进行数据分析任务和各种视图可视化。

数据分析工作主要包括用户模型构建和共现群体发现。我们针对原始数据类型特点,使用特征提取、文本分类、社区发现、LDA 等挖掘算法提取用户特征,抽象出标签化的用户模型,标签包括用户静态数据例如性别、年龄、所在地域等基础属性,还有动态行为数据包括上网时间、上网地点、上网时长等。然后根据个体行为模式特点进行聚类,实现对群体的定义及划分,最后挖掘个体及群体的行为模式,构建个体-群体的关联体系。

3 可视化设计

本节对SRDVis 系统中的可视化视图设计思路和方法进行详细描述和功能介绍。

3.1 基于极坐标的时序特征视图

展示数据的时序特征时,我们仿照表盘设计了一种基于极坐标的时间特征展示视图,如图2(a)所示,该图将圆周划分为24 等份,每一份代表了一天对应的时间,最小单位为小时,同时使用不同颜色将每天的时间划分为工作时段(蓝色)、休息时段(绿色)、夜晚时段(红色)三部分,可以直观地展示这三类时段中数据的分布情况。

图2 上网行为时序特征可视化视图Fig.2 Visualization view of time series characteristics of online behavior

基于该坐标系,可以绘制圆心相同、半径不同、长度不同的固定宽度弧线,代表行为记录的时间延续情况,如图2(b)所示。弧线颜色分为两种,其中绿色弧线代表当天为休息日,蓝色弧线代表当天为工作日。弧线沿顺时针绘制,起点和终点代表上网的开始和结束时间,长度代表本次上网时长,弧线距圆心的距离代表日期的先后顺序,即靠近圆心代表日期较早,远离圆心代表日期较晚。本系统用此视图展示个人所有上网延续时间的数据特征。

另外在坐标系中还可以嵌套南丁格尔玫瑰图来展示不同时段的数据统计信息,如图2(c)及图3(c)所示,其中每小时的统计数据条使用不同颜色绘制,从圆心到圆周的数据条长度代表统计数量的多少。该图不易展示每部分数据的精确数量,但能展示出一天内不同时间分段的统计数字变化趋势。本系统使用该图展示人数和总上网时长的数据统计量。

另外系统使用日历矩阵图来表现更大时间尺度范围的离散数据,以便于分析特定时间段内的行为特征。如图3(b)上方的两个视图所示,每一小方格代表一天,将对应日期的记录统计数量热力值绘制在图上,颜色深浅代表了记录发生的数量多少。此视图对全局数据的时序行为特征分布进行了有效的可视化支持。

3.2 时空特征分布视图

图3 是SRDVis 系统的主界面之一,用来呈现数据的时空属性分布特征。系统中使用基于行政区域地图的热力图来展示数据中的人员地理空间分布特征,如图3(a)所示,其中左图是全国行政区域地图,展示了来源于不同省市的上网人员总计数,各行政区域的颜色越偏向红色说明该省(市)的人群数量越多,右图是重庆的行政区域地图,用热力图的方式展示各地人群去往特定场所的分布,数据使用的是进行过随机偏离坐标的网吧位置信息,热力点红色越密集的地方说明去的人数越多。通过对左图的点击切换省市操作可以动态展示不同籍贯的上网人员在重庆各地网吧的地理空间分布情况。

图3 SRDVis 系统数据时空特征分析界面视图Fig.3 Data spatio-temporal characteristic analysis interface view of SRDVis system

除了使用地图展示全局统计数据的空间分布特征,系统还需要分析个人上网行为的时空特征,总结存在相似规律的同类用户行为模式。因此我们根据每两次上网记录之间的间隔时空属性特征来描述个人上网行为特征,其中包括了两次上网记录的间隔时间及相同或不同网吧地点之间的联系。

首先,我们从数据集中选择某人的所有上网记录,然后我们得到3 个列表:

其中Ltime1表示该用户开始上网的时间集合,Ltime2表示该用户结束上网的时间集合,Lbar是用户所在网吧对应的地理坐标集合(无重复)。接下来,我们计算出每两次上网行为之间的时间间隔列表:

其中in= tbn+1-ten,表示第n 次上网结束时间与第n+1次上网开始时间的间隔。然后计算出每次上网的时间长度列表:

其中on-1= ten-tbn。之后我们将Linterval及Lonline集合数据一起映射到极坐标,就显示出具有交错表示的视图,其中黑色部分代表了上网的时长,灰色部分代表了两次上网时间间隔的时长。饼图的大小代表了用户活动范围的大小,我们使用Lbar数据集计算半径(MC_R),即计算包含所有网吧的地理节点形成的最小包围圆(MC),这里MC_R 是MC 的半径。依据Lbar集合的无重复元素数量,可以展示几种不同的状态如图4所示。图4(a)是只有一个网吧的情况,定义MC_R 是饼图半径的最小值(例如5px)。图4(b)有两个网吧,使用线段(LS)连接两点,定义MC的中心是LS 的中点,MC_R 是LS 的长度的1/2。图4(c)有三个网吧,连接三点构成三角形,顶点代表网吧,然后计算出三角形的外接圆(CMC),这里的CMC 就是MC。如果存在多于三个网吧的情况,则如图4(d)中所示,使用模拟退火法生成最小包围圆。图4 设计的饼图中,用户上网总时长分两种情况,一种是查看个体用户的上网行为时空分布特征时的本用户统计上网总时长,从1 小时到3 个月不等;还有一种情况涉及到多用户的行为特征比较,这时会以总上网时长最长的用户时间总长度为基础,绘制同其比较用户的行为特征。

图4 个人上网行为时空分布特征可视化设计Fig.4 Visual design of spatial-temporal distribution characteristics of personal online behavior

3.3 统计特征视图

系统还设计了一些对固有特征进行统计展示的视图,如图3(d)所示,左图为柱形折现结合视图,用来分析统计人员的籍贯信息,蓝色柱状表示来自该地区人员的数量,橙色折线表示该地区人员记录产生的平均时长;右图用区域堆叠图展示不同年龄段的上网人员总数,同时使用红蓝颜色区域区分人员性别。

另外在图7(b)中还使用了平行坐标图展示了对不同年龄段人群上网的特征分布,使用多条平行的竖直坐标轴表示数据的多个维度,在坐标轴上刻画某一维度的数据数值或者分类,然后用线连接某一数据项在所有坐标轴上的点,有效分析上网与年龄阶段以及时长之间的关系。

3.4 共现关系视图

系统使用基于时间轴甘特图的改进视图来表现两人或多人之间行为的共现关系,如图5所示,其中x 坐标轴代表了时间,y 坐标轴是每个上网用户,使用平行与x 轴的甘特图表示每位用户的行为记录发生时段,并将每个时段按5 分钟划分,使用平行于y 轴的虚线连接同时出现的用户,颜色相同的甘特线代表这些用户是在同一场所。

图5 个人上网行为共现关系视图Fig.5 Co-occurrence relationship view of personal online behavior

同时系统设计了使用力导向的关系图表现所有具备共现情况的用户,如图6所示,图中节点代表一个用户,每条线都代表了两点之间至少有3 次时空特征重合的现象,时空特征重合指的是对应的两个用户的上网行为记录中,存在着地点一致(即两人上网所在网吧为同一个),以及两人的上网时间区域有重叠的现象。经统计,所有可能的用户共现事件都发生在3 天之内,因此在力导向关系图中设置了1-3 天的颜色区分。其中灰色的节点说明所有的重合事件都发生在同一天,蓝色的代表了两天,橙色的代表了3 天。甘特图和力导向关系图的结合可以有效且直观地显示出群体成员的聚集时间范围,对群体的发现和对群体行为分析十分有益。

图6 人群共现关系可视化视图Fig.6 Visualization view of crowd co-occurrence relationship

4 案例分析

本节中,通过两个实际的案例来说明分析方法与系统的有效性,其中案例一是基于上网人员的固有属性及行为特征绘制全局用户画像,实现对数据统计特征的识别和分析。案例二是发现可能存在的共现群体并展示个人的上网记录时空分布特征。

4.1 用户画像

首先按人均计算每个区域的上网时间与次数,结果如图7(a)所示,柱形图是人均上网时间(单位:分钟),线性图是人均上网次数(单位:次)。可以看出人均上网时间与上网次数不同省份之间的差距不大,人均时间最长和次数最多的记录都是西藏,人均时间最短的是天津,人均次数最少的是重庆(人均1 次)。

图7 用户画像可视化展示Fig.7 Visualization display of user persona

其次,用户年龄、上网时长、用户数量及网吧数量的关联关系使用平行坐标图展示,如图7(b)所示。可以看出1980年前出生的用户去网吧次数和使用时长都很少,主力用户是80 后和90 后的用户,同时这一阶段的用户年龄与上网时长呈反比关系。

接下来是使用区域堆叠图展示不同籍贯上网人员的年龄及性别分布画像,图7(c)的数据来自上海,这里将上网人员的年龄分为5 组,分别是70 前(1970 前)、70 后(1970-1980)、80 后(1980-1990)、90 后(1990-2000)及00 后(2000 后),蓝色表示男性、红色表示女性。从中可以看到网吧用户中90 后人数占比最多,其次是80 后,男性人数大大超过女性人数。

最后是展示流动人口的上网时间与时长的特征,这里使用了图7(d)中的日历热力图及图7(e)中的基于极坐标的南丁格尔图来分别表现不同尺度下的人员分布特征,最小单位分别是“天”和“小时”。图中展示的是来自北京的上网人员画像,其中左边视图展示的是不同日期及不同时段上网人数的分布,右边视图反映的是不同日期及不同时段的平均每人上网的时长分布(单位是分钟)。基本的时间分布情况是:休息日多于工作日,11月人数多于10月和12月,上网时段以12 点至21 点人数最多,上网时间分布则比较平均。

4.2 共现群体发现

我们将网吧用户可能存在的共现群体定义为至少有两个用户上网时空特征重合,即同一时段这两名用户在同一网吧上网。在系统展示所有可能的共现关系时过滤了上网记录少于3 次的用户,因为个人记录太少会造成偶然因素过大使得分析结果不准确。最终我们筛选出个人上网次数大于3 次的数据进行分析,计算每个网吧中两两用户之间的共现情况作为边,有共现关系的用户作为点,再次筛选出共现关系大于等于3 次的点和边,形成了最终的关系图如图8(a)所示。

该图中每条线都代表了两点之间至少有3 次时空特征重合的现象,其中橙色的节点说明有3 天都发生了时空特征重合事件,显然橙色节点之间所形成的子图代表一个群体的可能最大。

为了验证图中的群体是否是真实存在的,我们使用基于时间轴甘特图的改进视图来详细描述两人或多人之间上网行为的关系,如图8(b)所示。通过观察这个发现的群体,我们可以发现这5 人出现时空共现的重合点集中在同一天的12 小时之内,且这5 人在其他时间段均没有出现共现现象(其中的2人或3 人也没有),到此可以大致判断这种共现可能是一次巧合。为了进一步加强判断,通过查看每人的详细上网记录进行比较,如图8(c)所示,给出了这5 人其中的1 人的上网记录详细时序视图及时空分布视图,再通过比较其他几人的个人特征视图,可以发现这几人之中确实没有时空特征相似的情况,因此得出结论,这5 人不是共现群体。而橙色节点代表的2 个用户(视图可参见图5)的重合上网时间分布在3 天不同的日期中,且没有其他额外的上网记录,结合个人详细记录的比较,我们可以判断出这2 名用户可能是属于一个共现群体的。

图8 共现关系发现及用户行为展示Fig.8 Co-occurrence relationship discovery and user behavior display

5 结论与展望

本文基于现实的时空数据(包括个体行为记录等)设计并实现了SRDVis 系统,该系统使用可视化视图来辅助分析不同特征人群的上网行为,为业务监管人员提供可能的群体行为判断、预测等分析手段。SRDVis 系统使用可视化分析方法,可以帮助用户从海量、异构、复杂的数据中发现感兴趣的信息,获得更深入的理解。文中的可视化方案设计简洁明了,针对每个设计任务使用多种视图来辅助分析,部分视图设计对多种包含时间空间信息的业务领域数据分析系统的可视化实现都有很好的适用性,包括基于极坐标的时序特征视图、基于行政区域地图的热力图、时空分布特征饼图、基于时间轴甘特图的共现视图及日历矩阵、平行坐标等视图均在其他时空数据分析系统中得到实际应用,例如停车场数据分析系统等,具有一定的扩展性。

团队后续的研究工作包括扩展数据集,整合天气、节假日等多种数据源,进行数据融合分析,并从框架、模型、算法、设计到交互方式,使SRDVis系统更加完善,从而提高从业者数据营运能力,实现业务监管部门对相关异常事件的事前预警和事后监督反馈。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢

时序视图网吧
顾及多种弛豫模型的GNSS坐标时序分析软件GTSA
清明
基于不同建设时序的地铁互联互通方案分析
基于FPGA 的时序信号光纤传输系统
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
Django 框架中通用类视图的用法
发挥“五老”作用 创建“四好四无”网吧
实施“十个结合”有效监管网吧