基于可视化的网吧非法运营行为检测及分析
2019-03-12张艺兰梁晶乔亚男冯雪昱
张艺兰,梁晶,乔亚男,冯雪昱
(四川大学计算机学院,成都610065)
0 引言
随着家庭网络的普及,网吧经营变得艰难,由此部分网吧出现了接纳未成年人上网等非法运营现象,这些黑网吧通常设施简陋、隐蔽性强,吸引了大量未成年人、外来务工人员(流动人口)前往,这类人群受经济、法律规定、家庭禁止等因素限制成为黑网吧的主要消费群体[1]。黑网吧的存在,一方面违反国家法律,另一方面严重危害未成年人身心健康、影响社会公共安全。为此,长期以来全国公安机关都在组织开展打击黑网吧行动。然而,网吧数目巨大给执法部门的执法带来困难,且现有的派遣专门人员挨个排查网吧的传统执法方式耗时耗力,给了非法网吧规避查处的可趁之机。在这样的情况下,一套能可视化的检测和分析网吧非法运营行为的处理流程就很有必要性了。
网吧非法运营现象种类繁多,但这篇文章仅对网吧未成年人上网接纳情况、流动人口上网行为分析、青年犯罪团伙检测等几类代表性的网吧非法运营行为进行分析研究,其他的网吧非法运营情况分析将会是将来的研究工作。
结合了相关部门的实际需求以及初步调研,本文确定了以下四个可视分析任务,分别是:
任务一,找出用于接纳未成年人上网的成年人信息,并分析网吧未成年人上网接纳情况。
任务二,检测在网吧上网的流动人口,并分析其行为特点。
任务三,发现在网吧上网的青年犯罪团伙。
任务四,对网吧主要上网人群进行用户画像。
为了完成以上分析任务,本文提出了一套完整的、有效的可视化分析流程,能够让执法部门从网吧上网登记数据中识别不同上网人群,分析上网人群的时空行为特征,进行网吧非法上网行为、团伙上网行为的有效检测[2],该分析流程有助于提高执法效率、维护社会治安,为打击网吧非法运营行为领域提供了新的分析思路,该可视化分析流程的提出是本文的最大贡献。
1 可视化检测分析流程
网吧非法运营行为可视化检测分析流程主要分为三个阶段,第一阶段进行数据预处理工作,第二阶段根据问题需求进行可视化方案的设计与实现,第三阶段针对可视化结果进行分析总结。这三个阶段是层层递进的关系。
2 数据预处理
本文用到的数据是重庆市3000多个网吧的基本信息数据及2016年三个月约1600万行上网记录数据,数据大小为1.7GB[2]。其中,网吧的基本信息数据是公安机关备案的网吧开业时的基本信息,包括网吧编号、名称、地理位置信息(经度、纬度)。网吧的上网记录数据指客人来网吧上网时,网吧工作人员根据身份证等有效证件实名登记的上网人信息,包括上网人编号、网吧编号、姓名、性别、籍贯、出生日期、上线时间、下线时间。
原始数据中存在一定的异常数据,文章通过对网吧基本信息数据,以及总上网记录数据量12%(上网记录数据分17个子文件,随机抽取了两个子文件)的数据进行初步分析,发现了四类主要异常情况,如表1所示。
表1 数据异常类型表
为了避免异常数据对分析结果的干扰,在数据预处理环节对表1的数据重复问题进行了去重处理;对外键缺失问题,通过两张数据表的数据连接,去除缺失外键的数据项;对其余两类问题数据进行了删除整行错误数据的处理。
为了增加数据的可解释性、丰富语义,通过开源的全国行政区划数据为原始数据增加籍贯地理信息属性,即输入网吧的位置经纬度,通过数据库连接全国行政区划数据表,输出该网吧所处省市名称。
预处理后的数据以CSV的格式存储在MySQL[3]数据库中。
3 可视化方案设计与实现
根据确定的四个可视分析任务来设计可视化方案,并基于 D3.js[4]、ECharts[5]、Leaflet[6]、Node.js[7]等技术进行方案实现。本文设计的可视化方案能清晰简洁地解决四个可视分析任务所对应的问题,能帮助公安部门快速分析网吧运营行为,发现已有的和潜在的存在非法运营行为的网吧,是可视化技术在实际应用领域的一次良好运用。
3.1 未成年人上网接纳情况
根据统计发现,1600多万条上网记录中同一个上网人编号出现两次及以上的人数共计190万条,因此利用条件筛选得到非法网吧共计2289个,非法使用的成年人信息约86万。本文通过散点地图,日历热力图与地区图说明未成年人的上网接纳情况。
首先通过散点地图呈现非法网吧的地理位置分布情况,如图1所示,一个蓝点表示一个非法网吧。点击某一网吧显示该网吧名称以及所接纳未成年人人数信息。从图1中明显看出非法网吧存在群聚现象,因此推断该区域可能由于监管不当导致未成年人上网现象泛滥。
图1 接纳未成年人的网吧散点地图
日历-热力图表示不同时间粒度(日,周,月)下所有网吧接收未成年人上网的人次情况,如图2所示。方格表示具体的某一天,圆圈大小表示人次的多少,并且以颜色加深和波纹效果表示人次最多的12天。图2表明在月粒度下,11月份未成年人上网次数较其他月份较多,推断这一时期可能正值期中考试结束,学业压力较小。
图2 所有网吧未成年人上网人次统计热力图
最后通过地区图展示所有非法成年人身份证信息归属地情况,如图3所示,颜色深浅表示非法成年人身份证归属地人数,饼图表示男女比例。图3显示非法成年人身份证大多来自于重庆市的相邻省份,例如四川省、湖南省。因此重庆市公安人员可以与相邻省份合作,共同打击网吧非法使用成年人信息的现象。
图3 非法使用的成年人籍贯信息地区图
3.2 流动人口行为特点
流动人口是指籍贯不在给定城市的人。本文用到的网吧数据是重庆市的,重庆市的籍贯编号前两位是50,因此将上网记录信息表中上网人籍贯编号(AreaID)非50的上网人初步确定为流动人口。但是在得到初步数据之后,发现数据中仍然存在属于重庆市的人口。按照国家制定的籍贯归属表,50代表重庆市,但是因为重庆市曾经归属于四川省,籍贯编号为5102的人口也属于重庆市人口。因此进一步将筛选条件修改为AreaID非50及非5102的上网人确定为流动人口。
根据筛选条件(上网人籍贯编号非50以及非5102)获得上网记录信息表中流动人口列表,网吧中流动人口比例高达88%。通过地区图,热力图与柱状图展示流动人口行为特点。
首先以中国地区图和各个省地区图表示网吧流动人口数量,颜色深浅表示省或者市的流动人口数量。如图4所示,流动人口的籍贯与地理位置,省自身经济发展状况相关。例如湖北省、贵州省在地理上与重庆市的距离相差不大,但是贵州省的流动人口是湖北省的两倍左右,因此可以推断是因为贵州省发展相对缓慢闭塞,所以更多的人选择外出打工。
为了观察流动人口的上网时段情况,本文选择了柱状图,如图5所示。横轴表示一天的24个小时,纵轴表示对应的流动人口数量。从上网时段上来看,高峰期分别在11点与19点。由此推断,部分流动人口可能存在失业或者工作时间不稳定的情况,因此选择中午上网,然后大约在19点以后陆续离开网吧,开始工作。同时流动人口中也存在一般的上班族,主要是下班后进入网吧,从而解释了柱状图中19点的顶峰现象。
图4 网吧流动人口籍贯信息地区图
图5 上网时间段与上网人数柱状图
最后通过热力图展示流动人口的上网时长与年龄特点,如图6所示。其中横轴表示上网时长,纵轴表示年龄,颜色深浅表示对应条件下的流动人口数量。图6说明流动人口中18-35岁的人群是主力军,大部分流动人口的上网时长集中在4-8小时,此外随着年龄增大,上网人数也呈递减趋势。
图6 与上网时长、年龄相关的上网人数热力图
3.3 社团发现
《联合国打击跨国有组织犯罪公约》[8]将3人或多人视作一个团伙,因此本文将网吧中社团定义为人数超过两人,且成员之间的上下线时间接近的集合。本文将上下线时间差小于5分钟的上网记录,人数大于2的集合确定为一个社团,并且通过可缩放的圆形打包图表示网吧的社团分布情况,如图7所示,其中最大圆表示一个网吧,次大圆聚集相同人数的社团,最小圆表示一个上网人。
图7 网吧社团可放缩圆形打包图
通过选取多个网吧查看其社团情况,发现单个社团人数一般不超过10人。网吧社团个数不定,个别网吧的社团个数偏多,可达200-300个,而且大型社团(8人以上)的个数比一般网吧多。进一步结合地图发现此类网吧一般分布在网吧聚集程度较为密集的区域,可以推断由于这些区域上网人数较多,因此更容易形成社团。
3.4 网吧用户画像
主要针对三类代表性网吧用户描述其用户画像:未成年人、流动人口及网吧社团。网吧未成年人具有地理倾向性和上网时间周期性。根据接纳未成年人的网吧群聚现象推断未成年人是有选择行的去某一区域上网;在上网时间周期性上,未成人上网的高峰时期是节假日、正常教学周的休息日以及考试刚结束时期。流动人口在网吧上网总人数所占比例高达88%,大多来自于邻接省市,并且呈现低龄性,多为18-35岁的青壮年。流动人口具有上网时间周期性,主要集中在中午11点及晚上18点之后,且平均时长为4-5小时。网吧社团以3-4人的社团最为常见,其人数与地域也存在一定关系,总数超过5人以上的社团所在的网吧一般存在于网吧分布较密集的区域。
4 结语
根据本文所设计及实现的可视化分析方案,在非法网吧搜寻与整治方面,可以通过网吧散点地图找出网吧密集区域,对大量网吧群聚区域进行重点治理。此外,还可以根据未成年人上网行为特征,对未成年人上网集中时段做针对性监管等。流动人口是犯罪的高发人群,通过流动人口的上网时间特性可以帮助公安集中关注并严格审查流动人口较为密集的、流动人口出现的高峰时段。并且建议重点关注18-25岁的上网人群。在网吧犯罪团伙刑侦与预防方面,建议定期检查整治网吧密集区域,预防大型犯罪团伙的形成;同时建议结合上网上下线时间和籍贯信息综合判断3-4人社团中的犯罪团伙难度。
本文基于可视化对网吧上网记录进行分析,提出了一套系统性的可视化检测分析网吧非法运营行为的处理流程,能有效提高公安部门查处非法网吧的执法效率,也能进一步分析前往网吧上网的未成年人、流动人口及青年犯罪团伙的时空行为特征,具有较大实际意义。