APP下载

基于手机信令数据的老年人群识别

2022-08-03魏姗姗

山东交通科技 2022年2期
关键词:信令通话基站

魏姗姗,王 扬,徐 畅,王 琳

(1.山东省交通科学研究院,山东 济南 250031;2.北京工业大学,北京 100124)

引言

随着中国智慧城市建设的不断推进以及人口老龄化问题的日益突出,对城市精细化规划、治理,以及更好地为老年人提供社会服务都提出了新的挑战。传统上获取城市人口空间分布结构的方法主要是人口普查,而基于常住人口或户籍人口的人口普查数据不但收集、更新成本高,而且普查间隔较长,仅能代表调查地区某一时间段的静态人口数据,不能表示潜在的人口数及实时的动态人口数据,已经不能满足智慧城市发展的需求。大数据分析不仅对城市管理者制定政策和规划具有指导意义,而且可以为市民的日常出行或其他活动提供更优质的服务。手机数据因其覆盖人群广、范围大,持续性强,并且能实时定位等特点被广泛应用。

相关研究表明手机数据在增强城市管理的创新应用方面的适用性[1]。由于手机数据具有定位功能,可以根据手机数据推断用户的出行信息,研究居民的出行行为[2]。虽然手机数据在用户出行相关方面的研究众多,但是目前利用手机数据评估人口数量及识别特定人群的研究较少。因此,研究基于手机数据识别老年人群的方法,旨在未来的人口统计和城市规划中,有可能使用手机数据进行补充甚至替代人口调查,进一步提高城市服务水平。

1 手机数据预处理

常用的手机数据可分为两大类:一是基于手机内置传感器的数据,二是基于蜂窝网络的手机信令数据。采用数据为北京市基于蜂窝网络的中国移动手机信令数据。数据主要包括的字段见表1,每个手机号都有唯一标识码IMSI,数据中包含数据上传时间、地点、触发的基站名称、蜂窝编号、所处的交通小区以及触发事件的类型。

表1 通讯详单数据各字段

通过定位技术采集到的手机数据由于传输或其它干扰因素,会存在噪音数据,因此,需要对其进行质量控制,剔除“噪声”数据。对于基于蜂窝网络的定位数据,噪声数据主要包括重复数据和“乒乓数据”两类。

重复数据是指所有字段完全相同的两条或两条以上记录数据,对于重复数据只保留一条数据记录,重复的记录进行删除处理。针对重复数据的处理步骤:(1)根据所有字段,找到所有字段相同的记录数据;(2)针对Step1 得到的记录数据,根据用户识别码(IMSI)和时间字段(TIME),每个用户在相同的时间仅保留一条记录,删除其它重复的记录。

“乒乓数据”是指由信号漂移导致的错误定位数据,表现为在很短的时间内,手机信号从临近基站切换到相对较远的基站,在一段时间后又切回到临近基站。由于信号突然切换到较远的基站,位置变动过大,这种数据可以根据设置速度阈值vmax,然后根据数据中前后三条数据之间的距离权重比f,进行进一步判断。针对“兵乓数据”的处理步骤:(1)设初始值n=2,顺序选取用户IMSI中第n-1、n、n+1 三条数据;(2)根据时间和经纬度信息计算两相邻记录之间的移动速度vn;(3)设置速度阈值,vmax=100 km/h,若vn>vmax,则判定n为“兵乓数据”;(4)在上述情况下,计算n-1、n、n+1 相邻三条记 录之间 的距离差分别为△dn-1,n、△dn+1,n,f为两个距离差的比值。判断当f>3 时,则判定n为“兵乓数据”;(5)删除上述不符合条件的数据。

按照上述的数据处理方法,可以得到高质量、较为完整的手机信令数据。手机数据质量控制流程见图1。

图1 手机数据质量控制流程

2 老年人群识别

2.1 研究区域

以北京市为例,2019 年常住人口2 153.6 万人,外来人口数量也十分巨大,人口流动性较大。北京市老年人口比例逐年增加,常住人口中60 岁及以上人口占比高达28.6%[3]。

北京市共有基站约1.4 万个,六环以内的主城区基站分布更加密集,交通小区划分更加精细,且道路网密度较高,见图1。

图2 北京市基站及六环以内交通小区和路网分布

由于手机数据的隐私性要求,一般用于研究的手机信令数据会对用户的姓名、年龄等私密信息进行脱敏处理,所以无法直接通过手机信令数据得到用户的年龄数据。要想通过手机信令数据识别老年人群,首先要找到典型的老年人行为特征,并且通过手机数据展现这些行为特征。

2.2 出行特征

相关研究表明不同年龄的人群在出行距离、出行方式、出行次数等方面存在很大差异[4-5]。由于老年人已经退休,并且身体状况可能不佳,所以老年人更倾向于使用当地设施,从事非工作活动,这些特殊性导致老年人的出行和需求与一般人群有很大不同[6]。相关研究发现老年人出行的目的主要是休闲和购物,出行方式以步行、公交和自行车为主[5]。尽管家庭中小汽车拥有量逐年上升,但是老年人因身体原因开车的比例相对较少[6]。

常用的城市交通出行方式有步行、自行车、电动车、公交车、地铁、出租车、私家车、通勤班车等。将其归类为步行,非机动车(自行车、电动车)和机动车(公交、地铁、出租车、私家车、通勤班车)三类出行方式,基于手机信令数据进行出行方式辨识研究。

在出行特征调查中,调查了居民的出行次数、出行方式、每次的出行距离等信息。出行方式的调查日期为工作日,本次调查共发放402 份,有效份数310 份。

经过对调查结果进行统计分析发现,老年人群和非老年人群在出行方式、出行次数及出行距离方面有明显的差异,见图3 ~图5。数据结果显示:老年人群1 d 出行次数主要集中在≤2 次或3 ~4 次,出行方式中步行和非机动车占比高达80%,而且超过80%的老年人群单次最大出行距离≯3 km。而非老年人群的平均出行次数明显高于老年人群,出行方式以机动车为主,最大出行距离也明显高于老年人群,超过60%的非老年人群出行距离≥5 km。

图3 老年人群和非老年人群1 d 出行次数

图5 老年人群和非老年人群出行距离

图4 老年人群和非老年人群出行方式

综合分析,把出行次数、出行方式以及出行距离作为主要出行特征来进行老年人群识别。其中,出行方式的差异可以体现在不同交通方式的出行速度不同,因为手机信令数据可以通过出行中的起始时间和距离估算出出行速度,所以可以根据划分速度阈值的方法对出行方式进行判别。

调查研究发现[7]:步行出行的平均出行速度范围:0 ~5 km/h;自行车出行的平均出行速度范围:5 ~15 km/h;公交车出行的平均出行速度范围:10 ~20 km/h;小汽车出行的平均出行速度范围:15 ~40 km/h;地铁出行的平均出行速度范围:10 ~30 km/h。结合以往居民出行调查的研究经验,设定的出行方式和出行速度的对应关系见表2。

表2 出行方式和速度对照

用户的出行次数和每次出行距离可以通过手机信令数据获取,相关研究已经比较成熟,具体方法在此处不赘述。

2.3 通话特征

由于生活习惯的不同,非老年人群和老年人群可能在通话特征上存在差异,以问卷的形式调查了居民的通话特征,包括工作日通话次数、周末通话次数、通话高峰时段等信息。

通过对问卷结果的统计分析发现,老年人群及非老年人群在工作日通话次数、周末通话次数、通话高峰时段方面存在明显差异,分析结果见图6 ~ 图8。

图6 通话次数(工作日)

图7 通话次数(周末)

图8 老年人群和非老年人群通话高峰时段

数据结果显示:大多数老年人群在工作日通话次数≤2 次,最大≤5 次,在周末的通话次数也是以≤2 次为主,工作日通话高峰时段在07 00—11 00和11 00—15 00 的人数居多。而非老年人群在工作日和周末的通话次数都要明显高于老年人群,并且非老年人群在周末的通话次数要略低于工作日的通话次数。在通话高峰时段方面,非老年人群主要集中在07 00—11 00 以及15 00—19 00 时段,并且有些非老年人群的通话高峰时段在23 00 以后。把工作日通话次数、周末通话次数以及通话高峰时段作为主要的通话特征来进行老年人群识别。

2.4 基于贝叶斯分类算法的老年人群识别

老年人群和非老年人群在出行特征及通话特征方面存在明显差异,以出行特征(出行次数、出行方式、最大出行距离)和通话特征(工作日通话次数、周末通话次数、通话高峰时段)为分类特征,基于朴素贝叶斯分类技术,提出了基于手机信令数据的老年人群识别方法,具体流程见图9。

图9 基于贝叶斯分类的老年人群识别流程

以出行次数、出行距离、出行方式、周末通话次数、工作日通话次数、通话高峰时段为特征属性,选取调查样本中310 个用户的数据,随机抽取70%为训练数据,其余为测试样本,建成了朴素贝叶斯分类器,并验证了其分类精度。其分类精度的混淆矩阵见表3,对测试样本的分类准确性达到了91%。

表3 分类器混淆矩阵分析结果

基于构建的朴素贝叶斯分类器,对北京市六环区域内,每个交通小区的老年人群进行了识别。为验证识别结果的可靠性,根据人口统计数据对老年人群识别结果进行了验证。人口统计数据是以街道为单位,每个街道包含多个交通小区,而且可能包含交通小区的一部分,在进行数据验证时,当某个交通小区的一部分属于某街道时,则按照属于该街道这部分的面积占该交通小区总面积的比来计算落在该街道的人口数。因此,这种验证方式可能会存在一定的误差。结合人口统计数据,随机选取了几个典型地点分别进行了验证,表4 列出了验证结果,平均百分误差大约为31%。虽然平均由误差左右,但所提出的基于手机数据识别老年人群的方法,相对于人口普查具有低成本和动态估算等优点,适用于需要频繁估计老年人口的场景。

表4 人口数量识别验证结果

3 结语

基于传统人口普查数据获取成本高、耗时长等不足,提出了一种可以通过挖掘手机信令数据中用户出行和通话信息,进行老年人群识别的方法,并通过实际统计数据验证了该方法的有效性。验证结果显示,该方法在老年人群识别方面的准确率在69%左右,尽管该识别方法存在一定误差,但是可以作为传统人口调查的补充,在城市精细化管理及提高老年人群服务水平等方面具有重要意义。

猜你喜欢

信令通话基站
微信上小额借款 请务必通话确认
5G IAB基站接入网络方案研究*
5G基站辐射对人体有害?
移动信令在交通大数据分析中的应用探索
《戊戌元日与友人通话》
基于信令分析的TD-LTE无线网络应用研究
基于移动通信基站建设自动化探讨
可恶的“伪基站”
LTE网络信令采集数据的分析及探讨
多信令点在华为交换机上的应用