基于手机位置数据的个体行为规律研究
2017-10-10张安勤田秀霞
张安勤, 田秀霞, 张 挺
(上海电力学院 计算机科学与技术学院, 上海 200090)
基于手机位置数据的个体行为规律研究
张安勤, 田秀霞, 张 挺
(上海电力学院 计算机科学与技术学院, 上海 200090)
研究个体在不同时间的行为规律性,以及不同个体行为之间的相似性,可以为个性化推荐以及基于位置的服务提供帮助.从手机的基站位置数据中,通过聚类方法找到参考位置,并根据参考位置,将人们杂乱无章的行为转变为到达和离开的二进制时间序列.定义二进制时间序列的相似度,利用异或算法检测个体行为模式.在Reality数据集上的实验结果表明,该方法是有效且可靠的.
手机数据; 参考位置; 异或运算; 个体行为模式
每个人的活动就像分子运动,看起来是杂乱无序,实际上存在潜在的模式.对于很多个体来说,工作日的活动就是上班、工作、下班这种循环往复的运动模式,具有很强的规律性和周期性.但周末时间,人们可以出游,也可以在家休息,这时其活动模式就具有较强的随机性.
随着带有定位功能的移动设备和视频监控技术的广泛应用,产生了大量带有时间信息和位置信息标记的数据,如手机通话数据、视频监控数据、公交车刷卡数据、出租车轨迹数据、社交网站签到数据、银行卡刷卡数据等,这就为长时间高效地跟踪个体移动提供了可能[1].机器学习和数据挖掘技术的发展增强了个体时空轨迹的直观显示和隐含模式的识别与分析,而个体行为模式识别与分析对城市规划、交通规划、社区规划、信息与疾病传播、旅游规划和管理等领域的研究具有重要价值.
随着智能手机的普及,手机与个人具有很高的耦合性,手机的使用模式可以在某种程度上反映人的活动模式.海量的手机用户定位数据为人们的行为规律研究提供了丰富的数据源.目前,已经有一些学者开始利用手机数据对个体的活动模式进行研究.
文献[2]给出了个体行为模式在时间方面的规律.通过统计居民的通话和活动频率发现,无论是工作日还是非工作日,居民在一天内的行为变化规律如下:上午9点到11点是活动频繁时段,中午12点到下午3点活动频繁度减弱,下午4点到6点活动又开始频繁,下午6点后活动频繁度慢慢变弱,晚上11点到第2天5点活动的频繁度最弱.
文献[3]提出,从用户的通话记录中可以获取手机所用的基站ID.因为在不同时刻同一手机用户在同一地点可能感应到不同的基站,通过统计用户多次在同一地点感应到该基站的方法,可以计算出基站的概率密度,从而对个体进行定位.然后,基于信息熵对个体的活动模式进行研究,判断个体的行为是否具有规律性.
在文献[4]中,GONZALEZ M通过研究10万手机用户6个月的移动轨迹来挖掘个人活动模式.当用户拨通或接听电话,接收或发送短信时,研究者可以通过提供该服务的基站对用户的当前位置进行定位,进而得到手机用户随时间变化的位置轨迹.
对个体行为规律性的研究也有了一些研究成果.SCHLICH R和AXHAUSEN K W[5]分析了300多人6个星期的出行数据,研究结果表明70%的出行以2~4个地点为目的地.SONG C等人[6]分析了几个月的手机使用数据,研究显示人们大多数时间在少量的几个地方(例如家和工作单位)活动.尽管这些研究使用了不同类型、不同时间段的数据,但结论却是相似的,即人们大多数时间只访问少量的几个地方.
对个体活动模式的研究也引起了很多复杂网络领域的关注,主要针对个体活动模式的几何度量的统计分布特征,以及活动的时间和空间分布特征,例如个体活动的步长分布是否具有重尾特征或幂律分布特征等[7].
1 个体行为模式检测的算法
从短期来看,个体的行为是杂乱无章、毫无规律的.但通过长时间的观察可以发现,个体的行为具有一定的规律性,符合一定的行为模式.根据手机基站位置数据,可以发现个体在一段时间内的主要行为规律,判断个体的行为是否发生巨大变化,研究个体在不同时间段的行为相似程度及在相同时间段内不同个体行为的相似程度,从而对个体行为进行预测.本文给出了个体行为参考位置的定义,并提出了发现参考位置的方法.定义了两个二进制序列的相似度,并在此基础上给出了检测个体行为模式的算法.
通过了解个体的行为模式,有利于提供基于位置的服务以及个性化推荐等,为人们的生活创造更多的便利.本文使用了美国MIT媒体实验室研究团队提供的手机基站位置数据进行实验,实验结果表明该方法是可行且有效的.
1.1 确定参考位置
人工生成一个运动数据集模拟一个人的日常活动,图1显示了此人的移动轨迹[8].从图1可以看出,这个人的移动轨迹是杂乱无章的,没有任何的移动规律.如果以某个特定的地方作为参考位置,就可以将其行为分为在参考位置和不在参考位置两类.
图1 原始移动轨迹
图2是将此人的原始移动轨迹转变为从参考位置观察到的二进制轨迹序列.“1”代表在参考位置,“0”代表离开参考位置.这个二进制轨迹序列比原始的移动轨迹图更具有规律性.在将原始轨迹转变成二进制序列的过程中,空间噪声数据就同时被过滤掉,原本需要在二维空间中检测人的行为模式,就转变为在一维空间中进行.
假设D={(x1,y1,t1),(x2,y2,t2),(x3,y3,t3),…}是此人的原始移动数据集,其中xi和yi分别代表其所在位置的二维坐标,ti代表某个时刻.如果只考虑运动的空间信息,参考位置就是经常到达的位置.因此,参考位置就是二维原始轨迹图中包含点密度更大的区域.按照观察的粒度要求,将整个二维空间分成大小一样的网格,计算每个网格的密度.
图2 从参考位置观察的二进制轨迹序列
输入:活动序列(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)和网格大小L.
输出:参考位置.
算法步骤如下:
(1) 将整个二维空间分成大小一样的网格,每个网格有一个计数器;
(2) 判断活动序列(x1,y1),(x2,y2),(x3,y3),…,(xn,yn)中的每个点位于哪个网格,则相应网格的计数器增加1;
(3) 计算所有网格计数器的最大值;
(4) 位于计数器最大值的网格中的点就是参考位置点.
将以上算法记为算法1,图3中带有星号的点就是利用算法1找到的参考位置.
图3 参考位置
1.2 相似性度量
在二进制序列中,只有1和0两个符号,因此能够很方便地度量两个二进制序列的相似性.
对于同一个人,如果在不同的时间段都在参考位置处,那么两个二进制序列中相应的位置值都是1;如果在不同的时间段都不在参考位置处,那么两个二进制序列中相应的位置值都是0.对于不同的人,如果他们在同一时间段停留在同一个参考位置,那么这两个二进制序列相应的位置都是1;如果在同一时间段不停留在同一个参考位置,这两个二进制序列的对应位置都为0.因此,两个二进制序列的同一位置的相同符号1或0,可以表示相同的行为模式,两个二进制序列的同一位置的不同符号可以表示不同的行为模式.根据以上事实,可以使用异或运算来决定两个二进制序列是相同还是不同的符号.
此外,由于1表示在参考位置处,人所处的位置很明确.而0只是表示不在参考位置处,则可以在其他任意地方,所以0对于研究行为相似性的作用没有1大.两个二进制序列中1的比例之差可以表示相异性.
两个二进制序列中1的比例之差可以定义为:
(1)
式中:B1,B2——二进制序列;n(B1),n(B2)——二进制序列B1和B2中1的个数;
l(B1),l(B2)——二进制序列B1和B2的长度函数.
两个二进制序列的长度差别越大,表示两个序列越不同,因此长度差也可以用来衡量两个序列的相异性,计算公式为:
(2)
两个二进制序列中同一位置不是同为1或0,可以表示两个序列的相应时刻不在同一位置,所以不是同为1或0的数字个数可以表示相异性.计算公式如下:
(3)
因此,总的不相似度可以定义为:
(4)
式中:w1,w2,w3——预先给定的权值,w1+w2+w3= 1.
这样相似度可以定义为:
S=1-ds
(5)
1.3 二进制异或算法
许多现象表明,人类在各自的活动中经常表现出一定程度的规律性.一个人可能多次访问一些特定的地方,在不同的时间段过着相似的生活.不同的人在相同的时间段内,可能有相似的生活规律,在某种程度上他们可以被视为相似的人.但我们很难从人们的原始活动序列中发现活动规律.
从参考位置的角度来看,原始的运动序列可以被转换成一个二进制序B=b1,b2,b3,…,bn,其中bi=1时,表示这个人在该时刻在参考位置处,否则bi=0.
使用算法1可以从人的原始活动序列中找到参考位置,然后从参考位置的角度将原始序列转变成二进制时间序列,进而根据下列算法从二进制时间序列中挖掘出运动规律性.
输入:多个人的活动序列(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),每个人的参考位置,和0≤w1≤1,0≤w2≤1,0≤w3≤1.
输出:一个人在不同时间段的相似性和不同人在相同时间段的相似性.
算法的步骤如下:
(1) 根据参考位置,每个人的原始活动序列被转变为二进制序列,二进制序列中1代表在参考位置,0代表离开参考位置;
(2) 根据式(1),式(2),式(3)计算do,dl,dx;
(3) 根据式(4)计算两个二进制序列的不相似度;
(4) 根据式(5)计算相似度.
上述对个体行为模式的挖掘算法记为算法2.
2 实验和结果
为了保证算法的可重复性,在公共可获取的Reality Mining 数据集[3]上实现算法.
Reality Mining数据集研究的是手机用户,它为大量的研究工作提供了基础,而且它是目前研究最多的手机数据集之一.它记录了97个MIT媒体实验室和MIT商业学校的学生和工作人员9个月的手机使用数据.每当一个用户的手机服务基站发生了改变,为他服务的基站ID就被记录下来.数据集中的cellspan表的结构包括下面几个部分:oid是基站自动检测到手机信号时的记录编号,这个值是自动增加值;endtime是自动检测到手机信号的结束时间;starttime是自动检测到手机信号的开始时间;person_oid是手机用户的编号;celltower_oid是当前的基站编号.
本文对数据集的cellspan表中97个手机用户的基站数据进行实验.
2.1 个体在不同时间段的活动规律
以编号为29的个体为例,使用Reality Mining数据集cellspan表中从2004-07-26到2004-08-26的数据.首先利用算法1,找到29#个体经常出现的位置,如图4所示.然后以这个位置作为参考位置,根据cellspan表中29#个体在2004-07-26到2004-08-26这段时间是否在参考位置,就可以得到一个二进制时间序列.
图4 编号29的个体所处的基站以及参考位置
根据算法1找出了参考位置为家和办公室,即为图4中带有星号标识的部分,这与实际情况是一致的.
图5为29#个体在4个不同时间段的活动规律.从图5可以看出,29#个体在2004-08-09 到2004-08-15这个时间段的活动规律与2004-08-23到2004-08-29是相似的,相似度为0.7.而2004-08-02到2004-08-08这个时间段的活动规律与2004-08-16到2004-08-22的差别较大,相似度为0.3.这个结果表明,29#个体在2004-08-02到2004-08-08时间段的活动规律与其他时间段相差较大,这个时间段可能有些特殊事情发生.
图5 29#个体在4个不同时间段的活动规律
2.2 同一时间段不同个体的行为规律
对97个不同个体在相同时间段进行实验,以编号分别为43,75,94,96的4个个体为例.图6是4个不同个体在2004-11-01到2004-11-07一周内的实验结果.
图6 4个不同个体在同一时间段的活动规律
从图6可以看出,94#和96#个体在相同时间段(2004-11-01到2004-11-07)有着截然不同的活动规律,利用算法2可以计算出其相似度为0.08;43#和96#的活动规律比较相似,利用算法2计算出其相似度为0.65.这个结果表明,用算法2能够得出不同个体在相同时间段的活动规律或行为的相似程度.
3 结 论
(1) 提出了参考位置的概念,并给出了寻找参考位置的方法;
(2) 基于参考位置将个体原始的杂乱无章的活动轨迹转变成二进制时间序列;
(3) 给出了二进制序列的二进制异或算法,以及检测人们的活动规律和不同人活动的相似程度.
[1] LU Y,LIU Y.Pervasive location acquisition technologies:Opportunities and challenges for geospatial studies[J].Computers Environment and Urban Systems,2012,36(2):105-108.
[2] AHAS R,AASA A,SILM S,etal.Daily rhythms of suburban commuters′ movements in the Tallinn metropolitan area:case study with mobile positioning data[J].Transportation Research Part C Emerging Technologies,2010,18(1):45-54.
[3] EAGLE N,PENTLAND A.Reality mining:sensing complex social systems[J].Personal and Ubiquitous Computing,2006,10(4):255-268.
[4] GONZALEZ M,HIDALGO C,BARABASI L A.Understanding individual human mobility patterns[J].Nature 2008,458:779-782.
[5] SCHLICH R,AXHAUSEN K W.Habitual travel behavior:evidence from a six-week travel diary[J].Transportation,2003,30(1):13-36.
[6] SONG C,QU Z,BLUMM N,etal.Limits of predictability in human mobility[J].Science,2010,327:1 018-1 021.
[7] 刘瑜,康朝贵,王法辉.大数据驱动的人类移动模式和模型研究[J].武汉大学学报(信息科学版),2014,39(6):660-666.
[8] LI Z,HAN J,JI M,etal.MoveMine:mining moving object data for discovery of animal movement patterns[J].Acm Transactions on Intelligent Systems & Technology,2011,2(4):135-136.
(编辑 白林雪)
ResearchonIndividualBehaviorPatternsBasedonMobileLocationData
ZHANGAnqin,TIANXiuxia,ZHANGTing
(SchoolofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China)
The regularity of the behavior of the same individual at different times and the similarity of different individual behaviors can provide help for personalized recommendation and location-based services.According to the location data of the mobile phone,the reference position is found by the clustering method.And then people′s behavior is transformed into the arrival and departure of the binary time series based on the reference position.The similarity of binary sequences is defined and then individual behavior patterns are detected using XOR algorithm.Experiments on Reality mining data sets show that the proposed method is effective and reliable.
mobile data; view locations; XOR; individual behavior patterns
10.3969/j.issn.1006-4729.2017.04.003
2017-03-09
张安勤(1974-),女,博士,副教授,安徽霍邱人.主要研究方向为普适计算.E-mail:aqz612@sina.com.
国家自然科学基金(61532021);上海市自然科学基金(16ZR1413200).
TP391.4;TN929.53
A
1006-4729(2017)04-0320-05