利用自行车借还记录分析与挖掘空间位置信息
2014-06-27张亦汉钟欣梅李建程
张亦汉,钟欣梅,李建程
(1.广东财经大学地理与旅游学院,广东广州 510320;2.贵州师范大学中国南方喀斯特研究院,贵州贵阳 550001)
利用自行车借还记录分析与挖掘空间位置信息
张亦汉1,钟欣梅2,李建程1
(1.广东财经大学地理与旅游学院,广东广州 510320;2.贵州师范大学中国南方喀斯特研究院,贵州贵阳 550001)
目前,大多数基于个体空间位置信息的研究只能对个体活动空间的特征进行粗略的描述,而无法挖掘群体偏好和个体间的关系。本文结合利用时间地理学理论方法,对地理时空数据进行分析和挖掘,得出个人活动区域的规模、个人行为及其相关对象间的关系等。试验表明,利用广东财经大学三水校区的自行车借还记录可以分析出学生的分布、地点间的联系紧密程度、就餐偏好、课程安排及人际关系等情况。
空间位置信息;个体行为;时间地理;数据挖掘
一、引 言
目前,个体活动行为过程的研究越来越受到国内外学者的重视,逐渐形成了如时间地理学等的理论方法[1-2]。时间地理学是一种能够有效分析个体活动的方法。它认为个体活动只能在特定时间和特定地点发生,即遵守时间和空间的制约[3]。因此,一些学者根据个体受到的限制的不同将其分成如下几类:①能力制约,受到个人自身能力(如休息、用餐等生理性需求)制约的一类;②组合制约,个体为了进行某种活动(如社交、聚会等)和其他人同时存在于某一特定场所;③权威制约,由于法律规范等把个体从某些特定时间和空间内排除的一类。由于每个人活动均受到空间和时间的约束,因此,一些学者通过时空棱柱把个人在时空活动的制约用图表示[4-7]。
有学者认为个体行为的活动空间还是研究城市社会空间的重要指标[7-8]。研究个体行为常常采用问卷调查的方式。该方法也常常应用于个人生活质量、可达性、社会分异和社会公平等研究[9]。也有学者认为该方式只考虑起点与终点,却忽略了居民出行穿过的区域,而这些被忽略的区域对个体活动有着极大影响[10]。近年来,基于GPS、手机等定位技术的移动数据被应用于居民日常活动与出行行为的研究中[11-12],但是这一技术需要电信运营商的支持。目前,大多数研究只能根据数据收集的结果对活动空间的特征进行粗略的描述,而无法挖掘个体之间的联系,更为重要的是验证数据往往非常难以获取。
因此,本文拟利用时间地理学概念及其理论,对地理时空数据进行探讨和分析,可得出描述区域的规模、个人的行为和研究对象之间的关系;并将这些理论和方法应用到广东财经大学三水校区的自行车借还记录中,分析学生的分布、地点间的联系紧密程度、就餐偏好分析、课程安排及人际关系情况。
二、研究区及其数据来源
广东财经大学三水校区占地面积105 hm2,在校学生约有10 007人。宿舍楼有桃园、李园、杏园、桂园、紫园和竹园(如图1所示)。校区的学生饭堂都临近宿舍,其中第一学生饭堂(一饭)和第二学生饭堂(二饭)最临近李园,紫园次之,竹园最远。教学楼包括第一、第二教学楼和实验楼。
本文研究的样本数据来自广东财经大学三水校区信息学院青年协会举办的“爱在单行”活动,该活动分别在李园、竹园、实验楼、一饭和二饭设置了自行车服务点。本文选取了2013年3月18日和21日两天的自行车出借信息,分别提取学号、班级、自行车编号、借出时间和借出地点、归还时间和归还地点七项数据,最终得到1130条信息作为样本,将样本记录保存为Excel文件。
图1 三水校区平面图
三、数据分析
1.自行车统计分布特征
根据自行车借出和归还表(见表1)可以看出,总体而言各网点的自行车使用频率不均衡。其中实验楼的总借车次数、总归还次数明显高于其他网点的借车次数和归还次数;其次是宿舍楼竹园、学生第一饭堂、第二饭堂和宿舍楼李园。这主要因为实验楼是学生上课和课外活动(协会活动和舞蹈等)比较多的场所,是学生集中的地方。此外,实验楼离食堂和宿舍区较远,需要自行车这一代步工具。从表中还可推断竹园宿舍区的学生人数比李园多。通过查阅相关资料,竹园有4栋宿舍楼,每栋有6层,休息时段内每栋有816人。李园有3栋宿舍楼,每栋有6层,休息时段内李园每栋宿舍楼有720人。这一资料也直接证明了本文的样本数据能够很好地反映实际情况。
表1 自行车借还记录统计
2.网点间自行车流动情况
由于出行距离、个人的需求及环境的影响,各网点间自行车流动次数也不尽相同。从表2中可知,从紫园到实验楼的流动频率最高,其次是紫园借出并归还的流动情况;同时也可以发现宿舍区之间流动频率比较低,而宿舍区到实验楼和饭堂的频率远远高于宿舍间的频率。因此本文认为学生借还车的目的主要是上课和就餐。
表2 网点间自行车流动统计
3.就餐分析
笔者认为并非所有到饭堂的人都是去就餐,因此本文中对数据进行筛选。首先对样本中的数据按借出地点和归还地点进行排序,找出借出地点和归还地点一样的数据,以判断出行人的行为为就餐。根据实地调查结果,本文认为饭点时间分别是11∶20—12∶50和17∶00—19∶00。若借出时间和归还时间的时间期间不在饭点,则判断这些人不是外出就餐,有可能是去拿快递或到小卖部;否则判定他们的行为是就餐。经过筛选后,得到如表3的结果。从表3可知,在饭点时间,二饭的人数比一饭的人数稍多,可以推断二饭的规模比较大或饭菜更丰富、更符合学生的口味。通过实地调查,笔者发现第二饭堂有3层,其中一层为教师餐厅,而第一饭堂只有二层;相比第一饭堂,第二饭堂有较多的风味小炒,学生的可选性较大。此外,笔者还发现第二饭堂离一教、二教和众多宿舍区近,而第一饭堂只有一个门出入且地理位置较为偏僻。
表3 一饭和二饭自行车借出数据统计
4.上课分析
广东财经大学三水校区白天的上课时间为8∶30—10∶00、10∶15—11∶45、14∶00—15∶30和15∶45—17∶15。笔者选择去实验楼的人为研究对象,对借出时间和归还时间进行排序,得出借出时间和归还时间的间隔时长,再筛选和统计相关信息(见表4),最后分析每条数据的信息及借车人的行为。通过分析可以得出:①由于实验楼离宿舍较远,上课时迟到的人数还是占较大的比重;②从人数分配上可以看出实验楼的主要功能是服务于教学,而专门去实验楼办事的人较少(总共有15人);③在实验楼安排课程的时间上,实验楼上午上课的人数(包括迟到的共有43人)比下午(包括迟到的共有78人)的人数多。
表4 3月18日自行车流动时间分析
5.人际关系分析
在时间地理学中,个人和集体为了进行某项活动而必须同其他人同时存在于同一场所的制约被称为结合限制,如社交、聚会等活动。在本文样本中存在着相同或相近的借出时间和归还时间、借出地点和归还地点,借鉴结合限制的概念,笔者可以认为这些数据反映了出行人之间的关系。笔者对18日样本中的借出时间和归还时间、借出地点和归还地点进行排序,随机抽取78组借出地点和归还地点相同、借出时间和归还时间相近的数据。然后把这78组随机分为两组,每组各有39个样本。第1组为训练样本(见表5),此训练样本中包含借出和归还时间差、借出地点和归还地点及关系。第2组为测试样本,包含了借出和归还时间差、借出地点和归还地点。本文应用Clementine数据挖掘软件中的决策树C5算法,对训练样本数据进行挖掘得出规则,然后应用到测试样本中,检验规则的准确性。
把规则应用到测试样本中,可得到分类结果。把该分类结果和真实情况对比,结果见表6。
由表6可知,决策树挖掘的总精度达到36/39,约为92.3%,说明了本文中的训练样本具有较高的可信度,同时也说明了采用数据挖掘方法能够很好地从位置数据中挖掘出人际关系。通过分析数据还可以发现,在借出地点和归还地点相同的前提下,借出时间差和归还时间差相近(在5 min以内)或相同的两个出行人是存在着同学关系的。而借出时间差和归还时间差相差较大(5 min以上)的,两个出行人之间没有明显的关系。
表5 训练样本示例
表6 人际关系挖掘精度
四、结 论
结合行为地理学和时间地理学概念及其理论,对地理时空数据进行探讨和分析,可得出区域的规模、个人的行为和研究对象之间的关系。通过将这些理论和方法应用到广东财经大学三水校区的自行车借还记录中,笔者得到如下结论:①从借还地点的频率可以推断出该地点人员的分布相对多少;②从自行车借还记录进行分析,可以方便地得出任意两个地点之间的联系,本文得出宿舍区之间流动频率低,而宿舍区到实验楼和饭堂的频率高,主要原因是学生借还车的主要目的是上课和就餐;③通过在饭点时间的人员分析,得出去第二学生饭堂的人比第一饭堂的人多,主要是因为第二饭堂规模较大且离一教、二教和众多宿舍区近;④通过在上课期间的分析,得出广东财经大学三水校区实验楼下午的课程比上午多;⑤运用决策树算法可以挖掘出人际关系的规则,把规则应用到测试样本中能够得出较高的精度。
[1] 柴彦威.行为地理学研究的方法论问题[J].地域研究与开发,2005,24(2):1-5.
[2] 周素红,邓丽芳.基于T-GIS的广州市居民日常活动时空关系[J].地理学报,2010,65(12):1454-1463.
[3] 赵莹,柴彦威,陈洁,等.时空行为数据的GIS分析方法[J].地理与地理信息科学,2009,25(5):1-5.
[4] HAGERSTRAND T.What about People in Regional Science?[J].Paper of the Regional Science Association,1970,24(1):7-21.
[5] PRED A.Urbanization,Domestic Planning Problems and Swedish Geographical Research[J].Progress in Greography,1973,53(2):207-221.
[6] 柴彦威.时间地理学的起源、主要概念及其应用[J].地理科学,1998,18(1):65-72.
[7] 王家耀,魏海平,成毅,等.时空GIS的研究与进展[J].海洋测绘,2004,24(5):1-4.
[8] CHAPIN F S.Human Activity Patterns in the City:Things People Do in Time and in Space[M].[S.l.]:John Wiley&Sons,1974:1-30.
[9] SCHONFELDER S,AXHAUSEN K W.Activity Spaces:Measures of Social Exclusion[J].Transport Policy,2003,10(4):273-286.
[10] AHAS R,MARK U.Location Based Services:New Challenges for Planning and Public Administration[J].Futures,2005,37(6):547-561.
[11] STOPHER P,FITZGERALD C,XU M.Assessing the Accuracy of the Sydney Household Travel Survey with GPS[J].Transportation,2007,34(6):723-741.
[12] 申悦,柴彦威.基于GPS数据的北京市郊区巨型社区居民日常活动空间[J].地理学报,2013,68(4):503-516.
Analysis and Mining of Location Information Based on Bike Records of Lending and Returning
ZHANG Yihan,ZHONG Xinmei,LI Jiancheng
P208
B
0494-0911(2014)07-0113-04
2013-10-11
国家重点基础研究发展规划“973”资助项目(2011CB707103);国家自然科学基金(41301408);广东省自然科学基金(S2013040016071)
张亦汉(1985—),男,广东五华人,博士,讲师,研究方向为地理信息模型。
张亦汉,钟欣梅,李建程.利用自行车借还记录分析与挖掘空间位置信息[J].测绘通报,2014(7):113-116.
10.13474/j.cnki.11-2246.2014.0240