视频大数据在城市公共空间规划领域的应用前景探索

2017-07-07韩龙玫卿粼波

四川建筑 2017年3期

关键词：城市规划人群人类

韩龙玫, 卿粼波

(1.成都市规划研究设计院，四川成都 610041； 2.四川大学电子信息学院，四川成都 610065)

视频大数据在城市公共空间规划领域的应用前景探索

韩龙玫1, 卿粼波2

(1.成都市规划研究设计院，四川成都 610041； 2.四川大学电子信息学院，四川成都 610065)

在新型城镇化的背景下，城市规划正在从物质规划向以人为本的综合规划转变，需要在广度和精细度上更进一步获取和分析人类活动的数据；与此同时大数据正在推动围绕人类活动的城市定量研究产生重大变革。视频大数据的分析手段——智能视频分析技术是一项具有巨大发展前景的信息处理技术。基于视频大数据的人类理解技术已经取得了重大成果，是规划行业潜在的庞大而重要的数据来源。而目前城市规划领域的视频大数据研究工作尚属空白，文章试对视频大数据在城市规划领域的应用前景进行分析和探讨。文章认为视频大数据具有信息完整、维度丰富和粒度可调三大优点，在对城市公共空间中高度动态化的人类活动场景进行精细化描述方面具有不可替代的优势。在城市规划领域中的街道活力评估、公共空间活力评估、公共设施实施效果评价、空间品质评价、旅游空间规划等场景中引入视频大数据，结合多源数据可实现对规划目标的实时评估和快速优化，推动城市定量研究更进一步。

城市公共空间；城市定量研究；视频大数据；视频分析；人类理解

在新型城镇化的背景下，城市规划正从“广度城镇化”转向“深度城镇化”[1]，从单纯注重物质规划转向以人为本的综合规划，“人性(化)”、“人本”、“宜人”、“活力”、“宜居”等关键词已然成为学术界探讨的热点。在广度和精细度上广泛获取和分析人类活动的数据是实现以人为核心的综合规划的基本方法和重要手段[2]。

与此同时，大数据正在推动城市定量研究产生重大变革[3]。相对于城市中相对静止的物质要素而言，瞬息万变的人类活动难以被观测、度量和描述。对人类活动数据的获取，传统方法依靠“现场观察”和“问卷调查”，费时费力，数据采集存在瓶颈，样本分布的空间与时间尺度非常有限[4]，也是城市规划学科被诟病为软科学的软肋之一。随着大数据时代的到来，城市研究者利用采用人口普查数据[5]、手机信令数据[6-8]、LBS数据[8-10]、公交刷卡数据[11-12]、POI[5、8、12-14]等各种大数据，从多个维度描绘兼顾大尺度小粒度属性的人类移动和活动，在城市定量研究领域已经有了重大突破。

近年来，整个世界正以难以想象的速度产生大量的视频。以2013年为例，全球有超过1亿个监控摄像头，如果都按720p高清摄像头计算，每个摄像头每天产生1G的数据，那么全球每天将产生800PB+(1亿×1G)raw的视频。如今这个数字还在呈爆炸性增长。城市公共空间中人类的各种活动被这些摄像设备所记录，视频大数据是城市规划领域潜在的庞大而重要的数据来源。相较于已有研究中所采用的大数据，视频大数据更加直观准确，在对城市公共空间中高度动态化的人类活动场景进行精细化描述方面具有不可替代的优势。利用更多类型的大数据来描述和分析人类活动是大数据时代城市定量研究的必然趋势，而目前缺少视频大数据的相关研究工作。

本文首先介绍当前基于视频分析的人类理解(Human understanding)技术的最新研究前沿，进而阐述从视频大数据可以获得的人类活动数据类型，在此基础上对视频大数据在城市公共空间规划领域的应用前景做出分析和探讨。

1 基于视频大数据的人类理解技术概述

近年来随着计算机技术、移动互联网、人工智能技术、图像及视频处理技术的飞速发展，智能视频分析技术借助计算机的数据处理能力，依托计算机视觉技术的理论支撑，能够对海量视频数据进行高速分析处理，获取各种关键信息。该技术在公共安全、智能交通、远程医疗、智能家居、军事等领域已经得到广泛的应用并已发挥了巨大作用。

随着视频传感器技术、计算机处理技术及半导体存储技术的飞速发展，数字视频已进入高清时代并向4K或更高分辨率迈进，高清视频图像为智能视频分析提供更多的图像细节，为进一步提高智能视频分析算法的准确性和稳定性，并对视频图像进行更高层次的智能分析提供了更加有效的数据源[15]。随着云计算、大数据、存储技术和设备的飞速发展，高效处理高清视频大数据并深度挖掘其中包含的海量信息变得可行。

针对基于视频分析的人类理解，研究者们已经开展了大量工作并获得了有价值的成果，获取的数据信息可分为个体和群体两大类，下面按图1所示的框架展开介绍。

图1 基于视频分析的人类理解

1.1 基于视频分析的个体理解技术

对视频场景中的人类个体进行理解的主要目的是分析人类自身个体特性，是对场景中人类活动理解的基础，因此研究者已经开展了非常广泛的工作，目前主要包括如下几个方面：(1)个体年龄和性别识别。年龄和性别是人类个体的基本特征，Khryashchev V[16]等采用基于人脸LBP特征和SVM分类的方法实现了基于视频的人体性别和年龄的算法，性别识别率已经高达94%，年龄识别误差控制在7岁以内。Levi G等[17]通过将最新的深度学习引入到人体性别及年龄识别，在更大范围内获得了更高的性能，且更能发挥大数据分析技术的优势。(2)个体行为识别。个体行为则是人类个体影响社会的关键因素，目前相关研究主要在 UCF101[18]和 HMDB51[19]两大个体行为数据库上面开展，UCF101定义了101种人体行为(如化妆、剃须、拉小提琴、骑自行车、部队游行等)及13 320个真实视频片段，HMDB51[19]定义了51种行为(如行走、亲吻、笑、握手等)及6 766个真实视频片段，目前相关研究[20]已经获得了近87 %的准确性。(3)个体表情识别。表情是人类个体情绪的外在表现，目前相关研究[21]主要在CK+数据库(生气、忧伤、害怕等7种表情，327个视频)及JAFFE数据库(主要针对东方人的6种表情，213

个视频)开展，部分研究成果的准确性已经高达97 %(CK+)和89 %(JAFFE)等。

1.2 基于视频的群体行为理解技术

对视频场景中的人类群体理解可以在更高层面理解人类活动，近年来获得大量研究者的关注，其中典型的研究包括如下几个方面：(1)人流量统计。人流量是反应公共空间人群活动的基本数据，统计人群流量特别是高密度人群流量(如广场、商场等)是相关研究领域的重点，Khan S等[22]已经获得了高达90 %的准确率。(2)群体行为识别。群体行为是体现视频场景中人群理解的更高层次，相关研究成果可以对人群的聚集程度[23]、异常程度[24]、群体行为[25](如游行、宴会、参观、音乐会、广场活动等)等进行理解识别，已应用于智能监控、人群管理、公共场所设计等领域。(3)群体情绪识别。群体情绪是反应群体活动特性的又一关键因素，Yanhao Zhang等[26]的最新研究表明群体运动模式中的空间相互作用和结构层次能有效地对群体行为中的社交情绪进行评估，其准确性高达87.5 %。

2 视频大数据在城市公共空间规划领域的应用探索

针对城市公共空间的评估、优化和改造，人的活动由于瞬时变化大、活动类型多样化等原因一直存在较大的数据获取瓶颈，时间的滞后和调研数据的片面导致规划的严谨性和评价的客观性都备受质疑。新数据环境下采用大数据方法可以对目标公共空间中人使用情况的长期观测和记录，进而实现对规划目标的实时评估和快速优化，有效改善城市公共空间的品质。

2.1 围绕度量人群活动的数据方法比较

度量人群活动的定量研究方法见表1。

表1 围绕度量人群活动的城市定量研究数据方法

目前围绕度量人群活动的城市公共空间定量研究的数据获取和分析方法可分为传统方法和大数据方法两类，如表1所示。传统方法[27-29]一般为“现场调研加问卷调查”，直观、维度丰富，在特定空间和时间内对人类活动的描述比较精准，但费时费力无法大面积开展。大数据方法主要采用了手机信令、IC卡、LBS、POI、社交网络数据等大数据，已有研究主要集中在用城市人口分布情况解读宏观尺度的城市结构、功能分布、街道活力等，与传统方法相比在空间和时间尺度上均大大拓展，与此同时研究者也意识到自身存在缺陷[6、10、30]。笔者认为已有大数据研究存在以下缺陷：(1)数据有偏。目前在城市公共空间研究中的大数据几乎集体滤掉了儿童和老年人这两类公共空间的频繁使用者，显然存在问题。(2)粒度不够。手机信令只能对一定范围内的人口分布进行估算，且不能区分建筑内和建筑外的人群，不能区分驻足人群和路过人群，数据反映的信息与真实情况存在一定差异，故适用于宏观和中观层面的分析，在微观层面显得乏力。(3)分析方法有偏。仅用人口密度分布单一指标推导城市公共空间活力情况，有失偏颇。(4)信息缺失。基本只能反映“某时段某人从A地到B地”、“某人某时刻在某地”这两种信息，即“移动”和“到达”，缺失详细的个体差异化活动信息。(5)定义粗略。通常根据行为发生地点类别定义人群行为类型，商业区=休闲购物，公园=游憩，无法在微观层面进一步解构人类行为。

2.2 视频大数据的实质、方法和优点

视频大数据的实质是采用直接观察法，所见即所得，但用“机器眼+机器脑”代替“人眼+人脑”处理海量数据。其基本方法为利用城市公共空间重要节点的监控摄像头和超低卫星摄像头，对目标区域的人群进行持续的观测。通过云智能视频处理技术对原始视频进行运动检测、人体追踪、人脸识别、姿态估计等人类理解技术处理，获得群体行为数据和个体行为数据。在中微观层面与其它大数据相比，视频大数据在数据维度、粒度和完整性方面大大提升，在城市公共空间中高度动态化的人群活动场景进行精细化描述方面具有不可替代的优势，特别适合微观尺度的精细化规划，可在一定程度上弥补现有大数据研究的某些缺陷。

其优点在于：(1)信息完整。实现对目标区域人群的全记录，避免数据有偏。(2)维度丰富。既可以获得人流量、人群移动速度等群体行为数据，也获得路过人数、停留人数、年龄构成、活动类型、活动停留时间和活动停留地点、公共空间进出人数、行人移动速度、表情等精细化的个体行为数据。(3)粒度可调。以街道活力为例，是获取整个城市所有街道一周的人流变化趋势还是获取某几条街道某个时段行人的详细活动情况，可根据研究需要确定。

2.3 视频大数据的应用场景及研究范畴

视频大数据结合其它多源数据对目标公共空间的人群进行长期观测和记录，进而实现对规划目标的实时评估和快速优化，具有广阔的研究和应用前景。可应用于街道活力评估、公共空间活力评估、设施实施效果评价、空间品质评价等场景，对城市总体规划用地布局、商业设施布局、公共服务设施布局、交通站点布局提供数据支撑，特别适合在中微观尺度的公共空间规划(街道、广场、公园、绿地、社区等)、公共服务设施规划(体育设施、文化设施等)、商业设施规划、旅游空间规划等范畴进行辅助方案生成、场景模拟比较、实施效果评价等。下面以三种应用场景为例详细说明(图2)。

图2 视频大数据在城市规划的三类应用场景

(1)街道活力评估。可按研究尺度分为两类：如果为大尺度的研究，如整个城市所有街道活力评估，则采集人流量、人群移动速度等群体行为数据；如果为小尺度的研究，如某城市几条商业街的街道活力对比、全国几个大城市商业街街道活力对比、某居住区范围内所有街道的活力评估等，则采集路过人数、停留人数、年龄、性别、停留活动类型、活动持续时间和心情等个体行为数据，可参照姜蕾[27]的研究构建多层级的街道活力指数量化方程式，亦可同时开展横向对比和纵向对比，实现长时间尺度上街道活力的研究和探讨。

(2)开敞空间(广场、公园等)活力评估。利用地面和空中摄像头获取人群行为轨迹、年龄、性别、行为类型、行为持续时间、心情等数据，按设施分布将开敞空间划分为N个片区，分析和评估各个设施的使用情况。比如哪些设施更受欢迎，哪些设施长期闲置，目标人群有没有享受到设施提供的服务，设施是否被某一类活动长时间侵占导致不公等。

(3)公共设施(体育设施、文化设施、社区中心等)实施效果评价。利用出入口的摄像头，获取进出人数，区分年龄构成、(非)工作日、高峰时段，从视频中识别出个人特征，还可以得出每一类人群的使用时长。可评估公共设施在工作日和非工作日的使用情况，是否存在长时间的闲置，高峰期是否存在较长的排队等候，不同年龄段的人使用场馆所占的比例等。

研究范畴可着眼但不限于以下几个方面： (1)数据挖掘方法。比如视频检索、视频分析技术、编码解码技术等，可将量化方程式做成模块嵌入云智能处理设备进行实时处理以提高效率。(2)多元数据整合。考虑树木、构筑物的遮挡问题，视频大数据可与GPS、手机信令等其它大数据相校核；整合气象、空气质量等跨域数据探讨在不同场景下的数据变化趋势及原因等。(3)分析模型。探讨和建立适合微观尺度人群行为模式的分析模型。(4)可视化。视频大数据丰富的信息维度使其可视化工作具有很大的探索空间。(5)信息安全。如何利用信息开展研究又不暴露个人隐私，比如可对海量原始视频进行严格管控，云设备通过技术手段处理、计算和储存不带有精准个人信息的数据，用户利用终端设备与其进行交互，严格保护个人隐私。

3 结束语

视频大数据具有信息完整、维度丰富和粒度可调三大优点，在城市公共空间中高度动态化的人群活动场景进行精细化描述方面具有不可替代的优势。在大数据支撑的城市定量研究中，视频大数据既能在宏观和中观层面做出补充，又能在微观层面填补空白。视频大数据在城市规划中的具体应用有待进一步的挖掘和思考，具有相当的研究前景。作为跨学科合作的典范，需进一步研究数据挖掘方法、数据处理方法、分析模型和可视化方式，助力城市定量研究。

[1] 仇保兴. 深度城镇化——“十三五”期间增强我国经济活力和可持续发展能力的重要策略[J]. 城市发展研究, 2016, 22(1):45-46.

[2] 龙瀛, 沈尧. 数据增强设计——新数据环境下的规划设计回应与改变[J]. 上海城市规划, 2015(2):81-87.

[3] 龙瀛, 吴康, 王江浩,等. 大模型:城市和区域研究的新范式[J]. 城市规划学刊, 2014(6).

[4] 秦萧，甄峰，熊丽芳，等.大数据时代城市时空间行为研究方法[J].地理科学进展, 2013, 32(9):1352-1361.

[5] 龙瀛. 中国人口密度的时空演变与城镇化空间格局初探:2000-2010[C]// 2014中国城市规划年会， 2014.

[6] 龙瀛，周垠.街道活力的量化评价及影响因素分析——以成都为例[J].新建筑, 2016(1).

[7] 方家, 王德, 谢栋灿,等. 上海顾村公园樱花节大客流特征及预警研究——基于手机信令数据的探索[J]. 城市规划, 2016, 40(6):43-51.

[8] 茅明睿, 储妍, 张鹏英,等. 人迹地图:数据增强设计的支持平台[J]. 上海城市规划, 2016(3).

[9] 冉斌, 邱志军, 裘炜毅,等. 大数据环境下手机定位数据在城市规划中实践[C]// 2013中国城市规划年会, 2013.

[10] 郝新华, 龙瀛, 石淼,等. 北京街道活力:测度、影响因素与规划设计启示[J]. 上海城市规划, 2016(3):37-45.

[11] 龙瀛, 张宇, 崔承印. 利用公交卡刷卡数据分析北京职住关系和通勤交通形态[J]．地理学报，2012, 67(10): 1339-1352.

[12] Long Y, Han H, Tu Y, et al. Evaluating the effectiveness of urban growth boundaries using human mobility and activity records[J]. Cities, 2015, 46:76-84.

[13] 李苗裔, 龙瀛. 中国主要城市公交站点服务范围及其空间特征评价[J]. 城市规划学刊, 2015(6).

[14] 秦萧, 甄峰, 朱寿佳,等. 基于网络口碑度的南京城区餐饮业空间分布格局研究——以大众点评网为例[J]. 地理科学, 2014(7):810-817.

[15] 周立. 智能视频分析技术的发展现状与趋势分析[J].智能建筑与城市信息, 2010(9):79-81.

[16] Khryashchev V, Priorov A, Ganin A. Gender and age recognition for video analytics solution[C]// Applied Imagery Pattern Recognition Workshop. IEEE, 2014:1-6.

[17] Levi G, Hassncer T. Age and gender classification using convolutional neural networks[C]. Computer Vision and Pattern Recognition, 2015.

[18] Soomro K, Zamir A R, Shah M. UCF101: A Dataset of 101 Human Actions Classes From Videos in The Wild[J]. Computer Science, 2012.

[19] Kuehne H, Jhuang H, Garrote E, et al. HMDB: A Large Video Database for Human Motion Recognition[C]// International Conference on Computer Vision. IEEE, 2011:2556-2563.

[20] Shi F, Laganiere R, Petriu E. Gradient Boundary Histograms for Action Recognition[C]// Applications of Computer Vision. IEEE, 2015:1107 - 1114.

[21] Liu P, Tsang I W, Meng Z, et al. Feature Disentangling Machine - A Novel Approach of Feature Selection and Disentangling in Facial Expression Analysis[C]. European Conference on Computer Vision, 2014.

[22] Khan S D, Vizzari G, Bandini S, et al. Detecting Dominant Motion Flows and People Counting in High Density Crowds[J]. Journal of WSCG, 2014, 22(1): 21-30.

[23] Zhou B, Tang X, Wang X. Measuring Crowd Collectiveness[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2013:1586-99.

[24] Shao J, Chen C L, Wang X. Learning Scene-Independent Group Descriptors for Crowd Understanding[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2016.

[25] Zhao F, Huang Y, Wang L, et al. Learning Relevance Restricted Boltzmann Machine for Unstructured Group Activity and Event Understanding[J]. International Journal of Computer Vision, 2016:1-17.

[26] Zhang Y, Qin L, Ji R, et al. Exploring Coherent Motion Patterns via Structured Trajectory Learning for Crowd Mood Modeling[J]. 2016.

[27] 姜蕾. 城市街道活力的定量评估与塑造策略[D]. 大连理工大学, 2013.

[28] 徐磊青, 康琦. 商业街的空间与界面特征对步行者停留活动的影响——以上海市南京西路为例[J]. 城市规划学刊, 2014(3).

[29] 王侠, 马远航, 杨萌. 基于游客时空行为的丽江甘海子旅游服务中心改造规划[J]. 规划师, 2014(9):47-52.

[30] 杨振山, 龙瀛, Nicolas DOUAY. 大数据对人文—经济地理学研究的促进与局限[J]. 地理科学进展, 2015, 34(4):410-417.

韩龙玫(1984～)，女，硕士，高级工程师，从事城市规划设计工作；卿粼波(1982～)，男，博士，副教授，从事图像处理、模式识别、视频分析等领域的研究工作

TU984.11+3

[定稿日期]2017-01-08