基于图片大数据的入境游客感知和行为演变研究

2020-09-26张坤李春林张津沂

旅游学刊 2020年8期

张坤李春林张津沂

[摘要]根据凝视理论，图片在一定程度上反映了游客在旅游目的地的感知偏好和行为特征。然而，对图片大数据进行视觉内容分析的旅游研究，由于技术限制仍处于广泛探索阶段。文章以北京入境游客为研究对象，引入计算机视觉领域的场景识别模型，对2004—2013年游客在社交媒体网站Flickr上分享的36 595张照片进行视觉内容识别与分类，并按照旅游基本活动“食、住、行、游、购、娱”的框架将机器识别出的103类场景进行筛选，最终将游客照片划分为10种主类别28种子类别。基于数据结果，文章对北京入境游客的整体感知特征及行为足迹的时空演变进行了分析。在实践方面，研究结果为旅游目的地管理部门制定针对性的空间发展和市场政策提供了依据。在理论方法方面，研究拓展了计算机视觉技术和图片大数据在旅游领域的应用范畴。

[关键词]图片大数据;深度学习;游客感知;游客行为;时空演变

[中图分类号]F59

[文献标识码]A

[文章编号]1002-5006（2020）08-0061-10

Doi： 10.19765/j.cnki.1002-5006.2020.08.012

引言

理解游客在旅游目的地的感知和行為是有效促进旅游目的地发展的重要前提[1]，也是旅游目的地研究的重要议题。对于游客而言，照片起着记录和回忆其旅行经历的作用[2]，其以微妙又明显的方式传递了游客对目的地的感知，同时也是反映游客在旅游目的地行为的重要依据[3-4]。随着社交媒体平台的不断发展，将游客分享照片的视觉表征作为研究资料进行内容归纳和频次分析，已经成为探索游客感知和行为的重要研究方法[5-7]。另外，从数据特征来说，图片作为用户生成内容的重要部分，不仅包含有丰富的可视化内容，同时还携带大量的时空信息[8]，是开展旅游研究的一项重要数据来源[4， 9]。受视觉内容分析技术的局限，目前关于游客感知和行为的图片研究，多是通过人工逐个识别实现，一次性能够分析的图片数量往往比较有限[10]。近些年，随着计算机技术领域的不断突破，计算机视觉与图片处理技术使得对大体量的图片内容进行识别变得可行。类似的研究在旅游目的地领域已有少量探索，但从目前的研究深度上看，仍是需要不断探索的一个方向。

本研究以北京为例，通过应用计算机视觉领域的深度学习模型，对Flickr网站中提取的图片大数据进行视觉内容分析，试图拓展图片大数据分析技术在旅游领域的应用范畴。具体研究目标包括两个方面：第一方面是探索入境游客对北京旅游目的地的感知特征及其演变过程;第二方面为结合图片的地理坐标信息，解读游客在旅游目的地的行为特征及时空演变过程。

1 研究综述

1.1 图片与旅游目的地研究

1992年，英国社会学家John Urry提出“游客凝视”（tourist gaze）理论[11]，游客凝视重点关注的是游客对目的地的视觉感知[8]。其提出的“表征圈循环”（hermeneutic circle of representation）理论认为，照片能够反映旅游目的地形象，旅游者拍摄的照片与旅游目的地形象密不可分，它们共同构成一个自我强化的“表征”[12-14]。由于旅游图片携带丰富的视觉表征信息与非视觉信息[15]，且其反映游客对旅游目的地形象的感知[16]，对旅游目的地形象构建有重要的作用[17]，游客分享在网络上的图片成为旅游目的地研究的重要视点[10， 18]。目前，借助旅游图片数据开展的旅游目的地研究主要集中于两个方向：一是通过解读图片的视觉内容分析游客在旅游目的地的感知，服务于旅游目的地形象优化与改善;二是分析游客的行为模式，即利用图片的地理信息分析游客在旅游目的地活动的时空及演变特征，应用于旅游目的地空间发展。

1.1.1 图片与游客感知

Stepchenkova和Zhan指出游客摄影照片是分析旅游者对旅游地感知的一个良好途径[10];Pan等认为照片记录了当时的现实并反映了拍照者的内心活动，旅游照片成为一种可以研究和识别游客对目的地感知的透镜[19]。研究过程方面，戴光全和陈欣按照拍摄对象将游客摄影照片分为人物类、景观类、场景类和特写类，以获取游客在旅游目的地的行为与感知偏好[20]。Donaire等按照空间类型将照片拍摄题材分为自然景观、人工景观、物质文化和旅游设施4类，对游客感知偏好进行了研究[3]。Nikjoo等在研究了赴伊朗旅游的游客在社交媒体上分享的照片，将旅游图片分为没有人、只有旅游者、只有东道主，以及旅游者和东道主，分析了游客在主客互动方面的感知偏好[21]。

整体而言，目前这一类型的研究主要通过内容分析法、符号分析法等方法，提取旅游照片的视觉内容，并按照一定的分类方法进行特征研究，其中，分类方法是这类研究的关键。具体研究过程为，首先通过分类识别出照片的主题和目的地属性，其次对其频率、共现、聚类以及照片传达出的视觉信息和潜在内容进行分析，进而获取游客对目的地的感知偏好和行为特征。

1.1.2 图片与游客行为

基于图片的游客行为研究，主要集中于游客核心活动区域（area of interesting，AOI）及时空演变两个方面[22-25]。Hu等利用从Flickr网站中获取的关于纽约、巴黎、伦敦等6个城市从2004—2014年的数据，借助图片附带的地理坐标、文字标签、主题等文字信息，对游客核心活动区域及演变进行了系统分析[26]。Vu等利用马尔科夫链对游客在旅游目的地核心区域之间的空间移动模式进行了识别[27]。Zhou等基于计算机云平台，将Flickr中的地理标记图片信息与区域信息一一对应，并且对标签进行信息分类和研究，建立主题旅游目的地热点区域识别系统，分析热门旅游地旅游者的偏好变化，包括热门景点的迁移变化和照片喜好变化，为宏观管理提供决策依据[28]。Bilhante等通过Wekipedia和Flickr采集游客热门活动地点（places of interesting，POI）和地理信息图片，以此作为数据基础分析游客偏好，通过建立日程和旅游路线轨迹算法，构建基于游客日程的旅游线路推荐模型，并在3个城市的实验中取得较为成功的效果[29]。Stepchenkova和Zhan采集秘鲁的Flickr地理信息图片，对图片进行分类，并且通过分析图片构成区别和地理位置分布，研究旅游者对秘鲁的感知和评价[10]。

总结发现，基于地理坐标图片数据的研究涵盖了旅游目的地形象构成要素、旅游目的地空间结构模式和旅游目的地演化过程及规律几方面[24， 30]。借助地理信息系统工具进行分析是主要做法，包括两类分析维度，第一是以地理指数（Moran、LISA等）为指标，对空间进行“聚集、分散”分析以探索旅游目的地热门区域[3， 27];第二是借助时空追踪工具对游客的旅游线路和行为轨迹进行总结和比较[29]。

1.2 基于计算机视觉技术的旅游图片大数据研究

计算机视觉技术是模拟人类视觉的一项重要工具，主要通过对收集到的图片进行分析理解从而输出图片相关信息[31]。与人工识别相比，计算机视觉技术能够凭借机器语言的优势实现对大体量图片数据的内容分析。基于这项技术，一系列基于图片内容识别的研究已经被成功探索，并被广泛应用到医学、安防、无人驾驶、地理学和城市空间分析规划等领域。

在旅游领域，借助计算机视觉领域的深度学习模型进行视觉表征层面的旅游研究，处于起步阶段，仍有很大的空间需要探索[32-34]。如，Zhang等利用计算机深度学习技术，对来自Flickr的照片进行识别和统计分析，比较了不同国家游客的行为和感知差异[32]。邓宁等选取Flickr上中国港澳台地区、英国和美国旅游者拍摄的北京图片中的附带文本信息作为研究素材，采用计算机深度学习算法从认知和情感两个层面分析图片表征内容，比较了不同来源地游客在北京旅游目的地形象感知方面的异同[35]。

综合来说，图片承载着丰富的游客活动信息，对研究游客对旅游目的地的感知偏好和时空演变有重要意义[23]。随着计算机视觉技术的不断发展，借助机器学习的优势对照片进行内容分析成为当前旅游研究的热点，但如何有效结合不同议题开展研究还存在一定的探索空间。

2 研究过程、数据与方法

2.1 研究步骤

本研究将“游客感知”及“游客行为”作为关注点，通过图片大数据的“视觉、时间、空间”3个方面数据信息，揭示“游客在旅游目的地的感知特征以及演变规律”和“游客行为的空间特征及其演变规律”，为旅游目的地发展提供借鉴。其中，图片视觉内容和时间信息，用于支持游客在旅游目的地感知特征以及演变规律的分析;图片时间、空間信息用于支持游客行为特征及演变规律分析。具体的数据处理与分析过程分为4个步骤：（1）数据获取与净化，（2）图片大数据视觉内容分析，（3）基于视觉内容分析结果的分类，（4）时空演变分析。

2.2 数据获取与净化

本研究使用的数据来自YFCC100M（Yahoo Flickr Creative Commons 100 Million）数据集。YFCC100M是雅虎公司在2014年发布的公开图片数据集，收录了从2004年到2014年用户上传到Flickr网站中的接近1亿张照片附属信息。其中，包括Flickr用户ID（Uid）、照片拍照时间以及上传时间、拍摄地点、图片的标签、主题、描述以及图片下载链接等内容[36]。本研究主要选取了4种类型的信息用于开展下一步的系统分析工作，包括：（1）Pid与Uid，用于识别照片数量以及用户归属地信息;（2）拍摄时间，主要用于从时间角度分析游客感知和行为趋势变化;（3）照片的经纬度位置，主要用于对游客足迹点的空间分布进行分析;（4）下载链接，主要用于获取原照片对照片进行视觉内容的分析。

数据获取和筛选的过程包括：首先，依据图片的地理坐标信息提取出Flickr YFCC 100M数据库中位于北京行政边界内的照片信息，共144 968条。其次，通过调用应用程序接口（application programming interface，API）数据，对用户的归属地信息进行追溯，共获取到36 595条入境游客图片信息。另外需要说明的是，由于YFCC100M数据库中2014年的照片数据只到3月份，故本研究将时间跨度设定在2004—2013年，共计10年。

2.3 图片大数据视觉内容分析

在计算机视觉领域，深度学习在近年来迅速发展并取得了一定的成果，在图片识别与分类领域产生了许多深度学习模型，本研究所应用的为场景识别模型，该模型采用了He等在2015年提出的残差神经网络（ResNet）[37]（图1）。与其他架构相比，该深度学习架构具有强大的表征能力，具有高召回率与高精度，召回率达到90%，错误识别率为0.1%。

通过执行场景识别深度学习模型，北京入境游客的每张旅游图片将获得一个场景特征的标签，输出的结果共包括103类场景类别。

2.4 基于视觉内容分析结果的分类

图像内容的分类标准对旅游研究起着导向性的作用。因此根据旅游场景内容之间的关联程度将输出的103类场景归纳为6个大类，10个二级子类（表1）。6个大类为食、住、行、游、购、娱，10个子类包括美食感知、居住感知、交通感知、建筑感知、动物感知、文化感知、植物感知、自然风光感知、购物感知以及娱乐感知。为了突出场景的代表性，同时减少数据偏差（模型错误识别率为0.1%），研究选取了照片数大于100的场景进行研究，共计30类场景。另外，在照片数大于100的场景中，蓝天以及阴天多数情况是由于作为面积较大的背景而被识别。为了减少计算机视觉模型对实际主题的识别偏差，本研究将蓝天和阴天两个场景删除。按照代表性和相关性两个原则综合对103类场景进行筛选分析，共选出了28类与旅游相关的场景，共计25 281条照片数据开展后续的研究。

2.5 时空演变分析

本研究用于空间分析的方法主要包括全局莫兰指数、渔网分割、密度分析和点的时序追踪。全局莫兰指数（Morans I）是衡量空间自相关程度比较常用的指数类型，利用莫兰指数，能够反映空间中所有数据的相关性，从而展示空间的整体聚散程度。Morans I >0表示空间正相关性，其值越大，空间相关性越明显。Morans I<0表示空间负相关性，其值越小，空间差异越大，Morans I=0，空间呈随机性，用于反映旅游目的地景点片区游客的聚散情况。点的时序追踪可以根据游客拍摄图片的时间追踪游客的行为足迹。将渔网分割（fishnet）和密度分析结合可以将游客在研究区域的足迹热点有效可视化[38-39]。

3 数据结果

3.1 北京入境游客感知特征及演变规律

3.1.1 北京入境游客感知特征

根据场景的分类方法，对北京的入境游客感知偏好进行整体分析。和“游”相关的活动占据了旅游图片的90%，另外美食与出行分别占到5%与3%，娱乐、购物以及居住则比较少，这反映出游客在拍摄旅游图片时更多倾向于拍摄观光游览相关的场景（图2）。对占主要地位的“游”子类进行统计分析，“游”相关的各种感知场景中，建筑感知的数量最多，占到总数的63%，为核心感知类型;自然风光感知、植物感知以及文化感知的差异不大，动物感知的照片数量较少。

对5类不同的“游”感知子类进行分析得出，建筑感知中的中式古建筑数量最多，占据了建筑感知的90%，说明对于入境游客而言，北京古建筑（如故宫、天坛、颐和园等）是最主要的吸引物，这也符合北京旅游吸引物的主要特征。但以舞台和文字为代表的非物质文化类感知相对较弱，说明北京在京剧等舞台表演方面的文化旅游市场仍具一定发展潜力。对于自然风光感知而言，夜景与山峰分别占到图片数的38%与35%，说明从入境游客感知角度，夜景与山峰是北京比较典型的风光类吸引物;对于文化感知而言，舞台与文字照片数量差别不大，分别占图片总数的58%与42%;对于植物感知而言，绿植场景有关的图片数量最多，占到图片数的80%。对于动物类感知而言，图片全部为和熊猫有关的场景图片，这说明从入境游客感知角度，熊猫作为中国旅游形象的代表，形成了较高的吸引力。

3.1.2 北京入境游客感知的演变规律

根据图片附带的时间信息以及深度学习模型识别的输出结果，得出游客10年间对北京旅游目的地感知偏好的演变过程。图3展示了10年间入境游客感知类别的年际变化，其中，图3（a）展示的是10年间各种感知类型照片总数的年际变化，图3（b）展示的是10年间各种感知类型占比的年际变化。

具体得出以下结论：（1）2004—2005年所有感知类型的照片数量均不多，2005年之后照片数量明显增多，部分原因是Flickr平台建立之初用户使用尚不普通;（2）在游览观光活动的各种感知类型中，建筑感知始终是游览观光活动的主体;（3）建筑感知的年际变化大，动物感知的年际变化小;（4）2011年之后建筑感知照片比例减少，其他感知照片比例增加，说明旅游目的地的市场吸引物趋于多元化。

3.2 北京入境游客行為的点-线-网演变规律

本小节数据结果通过三部分的内容呈现，分别为北京入境游客足迹热点区域演变过程，北京入境游客行为的线路演变和入境游客行为的空间网络结构演变。3部分的内容以“点-线-网”的层次逐步递进。

3.2.1 北京入境游客足迹热点区域演变过程

利用ArcGIS软件的创建渔网功能将北京行政范围划分成5 km×5 km大小的网格，统计每个网格中所分布的游客足迹点及有足迹点分布的网格数量，并将图层导入Geoda中进行全局莫兰指数分析，数据结果显示莫兰指数逐年增加（表2），说明同一景点片区游客聚集程度不断增加，即旅游目的地景区吸引力不断增强。另外，游客足迹点所涉空间范围数据显示，游客游览范围在2008—2009年最大，覆盖到北京总面积的30.16%，可见奥运会对当年的旅游拉动效果明显。同时，游客足迹覆盖范围图（图4）显示，2006—2007年，北京市旅游目的地的活跃范围在各个方向均显著扩大，北京北部山区因自然文化资源基础较好，优先和中心城区产生连接，北京南部地区旅游资源相对较为薄弱，以从中心城区向外逐渐延伸为主，且发展方向不稳定。

3.2.2 北京入境游客行为的线路演变规律

根据时间属性对游客游览点进行追踪，获取游客旅游线路数据。数据显示：（1）北京六环以内旅游线路数量由疏变密，同时高聚集范围由中心区域向外围扩散;（2）六环以外远郊地区，旅游线路在不同时间段向不同方向进行扩散。

具体来看（图5），六环以内2004—2005年城市区域高聚集度线路除在二环以内分布外，西北颐和园、圆明园等是最主要的线路方向，说明这一阶段入境市场的吸引物主要为传统型世界文化遗产景区景点。之后，伴随北部奥林匹克公园及东北部798创意艺术片区等的生长成熟，旅游线路高密度区向北部和东北部扩散，最终形成了以中心城区为原点向西北、北、东北3个方向等距扩散的路线结构，同时内部的线路更为紧密和多元。

六环以外远郊地区，以长城为主要吸引物的旅游线路始终是主要扩散方向，且线路聚集程度不断增加，其中，以北偏西的八达岭、居庸关长城，北偏东的慕田峪长城线路最为聚集。2008—2009年远郊高聚集度路线扩散方向最为密集，除以长城为特色的传统成熟路线外，西南爨底下村和灵山景区相结合的旅游线路发展明显，这一阶段历史村镇成为入境旅游新的吸引物。2010—2011年和2012—2013年，远郊高聚集度路线的扩散方向有所减少，高聚集线路向传统景区八达岭、十三陵路线回归，远郊次聚集度线路以北京周口店猿人遗址、卢沟桥片区、爨底下村片区、古北水镇司马台长城片区为代表。值得注意的是，西南部灵山片区旅游线路呈孤岛型，说明灵山片区因距城区较远多为单点式旅游。

3.2.3 北京入境游客行为的空间网络结构演变

对照“点-线-网-面”的空间构成，抽象化绘制北京旅游目的地层级结构时空演变图（图6）。其中，点元素为参照游客聚集点抽离出的不同聚集级别的景区;线元素为参照游客足迹路径分布抽离出的不同聚集级别的旅游线路;网为由点、线元素交织的网络系统;面为点、线、网共同组成的3类面状区域（核心区、次核心区、边缘区）。

具体来看，2004—2005年，北京旅游市场规模相对较小，主要聚集在核心区域，次核心区及边缘区域景点片区级别相对较低，游客的空间流动主要在中心城区的有限节点，周边景点的吸引力不足，空间流向不均衡。2006—2007年，较高聚集的景点片区增多，旅游市场不仅集中在中心城区，次核心区的顺义、昌平发展轴线迅速增多。2008—2009年，北京奥运会的举办整体显著提升了旅游目的地的吸引力，旅游目的地的空间结构快速生长，形成了从核心区到次核心区，再到边缘区的逐级放射式扩展态势。这一阶段边缘区景点片区吸引力在核心区的协同带动作用下也有所增强，从整体上来看，开始形成较为均衡的目的地层级。2010—2011年，旅游目的地整体层级结构有所回缩，可以看出大型体育赛事对旅游目的地的影响时效性较短，核心区和次核心区重新成为接待游客的主要片区。2012—2013年，旅游目的地层级结构呈现回缩后的再度理性发展，形成了从中心到边缘扩散趋势稳定，扩散方向较为均衡，全方位、多层次、有重点的旅游目的地层级结构。

總体上看，北京市旅游目的地层级结构的时空演变由一个关联度较低、孤立发展的稀疏网络，首先发展成为彼此联系但相对不平衡的网络体系，再逐步向相互关联、层级间均衡化的网络模式演化，这也总结并印证了城市型旅游目的地的空间发展基本规律。

4 结论与建议

4.1 旅游目的地发展与市场建设

结合北京入境游客的感知和行为空间演变规律，本文有以下几个方面可以为旅游目的地发展和市场建设提供借鉴：

第一，在保持传统古建的历史文化吸引力的前提下，丰富北京旅游吸引物的多元性。利用游客对于京剧、夜景场景的感知偏好，加强京剧、夜景产品相关的旅游公共服务体系建设;利用熊猫对入境游客的吸引力，开发更多熊猫相关主题产品。

第二，文化艺术创意区、国际大型活动赛场、自然和人文结合的特色村镇，是北京旅游发展近几年更新生长以保持旅游吸引力的代表，同时也表明了近年来旅游市场需求的新变化。未来城市型旅游目的地应密切关注游客旅游消费新动向，适时推出新型多元的旅游景区景点。

第三，经典线路的打造对旅游目的地空间发展尤为重要，以北京为例，长城、十三陵作为经典旅游线路在10年间一直保持着较高的吸引力，并逐步带动了北京北部郊区旅游的整体发展。在景区从无到有、从有到优的生长过程中，应及时识别、并合理结合周边已成熟景区的经验，宣传打造独具特色的旅游线路，实现片区旅游吸引力的捆绑提升，促进新开发景区的逐渐成熟。

4.2 图片和计算机视觉技术在旅游目的地研究中的优势和不足

图片大数据和计算机视觉技术是本研究的创新点。社交媒体图片大数据的优点包括，用户信息和时空信息的可捕捉性、视觉识别内容的丰富性，以及不同类别信息交互的可能性。如，游客感知和行为可以与人口统计、地理信息充分结合，和以往基于文本大数据的旅游目的地感知研究相比，可以更为精准地实现不同感知主题的时空可视化分析。计算机视觉技术方面，对于图片量较大的数据，计算机视觉技术可以在较短的时间内完成工作任务。相对传统的人工识别，节约了较多的人力成本。对于本研究具体使用的场景识别深度学习模型，其为揭示旅游目的地游客的感知和行为提供了丰富的证据和信息。作为初步的尝试，本研究为跨学科技术“计算机视觉”在旅游研究中的广泛应用打开了一扇门。

首先，图片大数据和计算机视觉技术的不足也较为明显。数据方面，本研究以Flickr网站上共享的照片作为数据源，由于Flickr在世界各国的普及程度各不相同，这一定程度影响了研究的结果。其次，对于计算机视觉技术，本研究选择采用的场景识别模型输出的103类场景是确定的，尽管对输出的场景偏差进行了筛选修正，但不能完全忽视场景类别的有限性对游客感知偏好诠释能力的影响，尤其是关于文化属性的感知偏好。和以往基于文本大数据的旅游目的地形象研究文献相比，本研究中机器学习模型仅识别出舞台和文字两类和文化相关的图片，虽然数据结果更为具体和精确，但文本大数据可析出的和文化相关的类别更为深入和广泛。

尽管图片大数据和计算机视觉存在一定的局限，但不可否认的是，多来源的图文大数据融合、社交媒体大数据和非网络数据的融合是未来旅游研究的趋势之一。同时，随着人工智能技术的不断优化，以及旅游学科和跨学科之间合作的深化，研究问题驱动下的旅游大数据研究将更加成熟。

参考文献（References）

[1] MIAH S J， VU H Q， GAMMACK J， et al. A big data analytics method for tourist behaviour analysis[J]. Information & Management， 2017， 54（6）： 771-785.

[2] TUNG V W S， RITCHIE J R B. Exploring the essence of memorable tourism experiences[J]. Annals of Tourism Research， 2011， 38（4）： 1367-1386.

[3] DONAIRE J A， CAMPRUB? R， GAL? N. Tourist clusters from Flickr travel photography[J]. Tourism Management Perspectives， 2014， 11： 26-33.

[4] ALBERS P C， JAMES W R. Travel photography： A methodological approach[J]. Annals of Tourism Research， 1988， 15（1）： 134-158.

[5] LI J， XU L， TANG L， et al. Big data in tourism research： A literature review[J]. Tourism Management， 2018， 68： 301-323.

[6] VECCHIO P D， MELE G， NDOU V， et al. Creating value from social big data： Implications for smart tourism destinations[J]. Information Processing & Management， 2018， 54（5）： 847-860.

[7] XIANG Z， DU Q， MA Y， et al. A comparative analysis of major online review platforms： Implications for social media analytics in hospitality and tourism[J]. Tourism Management， 2017， 58： 51-65.

[8] URRY J， LARSEN J. The Tourist Gaze 3.0 [M]. Thousand Oaks： SAGE Publications， 2011： 155-188.

[9] EDENSOR T. Staging tourism： Tourists as performers[J]. Annals of Tourism Research， 2000， 27（2）： 322-344.

[10] STEPCHENKOVA S， ZHAN F. Visual destination images of Peru： Comparative content analysis of DMO and user-generated photography[J]. Tourism Management， 2013， 36： 590-601.

[11] 刘丹萍. 旅游凝视：从福柯到厄里[J]. 旅游学刊， 2007， 22（6）： 91-95. [LIU Danping. Tourist gaze： From Foucault to Urry[J]. Tourism Tribune， 2007， 22（6）： 91-95. ]

[12] 董慧云. 基于社交网络图片元数据分析的旅游目的地形象测量研究[D]. 北京：北京第二外国语学院， 2017. [DONG Huiyun. Research on Tourism Destination Image Measurement Based on Social Network Photos Metadata [D]. Beijing： Beijing International Studies University， 2017. ]

[13] 黄燕，赵振斌，褚玉杰，等. 互联网时代的旅游地视觉表征：多元建构与循环[J]. 旅游学刊， 2015， 30（6）： 91-101. [HUANG Yan， ZHAO Zhenbin， CHU Yujie， et al. The visual representation of tourism destinations in the internet era： Multiple constructions and circulations[J]. Tourism Tribune， 2015， 30（6）： 91-101. ]

[14] JENKINS O. Photography and travel brochures： The circle of representation[J]. Tourism Geographies， 2003， 5（3）： 305-328.

[15] BALOMENOU N， GARROD B. Photographs in tourism research： Prejudice， power， performance and participant-generated images[J]. Tourism Management， 2019， 70： 201-217.

[16] LI S， SCOTT N， WALTERS G. Current and potential methods for measuring emotion in tourism experiences： A review[J]. Current Issues in Tourism， 2015， 18（9）： 805-827.

[17] HUNT J. D. Image as a factor in tourism development[J]. Tourism Recreation Research， 2016， 13（3）： 1-7.

[18] 吳佩谕，黄远水. 旅游照片的符号属性对旅游意向的影响研究——以微信朋友圈旅游照片为例[J]. 资源开发与市场， 2019， 35（7）： 993-1000. [WU Peiyu， HUANG Yuanshui. Study on influence of symbolic attributes of travel photos on travel intention — Taking travel photos of WeChat friends circle as an example[J]. Resource Development & Market， 2019， 35（7）： 993-1000. ]

[19] PAN S， LEE J， TSAI H. Travel photos： Motivations， image dimensions， and affective qualities of places[J]. Tourism Management， 2014， 40： 59-69.

[20] 戴光全，陈欣. 旅游者摄影心理初探——基于旅游照片的内容分析[J]. 旅游学刊， 2009， 24（7）： 71-77. [DAI Guangquan， CHEN Xin. An initial discussion about tourists photographic psychology—Based on the content analysis of tourist photos[J]. Tourism Tribune， 2009， 24（7）： 71-77. ]

[21] NIKJOO A， BAKHSHI H. The presence of tourists and residents in shared travel photos[J]. Tourism Management， 2019， 70： 89-98.

[22] CAI G， LEE K， LEE I. Itinerary recommender system with semantic trajectory pattern mining from geo-tagged photos[J]. Expert Systems with Applications， 2018， 94： 32-40.

[23] BATISTA E SILVA F， MAR?N HERRERA M A， ROSINA K， et al. Analysing spatiotemporal patterns of tourism in Europe at high-resolution with conventional and big data sources[J]. Tourism Management， 2018， 68： 101-115.

[24] CHUA A， SERVILLO L， MARCHEGGIANI E， et al. Mapping Cilento： Using geotagged social media data to characterize tourist flows in southern Italy[J]. Tourism Management， 2016， 57： 295-310.

[25] GARC?A-PALOMARES J C， GUTI?RREZ J， M?NGUEZ C. Identification of tourist hot spots based on social networks： A comparative analysis of European metropolises using photo-sharing services and GIS[J]. Applied Geography， 2015， 63： 408-417.

[26] HU Y， GAO S， JANOWICZ K， et al. Extracting and understanding urban areas of interest using geotagged photos[J]. Computers， Environment and Urban Systems， 2015， 54： 240-254.

[27] VU H Q， LI G， LAW R， et al. Exploring the travel behaviors of inbound tourists to Hong Kong using geotagged photos[J]. Tourism Management， 2015， 46： 222-232.

[28] ZHOU X， XU C， KIMMONS B. Detecting tourism destinations using scalable geospatial analysis based on cloud computing platform[J]. Computers， Environment and Urban Systems， 2015， 54： 144-153.

[29] BRILHANTE I R， MACEDO J A， NARDINI F M， et al. On planning sightseeing tours with TripBuilder[J]. Information Processing & Management， 2015， 51（2）： 1-15.

[30] SUN Y， FAN H， BAKILLAH M， et al. Road-based travel recommendation using geo-tagged images[J]. Computers Environment & Urban Systems， 2015， 53： 110-122.

[31] BARIK D， MONDAL M. Object identification for computer vision using image segmentation[J]. 2010 2nd International Conference on Education Technology and Computer， 2010（2）： 170-172.

[32] ZHANG K， CHEN Y， LI C. Discovering the tourists behaviors and perceptions in a tourism destination by analyzing photos visual content with a computer deep learning model： The case of Beijing[J]. Tourism Management， 2019， 75： 595-608.

[33] ZHANG K， CHEN D， LI C. How are tourists different？ — Reading geo-tagged photos through a deep learning model[J]. Journal of Quality Assurance in Hospitality & Tourism， 2020， 21（2）： 234-243.

[34] DENG N， LI R. Feeling a destination through the “right” photos： A machine learning model for DMOs photo selection[J]. Tourism Management， 2018， 65： 267-278.

[35] 邓宁，刘耀芳，牛宇，等. 不同来源地旅游者对北京目的地形象感知差异——基于深度学习的Flickr图片分析[J]. 资源科学， 2019， 41（3）： 416-429. [DENG Ning， LIU Yaofang， NIU Yu， et al. Different perceptions of Beijings destination images from tourists — An analysis of Flickr photos based on deep learning method[J]. Resources Science， 2019， 41（3）： 416-429. ]

[36] SHAMMA D A， SHAMMA D A， FRIEDLAND G， et al. YFCC100M： The new data in multimedia research[J]. Communications of the ACM， 2016， 59（2）： 64-73.

[37] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition， 2016： 770-778.

[38] 马林兵，魏慧丽，曹小曙. 基于FCD数据的城市有效路网密度评价——以广州荔湾区和越秀区为例[J]. 地理研究， 2015， 34（3）： 541-554. [MA Linbing， WEI Huili， CAO Xiaoshu. Evaluating the valid density of road network in urban based on FCD — Case of Liwan and Yuexiu distric in Guangzhou city[J]. Geographical Research， 2015， 34（3）： 541-554. ]

[39] 禹文豪，艾廷华. 核密度估计法支持下的网络空间POI点可视化与分析[J]. 测绘学报， 2015， 44（1）： 82-90. [YU Wenhao， Ai Tinghua. The visualization and analysis of POI features under network space supported by kernel density estimation[J]. Acta Geodaetica et Cartographica Sinica， 2015， 44（1）： 82-90. ]

Abstract： Analyzing user-generated content （UGC） has become an essential mean for DMOs （destination management organizations） to enhance the tourists experience in destinations. At present， UGC-based tourism research is still text centered. The tourists behavior of taking photos is to establish a relationship among traveling companions， scenes， and tourism destination. The Photo can be regarded as an important data source for tourism research. Tourists photos contain not only the visual content about the destination， but also much other information related to the photos， e. g. ， geographical location and shooting time， which is of great significance for the research about tourist behavior， tourism recommendation， and tourism marketing. Due to the technological limitations of extensive visual content analysis， most of the visual content analysis was conducted manually in previous studies. Recently， with the technological breakthrough in the field of computer vision， it is quite possible to process massive visual data through a machine learning approach. Several prior pieces of research have been explored in the field of tourism research; it still holds a great potential to explore and contribute to this prevalent issue. Taking Beijing as an example， this study applied a deep learning model in the field of computer vision - scene understanding to recognize the visual content of inbound tourists photos on Flickr. Two objectives were obtained; the first one is the inbound tourists preferences and behavior in Beijing; the other is the evolution of tourists preferences and behaviors. The conducting process of this study is described as followed. Firstly， it applied the deep learning model of scene recognition， which is used to recognize the visual content of tourists photos. As the output， 103 scenes were identified. Secondly， according to the correlation between the tourism scenes， the 103 scenes were induced into six categories and ten sub-categories. Six significant categories included food， commendation， transportation， sightseeing， shopping， and entertainment. Ten sub-categories included food perception， living perception， traffic perception， building perception， animal perception， plant perception， natural scenery perception， shopping perception， and entertainment perception. In the next step， data statistics， Moran index， fishnet/ density analysis， and route tracking tools were carried out for analyzing tourists perception /preference and behavior. The main results of the study contained：（1） the overall characteristics of the inbound tourists preference and perception; （2） the evolution process of tourists perception and preference about Beijing; （3） the spatial evolution of tourists itineraries; （4） the changing spatial structure of Beijing as a tourism destination. Theoretically， this study explored the feasibility of interdisciplinary technology in tourism research. Practically， this research provided references for DMOs to formulate development and management policies.

Keywords： big pictorial data; deep learning; tourists perception; tourists behavior; spatio-temporal evolution

[責任编辑：刘鲁;责任校对：王婧]