基于图像分割技术的旅游图像内容分析:原理、方法与实证
2022-08-22白钊成孙永科戈梦霄唐雪琼
齐 君,白钊成,孙永科,戈梦霄,唐雪琼
(1.西南林业大学地理与生态旅游学院,云南昆明 650224;2.西南林业大学园林园艺学院,云南昆明 650224;3.西南林业大学大数据与智能工程学院,云南昆明 650224)
引言
从19世纪中叶世界第一台银版照相机的发明、第一部摄影相册《自然的画笔》的出版,再到21世纪初期相机与手机的融合与普及、网络自媒体对照片和视频的共享,图像的生产从行业运用发展至大众休闲,摄影也渐成生活与旅行的日常。由于照片传递着游客的行为心理、情感态度等信息,被学者视为考察游憩的时空特征、目的地旅游形象、游客与东道主关系等内容的重要材料。自旅游凝视理论诞生以来,照片即被视为串联旅游形象产生、投射、感知、呈现、延续的解释学循环的导线,引发了通过旅游摄影讨论游客视觉、行为、意向的研究范式。学者通过雇佣拍照、照片诱导等方法探讨旅游景观及旅游体验,肯定了照片的叙事价值及其实证意义。而在Web 2.0 时代,越来越多的游客选择将照片上传至网络,基于用户生成图像的大数据运用将为旅游发展决策提供更加精准的支撑。通过马蜂窝、携程、新浪微博、TripAdvisor、Instagram、Flickr、Panoramio等旅游及社交网站,学者可以抓取公众在旅行过程中的拍摄对象、照片数量、数字足迹,为行为预测、产品设计、形象管理等相关研究及决策提供证据。这一趋势使得网络照片分析逐渐成为当下旅游研究的热点之一。
摄影从专业向大众的推广并非意味着其在行业运用的衰微。从20 世纪70 年代以来,图像就一直扮演着景观的代言者,成为旅游地景观质量评估的主要媒介。学者通过特定方法采集旅游地图像,通过对内容的解构与分类归纳旅游资源的视觉景观特征;或者邀请公众对照片展开量表式的评价,依照评分的统计学特征来定义其反馈的景观美学质量。如美国一系列环境资源保护法案催生的森林视觉管理系统、视觉资源管理、风景资源管理等,利用专家或公众对景观照片的评价实现资源质量的测评。21 世纪后,伴随着卫星遥感和无人机遥感技术的发展、全景拍摄与街景数据的涌现,照片拍摄的角度、方法、形式也变得更为多元,为基于专业图像的旅游资源评价提供了更加全面的支撑。即便在近年来数字三维模型和虚拟现实技术的冲击下,照片仍然以其便利、灵活、普适等优势在景观评价中占据着不可取代的地位。
虽然照片附带的地理信息或文字标签同样蕴含着富有价值的信息,但相较之下,直观的图像内容才是照片叙事的主体,是旅游者关注的重点。无论是用户生成或者专业拍摄,内容分析均是旅游图像研究的一大主流方法。然而结合以往研究来看,该方法的进展存在两大瓶颈:一是分析过程依赖手动编码,限制了分析数据的总量。利用质性分析软件NVivo对用户生成图像进行编码是照片内容分析的常用方法,研究者通过手动勾勒、模糊判断单张旅游照片的拍摄对象来析出初始节点,在所有照片编码结束后厘清各节点之间的树状关系,并依据节点的统计学特征得出结论。然而由于编码过程需要耗费大量精力,样本数量往往受到限制,弱化了网络照片大数据分析的价值意义。二是分析内容局限于拍摄对象的分类,造成了可用信息的浪费。通常的照片内容分析往往只提取拍摄对象(如天空、森林、建筑等)所出现的频率。然而作为视觉景观的表征,照片内容所携带的信息远远不止对象,还包括各景观要素的比例、空间、轮廓、色彩等内容。于公众发布的网络照片而言,这些内容是不同游客旅游凝视形成的动因;于专业的图像采集而言,这些内容则是深入测度旅游资源景观质量的依据。
针对上述瓶颈,近来在计算机视觉领域快速发展的图像分割技术也许是实现突破的一个途径。该技术使计算机可以根据图像的真实语义对照片进行分割,实现对视觉媒体的精准计算,进而深化照片内容分析的量化水平,提升图像大数据分析的可行性。本文梳理了图像分割技术的运用原理和操作方法,并通过两个实证研究讨论该技术在旅游领域的运用前景,尝试为旅游图像的内容分析提供新型智能工具,支撑旅游地景观与形象的智慧化管理。
1 运用原理
1.1 概念与发展
图像分割是目标识别的基础,其概念自提出以来就成为计算机视觉研究的热点话题。20 世纪60年代以来,图像分割开始被运用于肺部疾病检查、白细胞分类、癌细胞检测、染色体核型分析等,在生物医学领域表现出了突出的应用价值,因而受到了较为广泛的关注,并诞生了各种各样针对不同应用途径的分割算法。发展至今,图像分割的不同算法数以千计,其运用也早已突破医学影像分析,在遥感影像分析、气象观测、人脸识别、自动驾驶等多个领域表现出了广阔的前景,带领当代科技逐步迈入人工智能时代,同时也为智慧旅游提供了技术保障。
在概念定义上,图像分割即按照一定相似性原则将数字图像划分为若干互不重叠的区域,使每个区域内部表现出同质性特征的图像处理过程。其数学定义为:集合表示完整图像区域,利用算法将分割为个不相交的、相互连通的非空子集,,…,R,()· 为判断分割区域之间同质性的逻辑谓词(即分割算法),则
在技术发展初期,图像分割的算法主要包括阈值法、边缘检测法、区域法等,这些方法多基于图像灰度信息对同类像素进行分组,进而实现图像的分割。此类方法原理较为直观,并在20世纪末计算机性能普遍不高的背景下取得了较好的成效。然而随着图像分割运用领域的拓展,所处理的图像场景更加复杂,对分割精度的要求也更加严格,促使分割算法的开发在21世纪时取得了一些突破性的进展。2003年,Ren和Malik提出“超像素”概念,开启了图像处理超像素分割的新里程。超像素指具有相似特征的相邻像素所组成的图像块。传统图像分割的基本单元是像素,其本质为计算机读取信息的数字矩阵,并非是真实世界的存在,而超像素则通过相似相邻像素的整合来生成“人眼兴趣尺度”(scale of interest)的区域,反映人体视觉系统下的真实对象。因而,基于超像素的图像分割相比基于像素的图像分割而言,更能够产出更加符合人类感知的结果,也使得通过图像分割解译旅游照片成为可能。此后,学者基于图论或聚类思想,进一步开发出了Normalized Cuts、Superpixel Lattice、Mean Shift、SLIC 等算法,利用超像素分割执行遥感地物信息提取、人体姿势估计、目标识别与追踪等各类计算机视觉任务。最近10余年来,人工神经网络的发展则为图像分割的进步提供了更多支撑。从深度学习的提出,到卷积神经网络(convolutional neural networks,CNN)和全卷积神经网络(fully convolutional networks,FCN)的运用,图像的语义分割由此获得了阶段性的进展。语义分割指在像素级别上实现图像的分割与分类,使每一个像素获得一个对应的语义标签,进而区别出图像中的各个像素是属于建筑、树木或人等自然对象。基于深度学习网络,计算机可以自动学习、分析具有相同语义图像的像素特征,进而获取更高精度的判断,甚至可以实现实例分割、全景分割、三维分割等更加复杂的运算。
1.2 借鉴目的
于旅游研究而言,当代的图像分割技术为照片内容分析提供了新的支持,使其可以突破传统分析手段所面临的瓶颈。一方面,大量简单、重复的分析过程可以交由计算机完成,使照片内容分析走向大数据时代。旅游照片表达了真实而复杂的图像场景,一张照片中包含了不同对象的类型、尺度或透视,然而当代的图像分割技术已经可以实现在无监督或弱监督情况下对照片内容进行解构,使照片中的所有信息都能被纳入分析的范围之中,在解放人工投入的同时,又实现研究资料的最大化利用。另一方面,图像分割的运用可以从照片中提取更多的量化信息,拓展了实证研究的深度。传统的照片内容分析虽可通过人眼轻松识别图像中的对象类别,但却难以通过数字化标准精确捕捉对象的色彩、轮廓、面积等特征,而这些特征则是考察游客凝视对象、旅游地天际线、旅游色彩感知、旅游景观质量的数据来源,对基于用户生成图像的旅游者研究,或者基于专业图像采集的旅游景观评价而言,均表现出了突出的资料价值。
除了引领照片内容分析走出瓶颈外,图像分割技术的运用将会是旅游大数据分析迈向全新阶段的标志。近10年来,大数据分析的兴起使旅游照片研究发生了相应的转变,照片“元数据”分析,即利用照片附带的4 类信息——用户信息(照片或用户ID)、时间信息(拍摄时间及上传时间)、地理信息(拍摄地点与上传地点)和文本信息(标题、描述、标签)开展的研究,为游客感知与行为研究提供了新思路。相较图像内容,元数据分析更关注照片背后客观的时空信息及主观的文字评论。而在最近3年内新型图像处理技术逐步投入使用的背景下,旅游照片大数据分析也开始出现了由元数据信息向图像内容发展的萌芽。例如邓宁等利用基于CNN开发的“DeepSentiBank”实现图像内容的情感分析,讨论了旅游者对北京目的地形象的感知差异;范梦余等在考察内蒙古视觉旅游形象时也使用了类似的方法;张坤等则利用深度学习模型对照片进行了场景统计,结合元数据分析讨论了北京入境游客的感知与行为。上述研究显示,深度学习与计算机视觉在旅游大数据分析中逐渐开始扮演着重要的角色。在旅游图像分析中,真实对象的成分数据将成为照片元数据以外的另一大重要内容。而图像分割作为提取对象成分的重要途径,有望成为未来图像内容分析的主流智能工具。对此,本文归纳了两种旅游图像的分割方法,并结合两个实证案例讨论其具体的运用途径。技术框架如图1所示。
图1 基于图像分割的旅游图像内容分析技术框架Fig.1 Technical framework of image segmentation-based method for tourist image content analysis
2运用方法
2.1 面向对象的超像素分割
虽然当前计算机视觉领域普遍将基于深度学习的图像分割称作语义分割,但严格地讲,超像素分割也是基于图像语义的分割,它与深度学习的语义分割的区别在于,超像素分割依托图像的中级语义,语义分割则依托高级语义。由于深度学习技术的出现,图像的语义被划分为低级、中级与高级。其中,低级指像素的灰度信息,中级指像素块的紧凑度、对比度、粗糙度、形状因子等,高级指真实对象的类别。虽然超像素分割不能像语义分割那样直接反馈对象的类型,但其分割结果已经能够将图像中的不同对象区别开来。相较于语义分割,超像素分割的优势在于不需要让计算机事前学习真实对象的像素特征,通过灵活调整中级语义参数获取理想的分割结果,适用于不同尺度和视角的图像,操作程序相对简单;缺点是每张图片的分析需要少量的人工干预,不能完全实现智能化的分析流程。
Achanta等提出的“简单线性迭代聚类”(simple linear iterative clustering,SLIC)是目前性能较为优越的超像素分割算法,该算法可对生成的超像素数量进行控制,且相比其他算法而言,在处理时间、边缘召回率、欠分割错误率上都有着较好的表现。2013 年,Kovesi 提出利用SLIC 生成超像素,在通过基于密度的聚类算法DBSCAN 实现对超像素的聚类,以此更加简洁、快速地获取分割结果;与此同时,Kovesi还于其个人网站给出了算法的MATLAB代码,研究者可利用MATLAB 直接实现照片的超像素分割,仅需要设置如下几个参数:超像素数量(名义上的生成数量,若参数过小,实际生成数量将略大于设定值)、色彩-空间差异权重(参数越大,超像素的边缘将越规整和平滑)、分割半径(形态上小于参数设置的像素将被合并)、色彩中心计算方式(根据超像素色彩均值或中值计算)等,经过几轮调整确定理想的参数值,即可直接生成基于真实对象的分割结果,作为照片内容分析的依据。然而,由于SLIC 的超像素分割并没有针对大众用户进行开发,其结果的反馈和调整均需要借助一定的计算机语言知识,因而在一定程度上阻碍了其在旅游图像内容分析方面的运用。相较而言,同样可以生成超像素分割结果的商业化软件易康(eCognition)则对一般用户表现出了较好的操作性。
易康是德国Trimble 公司旗下的遥感数据分析软件,该软件以面向对象的影像分析实现对真实的物的分类,在旅游照片的分割上也有着出色的表现。易康为不具备编程知识的用户提供了友好的操作界面,使用者可利用软件对照片进行多尺度分割,以异质性最小的区域合并算法,自下而上地对像素进行聚类,最终生成真实对象的超像素。主要步骤如下:(1)建立算法,导入待分析照片,于进程树中新建多尺度分割算法,于执行领域中选择像素级;(2)参数初设,对尺度参数(控制所生成超像素的大小,需根据照片分辨率和真实对象的大小设置)、形状参数(色彩与形状之间的权重参数,控制生成结果对色彩或形状的参考度)、紧凑度(紧凑度与平滑度之间的权重参数,控制生成超像素边缘的紧凑或平滑程度)、图层权重(R/G/B 3 个通道的权重参数,控制生成结果对各通道的依赖度)进行设置;(3)参数调整,利用初设参数执行运算,并根据结果对参数进行调整,必要时也可通过手动操作对相同语义的超像素进行合并;(4)结果反馈,于图像对象信息中选择需要展示的超像素属性,以提取分割后对象的面积、形状、色彩等特征。
2.2 深度学习的语义分割
超像素的分割结果展示了照片中不同对象的边界,再通过人工识别各对象所指代的现实含义后,即可实现对旅游图像内容的量化分析。事实上,在生成超像素分割结果后,研究人员可通过机器学习的途径,基于同类对象的图像特征建立算法,进一步实现对超像素的分类,最终实现对图像高级语义的提取。然而在现实情况下,即便同一类型的对象(如建筑),其形状、色彩、纹理等图像特征也各不相同,加之游客拍照时的角度、方位、光线等因素也存在差异,为算法建立的复杂性和分割结果的准确性带来了巨大挑战。而自深度学习提出后,研究人员仅需提供大量相应语义标签的训练样本,计算机即可自动学习该类图像的像素特征,生成涵盖不同语义标签的数据集,最终实现基于高级语义的图像分割与识别。
正所谓“无数据不AI,无人工不智能”,利用深度学习的语义分割对图像内容进行分析,其最大的阻碍在于需要大量训练样本,且样本的处理需要耗费大量人工。幸而历经最近几年的发展,来自世界各地的企业、研究机构已经开发出了一些成熟的端到端开源深度学习平台,集深度学习核心训练框架、基础模型库、开源数据集于一体,比如谷歌的TensorFlow、亚马逊的MXNet、百度的飞浆等,这些生态完备的平台使开发者能够轻松地构建和部署深度学习任务。对图像语义分割而言,自2014年FCN网络将端到端、像素级的预测效果推广到语义分割以来,语义分割模型在采样方式和架构上不断优化,SegNet 模型的反池化采样(unpooling)设计、DeepLab v1 模型的空洞卷积(dilated convolutions)操作,使图像分割的结果愈发接近于人的视觉判断。目前该系列最先进的DeepLab v3+模型于2018年发布,更为精细的分割效果为旅游图像的量化分析提供了支撑。研究可借助模型对数据集进行拟合、训练、验证,以达到理想的数据分割效果,使用不同的数据集即可完成不同领域内的分割任务。目前,常用的数据集包括PASCAL VOC、Cityscapes、ADE20K、KITTI等,其中,部分数据集的使用场景与旅游环境具有较好的耦合关系,可直接运用于旅游图像的内容分析。
语义分割的操作需要一些基础的计算机语言知识。以深度学习平台MxNet为例,研究者可直接调用数据集和预训练模型来实现旅游照片的语义分割,主要步骤如下:(1)环境搭建,编写Python 代码,安装GluonCV Toolkit 视觉库,导入PIL 图像处理模块和numpy数值计数模块,为图像分割与数值化处理做准备;(2)模型调用与图像导入,在模型库中选择分割精度与运算效率适宜的模型,以及标签类别足够覆盖研究对象的数据集,调节参数后导入待分析图像;(3)标签预测,将不同景观要素的类型视为不同标签,根据调用参数建立预测算法,利用PIL模块对语义分割预测结果生成区分不同标签类型的彩色分割图;(4)结果反馈,利用PIL 模块可以对图像原本的色彩进行提取,Numpy模块遍历各个标签像素的大小,即可完成图像内容的数值化分析,提取标签的数量、尺度、面积、形状等信息。
3实证研究
3.1 利用超像素分割分析传统聚落的旅游审美
本节以云南沙溪为例,利用超像素分割考察公众旅游审美的生成。沙溪古镇位于云南省大理州剑川县,具有世界建筑遗产、国家级历史文化名镇、国家4A级旅游景区、云南旅游名镇等多项头衔,是以传统聚落景观为代表性资源的旅游地。沙溪古镇的网络照片不仅记录着当地的旅游形象,照片的生产过程更暗含着旅游学驱动下传统聚落景观的审美规律。研究利用Python 爬取马蜂窝网站中游客上传的关于沙溪古镇的照片,将重复及拍摄地点不在案例地范围的剔除,最终获取有效照片3316张。根据上文介绍的方法,利用易康Developer 9.0对网络照片进行超像素分割(图2)。
图2 超像素分割的操作过程Fig.2 Procudures of superpixel segmentation
利用超像素分割,研究者不仅可以实现游客景观偏好类型的内容分析,更可进一步结合指标体系的建构,讨论旅游审美的生成机制。每一张照片的拍摄均意味着一次旅游凝视的独立完成,而照片中各对象所占据的比例则表明其于凝视形成的重要性。因此,研究者可据对象反馈出的旅游学属性及其重要性特征实现对照片内容的深层分析。由于旅游审美是对复杂对象的综合性判断,不同因素对审美选择的影响往往难以解构。因此在沙溪古镇的案例中,笔者按照旅游资源(客体)、旅游业(介体)、旅游者(主体)的逻辑关系建立了“资源依附、商品价值、服务对象”的三维指标,以照片中各对象所占据的图幅比例为权重(若照片为特写,则其对象权重视为1),考察沙溪旅游审美的生成机理,依托数据结果分别析出资源、商品和服务对游客审美选择的影响力(图3)。
图3 基于超像素分割的旅游审美分析示例Fig.3 Example of tourist aesthetic analysis based on superpixel segmentation
据图4 的分割结果,沙溪旅游照片中记录的对象包括建筑物、院落空间、室内环境、装饰物、街巷、广场、桥梁、标识物、功能设施、植物、动物、山脉、天空、水体、农田、食物、工艺品、人文活动、游客、居民共20 个类型。建筑物、天空、植物在单张照片中出现的比率为35.11%、15.72%、13.95%,构成了沙溪旅游意象的主体,其中,建筑物则是沙溪旅游景观最突出的核心。据评价结果,案例地单张旅游照片的总评分为1.47(满分6分),说明总体而言,照片中景观的旅游学属性并不突出。通过考察各指标的数据特征发现,有65.00%的拍摄对象与当地旅游资源直接相关,服务设施与旅游商品仅有21.62%和13.38%的可能性吸引游客的关注。研究还发现,虽然评分数据分布并未呈现出严格的正态特征,但评分在1 至2 分区间的个案数量最多(1417 张),左右两侧数量呈递减趋势。该结果反映出,相较于完全原真(分值较低)或过度开发(分值较高)的旅游景观而言,具有适当旅游属性的景观才是多数人的审美选择。以上数据说明,基本的资源宣传、设施服务和商品销售仍然在一定范围内对旅游形象的塑造产生积极作用。为实现开发与原真之间的平衡,管理者可以通过搜集不同时期游客上传的照片,结合超像素分割技术,开展对游客景观感知的定期监测,以实现旅游地形象的动态管理。
图4 案例地旅游审美的结构特征Fig.4 The composition of tourist aesthetics in the case study
3.2 利用语义分割实现旅游风景道景观质量的测度
本节以云南怒江为例,利用语义分割考察旅游风景道的视觉景观质量。怒江美丽公路(国道G219丙中洛至六库),是全国“旅游+交通”新型融合发展举措的实践探索,也是《云南省美丽公路旅游线规划》及“大滇西旅游环线”的重要组成。该风景道全长约280 km,穿越了横断山脉南部V形深切峡谷及傈僳族、怒族、独龙族等少数民族聚居地。过往研究中,学者通过等距离专家组目视的方法来完成风景道景观质量的测评,其结果无法避免地受到评价者的主观影响。而借助语义分割、全景拍摄及双眼视觉学理论,风景道景观质量的测度方法将更为科学、客观,其结果对风景道线路布局与定位、景观资源开发和保育等更具指导意义。
为采集风景道休闲驾驶过程中人眼的视觉景观信息,研究利用全景相机对案例线路进行等距离(1 km)拍摄,并通过Adobe Photoshop对照片进行畸变校正,随后根据相机视场角(field of view,FOV)和双眼视域范围对照片数据进行裁切,生成双眼视域下的风景道景观照片。按上文介绍的语义分割方法,在模型调用步骤选择适合道路场景、具有较好精度的ADE20K 数据集和DeepLab V3+ResNeSt-269预训练模型,对采集、合成的风景道视域图像进行分析(图5)。为实现对风景道景观质量的进一步解译,研究基于遍历视域图像后获取的各景观要素面积比率,构建非量表式的语义差异指标,从“自然-人工”(naturalness-artificiality,NA)、“多样-统一”(diversity-coherence,DC)、“开阔-幽深”(opennessdeepness,OD)3组语义差异概念解读案例地的视觉景观质量。
图5 语义分割的操作过程Fig.5 Procedures of semantic segmentation
语义分割结果表明(图6),休闲驾驶过程中,怒江美丽公路的视觉景观要素包含乔木、草本、灌木、建筑、水体、天空、道路、裸土地面、山体、围栏、标识、墙体、汽车共13个类型。全路段平均来看,道路所占视域面积最大,为38.26%,除此之外,天空、山体、乔木分别占比23.65%、19.94%以及10.09%,构成了视觉景观的主要成分。在此数值基础上,进一步对建构的3组指标进行计算,以1和0分别代表语义差异概念的两个极值、0.5 为两个概念的临界点,得出案例地NA 值0.8922、DC 值0.2731、OD 值0.6192,说明其视觉景观表现出“高度自然、较为统一、略微开阔”的总体特征。若按行驶路径将图像数据串联起来进行整体研究,可以发现案例地NA值相对稳定,而DC和OD 则频繁变化(图7)。上述结果为怒江美丽公路的管理带来一些启示。一方面,作为穿越峡谷的风景道,案例地“略微开阔”的评价结果尚未较好地展现出峡谷资源的幽深特征。结合景观要素的占比数据可发现,道路两侧的山体比重并不低,但由于道路改造工程,路侧乔木比重略少,导致了道路景观向开阔特征发展。因此在后续维护中,管理方应当注重路侧乔木的保育,突出峡谷道路的幽深特征。另一方面,景观质量的变化不仅可以丰富休闲驾驶的体验,而且更有助于缓解驾驶者的视觉疲劳。而如图6 所示,案例地虽然穿越了贡山、福贡、泸水3 个区域,但各路段景观质量未能体现出规律性的变化,缺乏相应的主题性。因此,各路段的管理方应当注重路段特色的挖掘,赋予怒江美丽公路律动变化的视觉体验。
图6 基于语义分割的景观质量评价示例Fig.6 Example of landscape quality evaluation based on semantic segmentation
图7 案例地景观质量的动态变化Fig.7 The trajectory of landscape quality in the case study
4 结论与展望
本文介绍了图像分割技术的原理,以及两种具体的分割方法——超像素分割和语义分割,并通过两个实证案例来讨论不同分割技术的适用范围,具体结论如下(图8)。
图8 两种分割方式的技术路径对比Fig.8 Technical path comparison of two segmentation methods
(1)超像素分割根据图像纹理、色彩、形状、紧凑度等指标构建同质性原则,并根据原则对邻近像素进行分类与合并,将中级语义上升至高级,实现真实对象的分割。其分割结果并不能确定各对象的类别名义,需要人工参与判断,因而较难实现图像的批量处理。但由于人工参与鉴别时可根据实际情况对分割结果及其同质性原则进行调整,故适用于任意景类和视角的图像,是网络旅游照片分析的重要工具。
(2)语义分割基于人工神经网络,通过对训练样本的深度学习,进而直接根据图像的高级语义实现像素级别的分割,最终呈现的结果包含真实对象的轮廓与类别。由于不需要人工介入,因而可实现批量处理,更加符合大数据分析的需求。然而,语义分割的运用依赖深度学习的数据集,因而其适用范围受既有数据集的限制。虽然研究者可以根据实际需要自定义添加训练类别,但需要花费大量精力制作训练样本。因而,语义分割更适合于场景或视点相对固定的专业图像分析。
结合当前技术发展的现实情况来看,虽然语义分割为照片内容分析带来了更多便利,但在不考虑自主训练、仅利用既有开源数据集的情况下,该方法尚不能胜任满目琳琅的旅游视觉分析。因而,语义分割与超像素分割相结合的方法构成了一个相对理想的选择。研究者先利用语义分割对照片数据进行批量处理,随后针对超出数据集适用范围或分割效果不理想的个案进行超像素分割,最终实现基于图像分割的照片内容分析。然而,由于深度学习的语义分割在算法上直接模拟人类大脑对视觉信息的处理,更加符合由旅游图像还原人脑视觉思维的分析初衷,其运用更具前景。
网络视觉媒体的流行以及行业应用的拓展创造了一个图像数据爆炸的时代。在这一时期,基于标签、足迹的旅游大数据将旅游行为视为字符串、点坐标,弱化了主体感知与决策的真实情境,为旅游数据分析带来了潜在的危机。作为回应,研究的方法论需要实现由数据量积累向数据深度挖掘的转向。相较于旅游照片的元数据分析,基于图像分割的内容分析特点在于紧扣照片所叙述的视觉世界,从对象的类别、属性、组合等方面考察旅游者对景观的凝视。当代图像分割技术可以实现对真实对象的分割,并以像素单位计算对象的图形特征,为图像内容分析的深化提供了可能。研究者可从数量关系上解构人对旅游地视觉感知的具体组分,首先开展基础信息提取,包括视觉对象的类型、轮廓、色彩特征,及其在旅游凝视中出现的频率与视域占比。随后开展内容分析的进阶演算,例如依托用户生成的网络照片,根据视觉对象在旅游资源、商品价值、服务对象等方面的表现判断旅游开发对目的地形象的影响;或利用专业采集的影像资料,根据自然、多样、开阔等视觉体验对旅游地景观质量进行评判。借助该技术,旅游图像的内容分析不再停留于图像单元,而是深入至分割后的具体视觉对象,为分析过程提供具体的数据支撑,解决以往旅游形象感知及景观评价方法的主观性与深入性问题。该技术的引入使旅游地管理机构可通过不同时期旅游图像的搜集采集,实现旅游形象与景观质量的监测监管,通过视觉数据推动旅游地的智慧化管理。长远而言,随着人工智能的发展,图像数据集的适用范围将不断拓展至生活的各个方面,最终覆盖旅游照片中的不同对象,而诸如全景分割、实例分割等本文暂未涉及的前沿方法也将逐渐体现出其强大的应用价值。届时,图像分割有望成为分析旅游图像数据的重要智能工具,借助数据决策赋能未来旅游事业的发展。