基于LDA主题模型的湖泊公园生态系统文化服务公众感知研究
2023-08-26裘鸿菲
张 怡 裘鸿菲
生态系统文化服务(Culture Ecosystem Services,CES)是人类与自然生态系统相互作用的必然产物,即人们通过精神满足、认知发展、娱乐和审美体验等方式从生态系统中获得的非物质利益[1]。城市蓝绿空间是包括各类湿地、水域、绿地等开敞空间的复合系统[2],进行蓝绿空间CES的公众感知和偏好研究,对保护生态环境、提升游憩空间质量及增进人类福祉具有重要意义[3]。
目前,国内外学者尝试从社会和空间的角度开展了相关研究,包括CES的感知识别与满意度[4-5]、CES的权衡与协同[6]、CES的价值量化与空间制图[7]等方面,且大多采用货币法、实地调查、参与式制图等方法。随着互联网的飞速发展,网络平台的评论文本与图像为研究提供了非结构化大数据,与问卷、访谈的形式相比,网络数据具有自发性、样本量大且易于收集的优势,更能反映公众的感知情况[8-9]。同时,文本分类、情感分析、图像语义分割等机器学习处理技术也在不断升级,使研究朝着定量化、精细化、技术化方向发展[10]。主题模型分析是自然语言处理技术中利用建模来挖掘文本所隐含主题的一种方法,能很好地捕获词语之间的相关信息[11],目前已经广泛应用于各研究领域中,对评论文本、新闻文本等进行挖掘分析[12]。
选取武汉市8个湖泊公园为研究对象,基于网络爬虫获取网络评论数据建立语料库,采用LDA主题模型识别生态系统文化服务感知维度,结合社会网络分析和情感分析进一步探索各类服务的感知特征,并对比问卷调查结果,量化各公园感知差异,分析感知影响因素,为公园服务优化提出相关建议。
1 研究区域与方法
1.1 研究区域概况
湖泊公园作为城市蓝绿空间的重要组成部分,是以湖泊水景为主体景观,兼具生态和游憩功能的城市公园[13]15。武汉中心城区有39个自然湖泊,目前已建成23个湖泊公园,综合考虑公园的区位、面积、评论数量及年均游客量等客观因素,选取位于中心城区的8个典型湖泊公园作为研究对象(表1)。
表1 湖泊公园基本信息
1.2 数据收集与预处理
考虑到各类社交媒体平台的受众程度、覆盖范围广泛度及评论数据量的大小,选取大众点评、携程网和新浪微博3个网站,通过网络爬虫对8个湖泊公园的用户评论进行爬取,内容包括评论文本及评论时间,时间跨度为2018年4月1日—2022年4月1日。对数据进行清洗整理,手动删除同一用户发表的重复评论及无关评论,并进行网络用语修改替换,最终获得8 869条有效评论(表1)。
利用python中的jieba包进行评论数据预处理:首先,进行中文分词,并标注词性;其次,结合常用停用词表及与公园评论无关的高频词,构成停用词表,对数据去噪;最后,总结有相似意义的词汇,形成同义词表,合并同义词。
1.3 研究方法
构建湖泊公园生态系统文化服务公众感知研究框架,通过LDA主题模型、社交网络分析及情感倾向分析技术对生态系统文化服务感知进行定量化分析,并对比问卷结果,探讨其感知特征及公众偏好,具体研究思路如图1。
图1 研究思路
1.3.1 LDA主题模型
LDA(Latent Dirichlet Allocation,潜在狄利克雷分配)主题模型是文本非监督主题挖掘方法中的代表模型,可通过词袋模型对文档中隐藏的主题信息进行挖掘识别[14]。对于大量文本数据,LDA可高效地将评论分类为各种主题,并计算评论与主题之间的相关性。通过Gibbs抽样算法来进行相关参数的估计,并利用主题困惑度(Perplexity)来确定最佳主题数量,归纳感知维度[15]。通常情况下,当主题困惑度越低时,模型产生文档能力越强,模型拟合程度较好。
1.3.2 社会网络分析
社会网络分析(Social Network Analysis,SNA)是通过关系量化来分析群体结构的方法[16]。利用python中的Networkx包进行制图,计算相关网络参数,直观分析词语之间的网络关系。其中,点度中心度(Degree Centrality)是对每个特征词与其他词关联的量化分析,体现其在网络中的重要程度;接近中心度(Closeness Centrality)是指一个特征词与其他词之间的路径距离,体现该词在网络中的位置;中介中心度(Betweenness Centrality)是衡量一个特征词的媒介能力[17];群聚系数(Clustering Coefficient)表示一个词与其他词之间的相互连接程度[18]。
1.3.3 情感倾向分析
情感倾向分析(Sentiment Classification)是对带有用户偏好和情感的主观性文本信息进行分析、处理及挖掘的过程[19],用于识别公众情绪,衡量公众感知满意度。使用Paddle Hub框架下基于Bi-LSTM(Bidirectional Long Short Term Memory,双向长短期记忆)的预训练模型Senta来捕获文本语义特征,对各感知维度下的评论文本进行情感分析[20-21]。该模型可输出句子的正向情绪和负向情绪概率,计算得到情绪得分,从而判断句子的情感倾向,得分在(0.6,1)表示高度积极,(0.2,0.6]表示一般积极,(-0.2,0.2]表示中性,(-0.6,-0.2]表示一般消极,(-1,-0.6]表示高度消极。根据李克特量表,制定了5分评价标准,将取值1~5分别从高度消极到高度积极进行满意度赋值。最后,结合实地问卷调查进行对比检验。
2 结果及分析
2.1 公众关注点分析
对分词后的文本数据进行词频分析,并利用Word Clound包对各公园前20个高频词制作词云图(图2)。评论中词频数较高的有散步、跑步、广场、荷花、樱花、紫阳湖、沙湖、环境、天气、儿童等词语,反映出公众关注热点主要是公园中的动态活动、树木花卉、湖泊景观及出游天气等。在特色关注点上,博物馆、建筑、双塔、睡莲、樱花、摄影、放风筝、菊展、琴台和知音均反映出公众对公园景观环境和文化背景特征的关注热度较高。
企业中建立项目信息管理模块,首先要对项目进行全面的了解,前期应该对项目管理系统展开一系列的调查,确定开发的目标,并根据项目的实际情况,对信息进行分类。对分类后的信息进行数据模块的构建,数据模块之间与服务器和计算机网络设备等一些设备相连接,这些设备能够将数据信息及时准确的输入输出,并完成相关的运行工作,提高了数据信息的使用率,同时也节省了成本,最终提高了企业的工作效率。
图2 湖泊公园高频词云图
2.2 基于LDA主题模型的生态系统文化服务感知维度识别
利用LDA模型进行主题构建,当主题数量为14时,困惑度值最低,模型拟合程度较好且各主题重合较少,易于区分。将14个主题进行人工归纳,根据生态系统文化服务的定义可归纳为休闲娱乐、审美体验、运动健康、社交互动、历史文化、科普教育6个感知维度(表2)。
表2 湖泊公园生态系统文化服务感知维度
2.3 生态系统文化服务社会网络分析
对各感知维度下的前20个特征词构建社会网络,进行可视化分析,结果如图3所示。图中2个节点之间的线条类别反映其共现频率不同,其中绿色连接线表示其共现频率大于0.02。网络分析结果如下。1)在休闲娱乐维度下,网络均衡性良好,各节点联系紧密。交通、地铁、公交、地铁、便利、散步和门票等词的共现频率较高,表明可达性和园内设施是否免费是公众对休闲娱乐服务感知的关注重点。2)在审美体验维度下,各词间共现频率略低,荷花、荷叶、夏天、季节、花园、春季、樱花等词的点度中心度和接近中心度均为1.0,说明审美体验服务多集中于春夏两季,主要观赏对象为荷花和樱花。3)在运动健康维度下,跑步、夜晚、运动、灯光、老年人等词3类中心度均较高,其中夜晚、跑步、灯光和夜景共现频率最高,反映出公众所感知的运动健康服务大多是在夜晚锻炼。晨练的中介中心度较高,表示其在运动健康网络中有较强的中介作用。4)在社交互动维度下,儿童、设施、游乐、朋友等词的中心度和共现频率均较高,可知湖泊公园中的互动型活动是以儿童和家人为主进行的游乐设施类活动。放风筝在网络中群聚系数最高,表明其是社交互动服务中的特色活动。5)在历史文化维度下,月湖、文化、历史、音乐、琴台、剧院、知音、艺术等词的共现频率高,表明历史故事、建筑及湖泊是体现历史文化服务的主要渠道。同时特色、建筑、人文、音乐等还具有高点度中心度和高接近中心度,表示特色历史建筑和音乐是历史文化服务感知的重要方面。6)在科普教育维度下,菊花、菊展、品种之间,植物和植物园,志愿者、活动、主题、服务之间的共现频率较高,主题、活动、记者、植物等词的3类中心度均较高,而群聚系数较低,表明科普教育服务主要体现在开展与植物相关的主题活动、菊展科普及志愿活动上,3类活动均较独立。
图3 生态系统文化服务感知社会网络分析图
2.4 生态文化服务感知频率分析
统计各类生态系统文化服务感知频率(图4),总体来看,公众对湖泊公园的休闲娱乐服务(26.85%)和审美体验服务(23.48%)感知频率明显高于其他服务,对科普教育服务(9.83%)的感知频率最低。分析公园中各类服务感知频率差异,可知:1)在审美体验服务上,西北湖公园(47.10%)感知频率最高,而紫阳公园(9.06%)感知频率最低;2)运动健康、社交互动和历史文化服务感知在各公园间存在巨大差异,其中月湖公园的运动健康(4.31%)感知频率最低,而紫阳公园的社交互动(30.72%)和月湖公园的历史文化(46.72%)感知频率远高于其他公园;3)科普教育服务很少被公众感知到,除沙湖公园和紫阳公园外,其余公园的感知频率均小于9.83%。
图4 湖泊公园生态系统文化服务感知频率分析
对各服务进行相关性分析,结果显示(图5),多数服务之间为正相关,但相关程度大都较弱,其中审美体验和运动健康及科普教育服务之间、科普教育和社交互动服务之间呈轻度正相关。少数服务之间存在负相关,历史文化和运动健康之间呈高度负相关;审美体验与历史文化之间呈中度负相关。
图5 湖泊公园生态系统文化服务感知相关性分析
2.5 生态系统文化服务感知满意度分析
表3为各类服务的情绪类型感知占比统计结果,可知在6类文化服务中,高度积极情绪占比均大于80%,表明公众对于湖泊公园文化服务的态度是高度积极的。利用各情绪类型占比和所对应满意度分值的和积来计算各类服务的感知满意度,结果如图6所示。综合来看,湖泊公园在审美体验服务(4.83)的满意度最高,表明美景欣赏对于公众使用有较大影响。社交互动(4.63)和科普教育(4.70)的满意度相对较低,经过分析发现公园内举办科教活动的质量低及人为对湖泊环境的破坏是科普教育服务满意度低的主要原因;而游乐设施的丰富程度和公园管理制度对于社交互动服务的感知有重要影响。对各公园的满意度差异进行详细分析可知:1)沙湖公园和月湖公园的各项服务满意度均大于4.8,表明了公众对2个公园在生态系统文化服务上的认可;2)宝岛公园和后襄河公园的休闲娱乐服务满意度较低,主要是园内的卫生环境污染及路灯年久失修所导致;3)在运动健康服务上,发现园路流畅度欠缺且维修不及时对跑步、骑行等运动开展有一定影响,而后襄河公园在该方面仍需加强;4)在社交互动服务上,有半数以上的公园满意度低于4.63,同时菱角湖公园的历史文化和科普教育服务满意度最低。
表3 湖泊公园生态系统文化服务的情绪类型感知占比
2.6 感知满意度对比检验
根据相关统计报告显示[22],中国网民年龄在20~49岁的占75%以上,考虑到网络用户以青年群体居多,且未能覆盖到所有使用人群,在体现各年龄层次人群感知上存在局限性。因此,于2022年10—11月选择位于武汉市老城区的紫阳公园进行实地问卷调查,对比网络数据结果,验证数据准确性。研究共发放200份问卷,回收168份有效问卷,受访者对各项服务进行满意度1~5分评分,1表示“非常不满意”,5表示“非常同意”。对问卷数据进行信度效度检验,Cronbach'sα系数为0.779,KMO和Bartlett球形检验值为0.702,信度效度良好。此次受访者的年龄分布为18岁以下(1.79%)、18~25岁(11.31%)、26~45岁(28.57%)、46~60岁(33.93%)及60岁以上(24.40%)。对比2组数据,并通过Kruskal-Wallis检验和基于Holm的多重比较,对中老年群体、青年群体和评论数据进行深入分析,结果显示(表4):问卷满意度总体平均值略低于网络评论数据,对于历史文化和科普教育2项服务的感知差异较显著(P<0.01),其余服务显著性较低(P<0.05)。从不同人群来看,青年群体较中老年群体来说,与评论数据的大部分服务满意度差异性较小,表明评论数据在一定程度上可以反映青年群体的真实感知;中老年群体在科普教育和历史文化服务上满意度显著低于青年群体(P<0.01),运动健康服务满意度高于青年群体(P<0.05),其余服务无显著差异。综合来看,问卷数据与评论数据间存在一定差异性,不同年龄段群体因使用需求和活动类型的不同对文化服务感知满意度有一定影响。
表4 紫阳公园生态系统文化服务感知满意度对比
3 结论与讨论
3.1 结论
以武汉市8个湖泊公园为研究对象,运用LDA主题模型对网络评论文本进行潜在主题挖掘,并结合社会网络分析法和情感分析法,对比问卷调查数据,分析各类服务的感知特征,归纳感知差异。主要结论如下。
1)在感知维度识别上,湖泊公园提供了休闲娱乐、审美体验、运动健康、社交互动、历史文化、科普教育6种服务。
2)在感知频率和感知满意度特征分析上,休闲娱乐和审美体验是湖泊公园的主导服务,且公众对其满意度也较高;而科普教育的感知频率和感知满意度均为最低,运动健康、社交互动和历史文化在各公园中均出现感知差异,各服务之间存在一定的权衡和协同作用;对比问卷数据,运动健康、历史文化和科普教育的感知满意度有一定差异,且不同年龄段群体的感知满意度也呈现特异性。
3)在感知差异因素分析上,公园可达性和园内设施是否收费是影响休闲娱乐服务的主要因素;由园内特色花卉形成的美景是公园内审美体验服务的主要来源;园内的基础设施年久失修对社交互动和运动健康2项服务有一定影响;而公园科教活动举办的质量及人为对湖泊环境的保护对科普教育服务感知起着至关重要的作用。
3.2 讨论
基于对武汉市8个典型湖泊公园的生态系统文化服务感知量化研究,提出以下改进建议。1)加强开展公园科教主题活动,促进自然教育。建设湖泊湿地生态科普平台,完善园内的科普宣传设施,引导公众自主参与;根据园内特色花期,定期举办特色植物主题展览;同时集结周边教育资源,鼓励研学活动。2)充分利用湖泊的文化背景和周边文化资源,大力建设文化景观。湖泊公园是城市公园的独特类型,其水文化具有鲜明特色,利用地方志中记载的典故和湖泊文化进行有机结合,对重要文化节点进行提升改造;重视周边历史文化资源,如博物馆、纪念馆等,联合举办相关主题文化展览活动,促进历史文化传承。3)完善公园基础设施配置,提升生态环境质量。完善园内道路系统、夜间照明设施、健身设施等基础设施修建;加强湖泊水质管理和公园绿化建设,为公众创造干净舒适的公园环境,优化公园文化服务供给。
将多种自然语言处理技术运用于网络评论数据处理分析,并结合部分实地调研数据进行验证,为生态系统文化服务量化提供了一种新思路。研究得出,湖泊公园的休闲娱乐和审美体验服务更容易被公众感知,历史文化、社交互动和运动健康服务次之,而科普教育服务最不易被感知,该结论也在多数同类研究中得到证实[23-24]。网络评论数据由于用户信息不明,在探讨不同年龄段人群的文化服务感知差异方面仍存在局限。本研究在以紫阳公园为例的实地调查中发现:1)涵盖多年龄段群体的问卷数据总体满意度略低于以青年群体为主的网络评论数据,分析其原因是问卷数据易受调研人员引导影响[13]90,同时问卷数据量相对网络评论来说较小,其真实性有待提升,而网络评论数据具有强烈的自发性且时间跨度长,更能反映使用者的真实感知;2)2组数据在运动健康、历史文化和科普教育3项服务感知满意度上存在一定差异,该结果也与其他相似研究结论一致[25]。经分析其原因有三方面。(1)中老年群体和青年群体在文化服务上关注点不同造成感知满意度有较大差别,中老年群体对运动健康服务关注度更高,且园内健步道、健身设施、广场等场所可满足其运动需求;而青年群体的活动需求更加多样化,对于园内各项服务体验更全面。(2)2类群体的受教育程度具有一定差异,青年群体受教育水平相对更高,对于园内历史内涵、文化底蕴和科教活动等的了解更加充分,因而对历史文化和科普教育2项服务评分略高。(3)受新冠疫情影响,园内各类科普活动和文化展览开展较少,导致游客无法有更好的直观体验,因而满意度有所下降。同时,2组数据在休闲娱乐、审美体验和社交互动服务上差异较小,表明不同人群对于这3类服务的感知和评价标准差异不大。
本研究基于LDA主题模型,运用多种方法量化湖泊公园生态系统文化服务感知差异,对比发现,网络评论数据在一定程度上可反映大部分使用者的真实感受。但生态系统文化服务感知的影响因素丰富多样,使用者的性别、年龄、教育背景、职业等个人特征和公园内景观结构、服务设施等客观属性均会影响感知结果。因此,在今后研究中可将多源大数据和实地调查结合,充分考虑全年龄段人群的需求,对生态系统文化服务的感知差异及其影响机制进行更深入、全面的探讨。
注:文中图片均由作者绘制。