APP下载

基于文本挖掘的城市景区密集人群风险感知*

2022-06-17华,孔

中国安全生产科学技术 2022年5期
关键词:密集人群景区

李 华,孔 娇

(西安建筑科技大学 资源工程学院,陕西 西安 710055)

0 引言

随着人们对美好生活需要的增长,节假日旅游成为社会热点活动,景区密集人群的安全管理已然成为公共安全领域的热点、难点问题之一。2019年新型冠状病毒肺炎疫情爆发,使得旅游业遭受重创。随着国内疫情防控措施的有效实施,旅游业开始复苏。2021年“五一”小长假期间,西安旅游客流量迎来爆发式增长,各大景区累计游客接待量连创新高,其中大唐不夜城景区接待游客177万人次,同比增长143%[1]。

网络评论数据是影响旅游者做出出行决策的重要因素之一。网络评论客观地反映旅游者对景区旅游安全管理的真实感知,影响潜在旅游者的出行决策和景区的安全管理状况。随着数据挖掘技术的不断深入研究,文本挖掘技术能够充分挖掘文字中潜在且有价值的信息,该技术已成为分析网络评论数据在内的文本评论数据的重要方法。

2005年,Aguirre[2]运用社会心理学理论分析突发事件中的恐慌情绪,发现群体恐慌的产生与群体内部成员、群体的密度、群体与群体的关系等因素相关。Uur等[3]从TripAdvisor论坛检索了约7.5万条评论并采用文本挖掘技术展示新型冠状肺炎疫情大流行期间游客的反应。2010年,孟博等[4]率先建立风险感知理论模型,通过分析提出风险感知是公众在面对风险时形成风险判断和行为态度的基础。赵岑等[5]构建暴雨灾害风险感知评价三级指标体系进行游客暴雨灾害风险感知评价研究。李华等[6]指出景区密集人群的风险路径为自由移动阶段→人群滞留阶段→局部聚集行为→人群拥挤阶段→对抗行为。随着大数据时代的到来,突发事件背后的公众风险感知大数据成为获取公众心理、情绪和诉求的重要渠道[7]。徐选华等[7-8]通过TF-IDF算法提取并量化公众风险感知,建立大群体应急决策质量打分函数,探讨公众风险感知对应急决策质量的影响。陶鹏[9]构建1种文本大数据与扎根理论相结合的方法,分析研究政府风险管理的使用偏好。

国内外关于风险意识研究多以宏观角度分析风险状况,以事故发生为出发点考虑人员行为为主。鉴于此,本文以文本大数据为基础,从微观角度在分析公众风险意识的基础上,进行城市景区密集人群风险感知研究。运用文本分析方法,提取影响密集人群风险感知的主题及关键词,对风险感知规律进行分析;基于计划行为理论,构建城市景区密集人群风险感知影响因素模型,明确密集人群风险感知风险影响因素的作用规律,从而找出游客对景区密集人群风险感知的关键特征。

1 研究方法

1.1 文本分析

1)潜在狄利克雷分配(LDA)

潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型是1种文档主题生成的3层贝叶斯概率模型,包含词语(word)、主题(topic)和文档(document)3层结构。其按照概率分布的形式给出文档集中每篇文档的主题,属于1种非监督机器学习技术,能够识别文档集或者语料库中潜藏的主题信息[10]。1篇文档中每个词语出现的条件概率计算如式(1)所示:

(1)

2)词向量模型(Word2Vec)

通过LDA主题模型提出文本主题及关键词,进而采用主题词向量法获取主题与关键词之间的关联关系。Word2Vec词向量模型是1种无监督的神经网络结构,包括CBOW和Skip-gram 2种神经结构。Word2Vec模型训练结果将关键词映射成词向量,而词向量的余弦值可以用来表示关键词的语义相似度,余弦值越大,关键词在语义上越相近,关键词的关联关系越大,即相关度越大[11]。关键词wi,wj间的相关度计算如式(2)所示:

(2)

式中:Wi,Wj为词向量;xik是Wi在k维上的向量值;xjk是Wj在k维上的向量值;cos(Wi,Wj)是词向量Wi,Wj的余弦值,即为关键词wi,wj的相关度。

主题zi,zj间的相关度计算如式(3)所示:

(3)

式中:Zi,Zj为主题词向量;yik是词向量Zi在k维上的向量值;yjk是Zj在k维上的向量值;cos(Zi,Zj)是主题Zi,Zj的余弦值,即为主题词zi,zj的相关度。

3)语义网络

本文建立的LDA和Word2Vec模型通过推断的主题词概率或特定的术语频率规则来选择主题及关键词,确定主题及关键词之间的关联关系。然而,由于上述计算主要基于关键短语的频率,不能捕捉关键短语的潜在含义。因此基于网络的主题关键短语抽取结果采用语义网络来确定关键短语的语义关系,得到主题共现矩阵Q如式(4)所示:

(4)

式中:Q为主题共现矩阵;qij为第i个和第j个主题间相关度。

1.2 研究样本与数据收集

大唐不夜城位于陕西省西安市大雁塔南侧,北起大雁塔南广场,南至唐城墙遗址,步行街全长2 100 m,宽500 m。本文以西安城市景区“大唐不夜城”为例,选取2019年12月31日至2021年5月30日时间段内携程、大众点评、美团3个专业网站上发表的关于此景区的评论作为数据源,筛选后得到1 154条有关密集人群的评论作为有效网络文本。

采用文本挖掘的研究方法,首先通过Python3.7对城市景区密集人群网络评论大数据进行预处理,包括清洗、分词,其次采用无监督机器学习对网络文本语料进行主题提取,通过社会网络分析进行语义网络输出并对其中心性进行分析,根据提取结果分析景区密集人群风险感知规律。文本挖掘流程如图1所示。

图1 文本挖掘流程Fig.1 Process of text mining

2 文本数据分析

2.1 文本预处理

本文数据来源于大唐不夜城景区游记与评论语料,通过对评论进行逐条阅读,筛选关于城市景区密集人群的游记和评论作为数据源,语料规模为130 371字。首先对文本数据进行预处理,由于在线网络评论语言风格较为随意,需要从搜集的语料库中筛除无效评论,如“啊啊啊啊”“!!!”等无价值评论。中文文本之间无空格,采用Jieba分词包对文本进行分词处理,将连续的语句转换为词语,作为文本的组成要素。

分词后需要剔除无效关键词,如“吗”、“是”、“了”、“·”、“哈”、“转发”等,以提高文本挖掘的精度。采用哈工大停用词库并加入具有本文语料库特点的停用词,构建匹配本文的停用词库进行去除停用词,获得15 912个关键词。

词云代表语料集中关键词的词频,通过文本分析自动创建所展示的关键词。在文本中出现频率较高且突出度较高的词语在可视化中会显示为较大的字体,可用于突出重要术语或引起注意。其作用不仅限于在视觉上为演示增色,并且可以更加直观地介绍主题,展示语料集中高频词的全貌。因此,词云是游客风险感知和评论趋势的初步示意。采用WordStat软件生成主题及关键词词云如表1所示。

表1 主题关键词提取结果及词云展示Table 1 Results of topic keywords extraction and word cloud display

2.2 LDA主题提取

将预处理得到的文本文件利用LDA主题模型的类属主题提取功能,构建评论主题的LDA主题模型。设置主题数目K为9,主题有“常规表演”、“外部交通”、“游览时段”、“游览线路”、“网红表演”、“商圈”、“游览密度”、“景区”、“文化”,设置展示每个主题出现频率最高的10个关键词。同时将每组主题中的关键词进行词云图分析,如表1所示。

这9个主题及其关键词所组成的语义网络体现了个体在城市景区密集人群情境下对于风险的态度流露或表现,即个体的风险感知偏好。风险感知偏好通过对个体信息取舍作用形成认知偏差,影响风险感知,进而影响个体行为的产生[12]。因此,风险感知偏好作为风险感知的前因变量[13],影响着个体的风险感知严重性与风险感知可能性,即风险感知程度,而主观规范、行为态度及知觉行为控制作为结果变量,体现了风险感知对于行为结果的负向作用。

3 城市景区密集人群风险感知模型

3.1 模型构建

风险感知是指个体在当下所处的环境下,对风险的主观评定和判断以及由此引发的行为决策与心理反应。通过文本分析方法提取主题与关键词及二者间关联关系,为进一步明晰城市景区密集人群风险感知对个体行为决策与心理反应的作用机理以及影响路径,本文借鉴计划行为理论(Theory of Planned Behavior,TPB),将风险感知变量引入计划行为理论,构建密集人群风险感知影响因素的TPB模型,揭示个体对于城市景区密集人群风险感知及行为特征的作用规律,如图2所示。

图2 基于TPB的密集人群风险感知影响因素模型Fig.2 Model of influencing factors of dense crowd risk perception based on TPB

3.2 城市景区密集人群风险感知模型逻辑结构

计划行为理论中的实际行为是个体在城市景区密集人群情景下采取的具体应对行为。行为意向是个体在城市景区密集人群情景下采取某种行为的主观判断。行为态度是个体对密集人群景区风险的严重性与可能性感知。主观规范是个体参照密集人群防控措施及景区管理规范带来的行为规范。感知行为控制即个体的风险应对经验以及预期的阻碍,个体经验越丰富、预期阻碍越小,则感知行为控制越强烈。行为态度体现了个体对于风险的感知程度,其作为中介变量对于行为意向的影响相较于其他2个因子相对较弱。个体风险感知严重性与风险感知可能性对个体行为态度有直接的负面影响,从而间接影响行为意向。

个体在城市景区密集人群情境下产生的实际行为是行为意向的外在表现。行为意向决定实际行为,而行为意向由主观规范、行为态度和感知行为控制3个要素所决定。文献[14]研究表明,个体风险认知水平越高,内心越容易产生恐慌感从而对个体的应对行为产生一定的消极影响。如果能够控制不安全行为的发生,减少其数量,必然会降低事故发生的可能性[15]。综上,使得个体在密集人群情景下的风险感知强度处于稳定较低水平,避免公众产生消极行为,将降低踩踏事故发生的可能性。

3.3 密集人群风险感知主题的共现规律

本文从个体风险感知水平的影响要素入手,通过分析语料集中密集人群风险感知主题的共现规律,明确密集人群风险感知偏好的作用规律。共现分析是统计词语在同一文本中出现的次数,通过词语间的共现关系反映语料集的主体内容,从而挖掘出语料集中的隐含信息。

1)主题共现规律

通过式(3)计算主题的相关度,进而根据式(4)得到风险感知主题共现矩阵,如表2所示。

表2 风险感知主题共现矩阵Table 2 Co-occurrence matrix of risk perception topics

利用Ucinet软件将主题词分析结果进行可视化分析,构建语义网络。将上述共现矩阵导入Ucinet软件,选择NTEDRAW可视化功能,得到风险感知主题语义网络结构图,如图3所示。由图3可以看出,越靠近中心的主题词,重要度越高;主题词关联线越粗,则关键词关联关系越明显。

根据风险感知主题共现矩阵,其中心度是表示关键词在语义网络中重要程度的重要测量指标,关键词越靠近中心则表示该关键词越重要[15]。根据Ucinet软件计算结果输出主题中心度如表3所示。

由图3和表3可知,主题重要度排序由高到底依次为“网红表演”、“景区”、“外部交通”、“游览线路”、“游览密度”、“游览时段”、“常规表演”、“商圈”、“文化”,其中重要度最高的是“网红表演”主题,即核心影响因素,即游客前往游览的核心吸引力。“常规表演”、“商圈”、“文化”主题的特征向量中心度处于较高水平,这表明其在网络中的连接节点较为重要。

图3 风险感知主题语义网络结构Fig.3 Semantic network structure of risk perception topics

表3 主题中心度Table 3 Centrality of topics

2)关键词共现规律

选取每个主题强度最高的3个关键词进行共现分析构建语义网络,得到城市景区密集人群风险感知关键词语义网络结构,如图4所示。计算输出关键词中心度如表4所示。

表4 关键词中心度Table 4 Centrality of keywords

图4 风险感知关键词语义网络结构Fig.4 Semantic network structure of risk perception keywords

3.4 结果分析

1)网红表演主题。该主题的中介中心度为19.964,其重要度在主题重要度中最高,说明此主题是该景区密集人群情境下个体风险感知来源的核心要素。同时该主题特征向量中心度为28.146,该主题在网络中对于其他主题的影响较小,这得益于景区管理部门制定的行为规范对个体主观规范的约束,进而对个体实际行为产生正向影响。其中,“演出”中心度最大,因此可通过提高热门表演管制力度,加强个体主观规范对个体实际行为的正向影响,避免游客因受热门表演的吸引而导致出现人群滞留、局部聚集等危险状态。

2)景区主题。该主题中介中心度为18.199,仅次于网红表演主题,是个体风险感知来源的关键要素之一。其中,“小吃”的中心度最高,该景区由于其丰富多样的小吃及较高的性价比,是该景区对游客的重要吸引力。

因此可以通过加强对餐饮安全的管理力度,增强其感知行为控制。同时,“高峰”及“引导”关键词体现了游客对于人员密集区域的引导指示标志、广播语言播报具有较强的心理需求。因此,指示标志及广播语音播报的有效引导将提高个体感知行为控制,降低游客对于人员密集景区夜游风险的感知强度。

3)外部交通主题。该主题中介中心度为16.361,特征向量中心度为32.611,可见交通风险是游客风险感知的重要来源之一,且该主题在网络中对于其他节点影响较大。其中,“公交”和“疫情”的中心度最高,可知游客通常采取公共交通方式到达景区,经调研发现,景点附近的公交地铁普遍于23∶00~24∶00停运。可通过增加附近路段晚间配车、增设停车位数量等措施,提高行为态度对个体实际行为的正向影响。另外,提取的旅游评论仍处于疫情期间,个体对疫情的担忧及密集区域的恐惧是其感知行为控制的主要来源之一,因此,景区应提高疫情防控措施实施力度,加强个体感知行为控制对其行为的正向影响,降低不安全行为发生的可能性。

4)游览线路主题。该主题的中介中心度为16.361,特征向量中心度为32.611,可见游览线路主题对于其他主题节点具有较强的影响。“步行”的中心度最高,游客通常选择自北向南步行游览。景区可根据游客行进轨迹,在游客易滞留区域提高安保人员密度,正确引导“人流”,提高个体主观规范对实际行为的正向影响。

5)游览密度主题。该主题的中介中心度为16.361,表明该主题是影响游客风险感知水平的重要要素之一。其中,“游客”和“戴口罩”的中心度最高,是游览密度主题的关键要素。节假日该景区的人群密集度水平对游客游览意向产生影响。加之,游客普遍对于疫情风险具有较强风险认知。这就要求景区管理部门对疫情防控措施有效落实以及对高密度区域有效疏导,从而正确引导游客行为态度,提高个体行为态度对实际行为的正向影响。

6)游览时段主题。该主题中介中心度为15.037,特征向量中心度为34.437。“灯光”的中心度最高,并且与其他关键词联系度较高。由马斯洛需求层次理论可知,人类对于光照的需求是维持自身生存的最基本需求,且在强光下游客极易产生眩光等应激反应。作为夜游特色景区,注意完善景区内道路光照强度及临近景区道路的照明问题,可降低风险感知强度对个体行为态度的影响,从而对实际行为产生正向影响,避免不安全行为的产生。

7)常规表演主题、商圈主题、文化主题。其主题特征向量中心度均为36.138,处于较高水平,其丰厚的历史文化及特色建筑使其作为游客体验盛唐文化的首选地。在网红经济带动下以大唐不夜城为中心形成了一体化商圈,“剧院”、“音乐厅”、“电影院”等基础设施同时将本地游客锚固在大唐不夜城景区周边。故以大唐不夜城为中心的商圈不仅是外地游客节假日的旅游打卡地,同时承载了大量本地游客。根据乐观偏差原则,在面对风险时,景区熟悉程度更高的本地游客通常感知到较低的风险暴露水平。而风险暴露水平的降低会激发乐观偏差,进而引发不安全行为[16]。因此,景区应加强外部约束,提高个体行为规范对实际行为的正向影响。在考虑其承载能力的前提下通过增强夜间限力度、周边交通疏导力度、节假日限流力度等措施,约束各街区热门表演局部密集人群的人流密度,是减少个体不安全行为的重要措施。

4 结论

1)以文本大数据为基础采用计划行为理论对城市景区密集人群风险感知进行系统研究,构建出城市景区密集人群风险感知影响因素模型。研究表明,降低个体在密集人群情景下的风险感知水平,避免公众产生消极行为,将降低踩踏事故发生的可能性。

2)对主题进行共现规律分析进而明确密集人群风险感知主题对个体风险感知的作用规律,发现核心风险感知偏好主题为网红表演主题。因此景区管理部门应重点针对其热门表演做好风险预判,通过提升景点周边配套设施及夜间交通管控力度等措施,降低个体风险感知强度,减少个体不安全行为的产生。

3)本文建立的风险感知影响因素模型,综合考虑出行游客、景区管理部门、密集人群风险管控部门三者的风险问题,可以完善城市景区密集人群风险管理和风险沟通机制,使参与人员密集景区服务的有关主体之间能够就风险问题展开沟通和交流,从而有效地管理风险。

猜你喜欢

密集人群景区
耕地保护政策密集出台
云南发布一批公示 10家景区拟确定为国家4A级旅游景区
密集恐惧症
糖尿病早预防、早控制
『摘牌』
“摘牌”
某景区留念
我走进人群
财富焦虑人群
做个Patty万人迷