APP下载

基于内容分析的西安遗址公园服务功能定性测度

2022-04-14张立志高宇斐

建材与装饰 2022年10期
关键词:词库词频星级

张立志,高宇斐,边 兴

(山西省城乡规划设计研究院有限公司,山西太原 030000)

1 西安遗址公园服务功能评价的方法构建

基于网络文本分析的遗址公园服务功能研究思路如图1 所示。

图1 基于网络文本分析的遗址公园服务功能研究思路

1.1 数据来源

传统的公园绿地服务功能的评价获取数据的方法上,多局限于以问卷调查为基础,问卷调查过程费时费力,调查样本量小、时间集中、代表性差。网络文本数据(社交网络数据)不仅具有大数据的5V 特性,即数据规模大、数据变化快、数据真实性高、数据种类多、数据应用价值高的特点,而且具有针对性强的特点。特别是游客在旅游结束后会对旅游目的地进行文字评论,大部分评论还具有主观评分的功能。

本文选取携程网、大众点评和马蜂窝作为本次调查研究的样本数据。携程网是中国目前最大的在线旅游服务平台,2010 年成立的携程网为游客提供了一个分享的公共平台。携程网站文本具有信息量大、资料集中、随时获取、真实客观的特点,适合本次研究的数据来源。

1.2 数据爬取与清洗

为了数据有效性,本次数据爬取时间选择在2022 年2 月7 日,爬取方法为利用Python 网络爬虫工具,检索“西安遗址公园”得到的评论数据。通过人工筛选,共得到西安15 个遗址公园的评价信息11524 条,超过66.4 万字,数据包括点评文本内容、评价星级(1~5 星)等。抓取评论日期主要集中在2022 年1—2 月。

将爬取得到的数据进行结构化处理,按照评价星级、评论文本、评论时间等游客行为信息进行整理,对无效和缺失的数据进行删除,最后形成西安遗址公园评价数据库。其中,大明宫遗址公园、大唐芙蓉园、华清池的评价信息最多,分别为3009、2999、3000 条,秦二世陵遗址公园点评数量最少,为13 条;木塔寺遗址公园、曲江池遗址公园、唐城墙遗址公园平均星级较高,分别为4.67、4.51、4.49 星,秦二世陵遗址公园、大明宫遗址公园、大唐芙蓉园平均星级较低,分别为4.23、4.22、4.05 星。统计各公园的平均星级和评论量,如图2和图3 所示。

图2 西安15 大遗址公园评论数量和平均星级

图3 西安15 大遗址公园星级评论数量和占比

1.3 数据分析

在数据分析上,采用ROST Content Mining6 软件对文本数据进行分析。RCM6 软件是武汉大学沈阳教授研发的一种基于内容挖掘系统的软件,主要针对网络上的相关网站信息的统计分析,对文本资料进行分词处理、高频词汇的统计,以及聚类、相关性分析、相似性、情感分析、共现、时序等分析,分析结果构建语义网络、社会网络、关系网络等。

2 西安遗址公园服务功能评价的影响因素

2.1 特征词频分析

RCM 中具有自定义文本词库,它是用于文本分析的特征词集合。自定义文本词库分为3 个分词库,即特征词库、归并词库和过滤词库。特征词库是文本词库的核心。为了找到游客对遗址公园服务功能评价的影响因素,本文特征词库主要设计了三类特征词型:吸引物名称词、旅游行为词与旅游形象描述词。

笔者根据游客的评论数据对应的星级,提取星级分为4、5 星的评价和星级分为1、2 星的评价进行预处理,首先进行归并词库:将地名、景点等专有名词同一表述转换为统一表达;其次,完善特征词库:将景区内相关的地名、商铺名、遗址遗迹的名城纳入ROST 软件的自定义词典,使专用名词“大唐芙蓉园”、“含元殿”等能够被识别;最后,修改过滤词库:过滤掉无意义的词汇,如“这样”“觉得”等词。

根据哈佛大学教授G.K.齐普夫所提出的词频分布定律(law of distribution for word frequencies),该定律认为文章中单词的频次(f)与其排列的序号(r)之间有固定的比例关系,即如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r 和其出现频次f 之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3,…)。通过对大型郊野公园评价前20 词频排序,词组序号和词频的乘积都在2500 上下浮动,符合词频分布定律,说明对网络词频的统计是有意义的。

根据大遗址公园评价前40 词频排序(表1),结合对文本原文的分析可以发现,正面评价集中于旅游景点、公园环境、文化活动、文化氛围等方面,负面评价集中于门票价格、游憩交通、陈展设施、导游服务等方面。

表1 大遗址公园评价前40 词频排序

将词组按频次大小顺序排序,取前1500 位(图4),发现结果符合统计学的帕累托分布(Pareto,又名二八定律)和长尾特征((Long Tail Keyword)。用“长尾特征”来解释游客需求词频分布,即单个冷门需求频数较少,但需求类型非常广泛,因此,只需要取前300(20%)词进行研究就能涵盖80%的主体需求。

图4 西安15 大遗址公园前1500 词频分析长尾特征

综上所述,游客对遗址公园服务功能评价的影响因素归纳为以下7 大方面:文化氛围、文化活动、旅游景点、景观美学、导游服务、旅游管理、游憩交通。根据词频分析高频词汇结合前期现状详细调研,构建7 大因素的特征词库。

2.2 语义网络分析

高频词通过提取词组的本质属性来反应事物的主要领域,但其局限性在于无法反应词组在意义上的联系和文本的深层次结构关系。语义网络是通过概念和语义关系来表达知识的一种网络图,由一组节点和一组节点的弧构成,其中节点用来表示事物、概念、属性、动作、状态等,弧用来表示所连接的节点之间的语义联系。共现词词频是高频词组在文本形成时内在的逻辑关系共现次数,基于共现词词频结果可以构建文本的语义网络。

将上述得到的词频分析进一步进行语义网络分析,生成正面语义网络(图5);负面语义网络(图6)。节点词汇代表高频高频要素,节点越靠中心,频数越大,节点间的连线代表共现频率的高低,线条越粗代表共现频数越高,两个概念的关系越密切。

图5 西安15 大遗址公园正面语义网络

图6 西安15 大遗址公园负面语义网络

3 结语

“西安”“遗址”“公园”历史”“文化”“大明宫”等是正面语义网络图中的重要节点,同时“西安—大唐芙蓉园—晚上—演出”“大明宫—遗址—电影—感受—大唐—盛世”和“西安—事变—华清宫—杨贵妃—历史”是三条重要的关系链,表明大唐芙蓉园内晚上演出、大明宫遗址公园内的IMAX 电影和华清宫内的历史典故给游客带来强烈感知并且评价较高[1]。

“西安”“景点”“门票”“不值”“性价比”“大明宫”等是负面语义网络图中的重要节点,同时“西安—景点—门票—不值”“景点—导游—讲解”和“公园—演出—晚上—不值”是三条重要的关系链,表明景点内门票性价比、景点导游讲解和公园内晚上演出给游客带来强烈感知评价较低。

猜你喜欢

词库词频星级
基于词频比的改进Jaccard系数文本相似度计算
一“吃”多用
输入法词库取证比较研究
唐DM 智联创享型
大指挥官 2.0T四驱臻享版
风行T5 1.5T CVT 230T智享型
词汇习得中的词频效应研究
输入法词库乾坤大挪移
词频,一部隐秘的历史
光明《留学》诚信星级评选前30名好评机构上榜