APP下载

基于词频分析的微博点评与旅游点形象定位差异研究

2020-08-07白刚莫雅兰

现代计算机 2020年18期
关键词:词频词条分词

白刚,莫雅兰

(桂林旅游学院旅游管理学院,桂林541006)

0 引言

随着互联网和通信技术的高速发展,社交网络已逐步成为人们日常生活中不可或缺的部分[1]。在大数据时代,每天用户都在社交网络上创造海量的数据,这些基础数据为社会经济发展提供了可靠的研究样本。

微博,作为起步早、用户量庞大的社交平台,汇聚了大量的针对城市旅游点的信息,该信息包括地理位置、用户点评信息、点位标签等数据。对例如桂林等旅游城市来说,用户点评的内容聚焦与旅游点本身传达的定位是否相符,可以从大量的点评数据中可以分析出来,进而为旅游点提供决策参考。

1 微博点评内容获取

1.1 获取方法

微博的数据具有空间非连续、数据离散以及数据量大等特点,其中的点评数据仅占总体数据的小部分,且相对分散,需要利用数据采集方法对数据进行采集。

本研究中微博点评内容的获取采用爬虫爬取的方式,获取对象为微博位置的相关地理标签,如桂林漓江风景区、独秀峰王城、芦笛岩等。本文进行对比分析采用的样本标签为“桂林·桂林漓江风景区”。采集时间段为2019 年7 月12 日至2019 年7 月17 日,该时间段为桂林旅游旺季,游客类型涵盖面宽,样本代表性强。

1.2 采集结果

爬虫采集结果存入Excel 文件中,包含多个字段,格式如图1 所示。

由于本次研究为词频对比分析,所以仅使用微博正文内容,也就是评论部分。评论部分采集的内容包含一些固有的对采集过程有用但无分析价值的信息,例如“桂林·桂林漓江风景区”此类的地点标签。

删除掉地点标签等固有内容,最终可用的条目为959 条,共计119412 字。用户来源地包括澳门、北京、福建、广西、重庆等32 个省市地区,地理覆盖满足分析要求。用户微博数量从37734 到1 篇,粉丝数从34 万到15,说明采集到信息的微博用户活跃度高低不等,样本用户网络行为多样性较高,能够为研究提供较好的代表性。

表1

2 分词及词频分析

2.1 算法逻辑

在自然语言中,词是最小的能够独立活动的有意义的语言成分,分词,就是将句或段的自然语言切分成最小的有研究意义的单位。

本研究中的样本内容基本都是中文,所以涉及到中文分词。中文分词具有一些英文分词不具有的难点,包括汉语是以字为单位,不像西方语言,词与词之间没有空格之类的标志指示词的边界,分词规范、词的定义还不明确,歧义切分问题,交集型切分问题,多义组合型切分歧义等。

目前主流的汉语的分词方法主要有三种。

(1)基于字典、词库匹配的分词方法(基于规则)[2]

基于字符串匹配分词,机械分词算法。

(2)基于词频度统计的分词方法(基于统计)[2]

相邻的字同时出现的次数越多,越有可能构成一个词语,对语料中的字组频度进行统计,基于词的频度统计的分词方法是一种全切分方法。

(3)基于知识理解的分词方法[2]

该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

本研究采用的分词方法囊括以上三种,使用Python 的第三方中文分词库jieba。算法流程如下。

图1 算法流程图

2.2 算法实现及应用

(1)切词算法实现代码主要部分

(2)代码应用

以上算法的使用需要带参数,格式为:

其中,-i 后为输入文件,内容为格式化后的点评文本,result.txt 为输出结果文件。

最终对微博评论数据的分词结果,总计字数68743个,词8225 个。

使用该分词结果对微博评论数据进行频次分析,得到最终词频结果。

2.3 点评词频分析结果

词频分析结果输出为文本文件,格式为第一列是分词,第二列是该词在点评中出现的频次数。共切分出词2994 个,频次从900 次到1 次排列。

3 词频结果与旅游点形象定位对比分析

3.1 旅游点形象定位词频分析

对桂林漓江风景区的旅游形象定位词条,选择从桂林漓江风景名胜区旅游官网(http://www.liriver.com.cn/)的宣传文字材料获取,共包括大美漓江、生态漓江、历史漓江等共计45552 字。

对定位词条进行分词及词频分析后,共切分出词1128 个,频次从16 次到1 次排列。

3.2 微博点评与旅游点形象定位词频分析结果对比

对对比结果文本进行升序排序,发现相同词共有15 个,一起、不同、以上、全部、回来、展开、感谢、我们、桂林、桂林山水、漓江、独秀峰、甲天下、画家、西湖,其中以上、全部、展开、感谢、我们等词不具有实际对比分析意义,忽略,对其余词的两组词频进行对比,结果如下。

微博点评词条中,以上词出现的频次如表2:

表2

旅游点形象定位词条中,以上词出现的频次如表3:

表3

由于“桂林”和“漓江”为旅游点固有名称词,微博词条和官方词条中词频都占据首次位,而两者由于样本数量不同出现差异很大,对其他词对此有显著影响,故先删除这两个词,再进行对比。

图2 相同词词频对比

其中,“西湖”一词在微博词条中原文为“桂林叠彩山,灯光效果真的很‘叠彩’。关于自然风景名胜区的灯饰工程设计,大家觉得全国哪个景区做的最好呀?我个人感觉还是杭州西湖,保俶山宝石山,灯光设计蛮匹配西湖的。”,明显可以看出是作为对比词出现。在漓江风景区的定位词条中,“西湖”一词出现在“元代的石刻多为楷书,其中以郭思诚行楷《新开西湖记》为代表。”一句中,此处的西湖为桂林西湖。

3.3 结果分析

微博点评词条中,剔除无对比意义的名词例如“微博”和有重复意义的词后,排序前10 的词如表4:

表4

旅游点形象定位词条中,剔除类似“阳朔”“太白金星”等特殊地域或故事名词等,排序前10 的词如表5:

表5

桂林漓江风景区的官方词条中,除了固有地点名词外,包含了画廊、工程、时刻、文化、整治等词语,与官方宣传的大美、历史、文化、生态等关键词意义相符。微博点评词条中的视频、先锋、音乐含有较明显的新媒体传播意义,更符合互联网思维。另外,我要、分享两词结合对比原文整句,意义集中在心情分享、情感表达方面。

相同词词频对比发现,旅游点官方导向与微博点评词条的分析结果基本相符,切合桂林漓江风景区的山水大美、历史文化等定位,另一方面,“一起”、“回来”等词表达了清晰的群体旅游和重复旅游概念,既有官方推荐,同时游客也自发表达了意愿。旅游点的形象定位和游客的感知大体符合。

但是,结合排序前十的词可以发现,旅游点官方的营销定位更趋于传统化,而游客在微博词条中的表达则趋向于新旅游吸引物的感知,例如视频、音乐等新媒体表达物,这些事物同时具有很强的分享属性,与“分享”一词的出现频次吻合。

4 结语

旅游点的形象定位是由旅游供给方传达的,而游客的感知来自于各种渠道,传达与感知是否吻合,决定了营销是否达到了预想的效果。传统上该测度主要依靠旅游人数的变化来反映。

词频的对比分析提供了一个新颖的方法来研究传达与感知之间的异同,结果能够为旅游供给方提供有价值的营销参考依据。

猜你喜欢

词频词条分词
分词在英语教学中的妙用
利用简单的公式快速分隔中英文词条
结巴分词在词云中的应用
结巴分词在词云中的应用
词频,一部隐秘的历史
汉语音节累积词频对同音字听觉词汇表征的激活作用*
聚焦现在完成进行时