基于网络文本分析的杭州亚运会发展策略研究
2021-07-20屠陈晨陈婉茹潘意静
屠陈晨,陈婉茹,潘意静
(浙江工业大学,浙江 杭州 310000)
伴随着我国社会经济稳健发展、科技创新硕果频结,人民对精神生活的诉求也极大提升。赛事作为人民生活的一部分,在提供赛事观赏、放松的同时,也传递了积极向上生活态度。浙江“努力成为新时代全面展示中国特色社会主义制度优越性的重要窗口”的期待,契合浙江省“十四五”规划和二〇三五年远景目标“推动有效市场和有为政府更好结合,加快构建充满活力的市场经济体制机制”的要求,借助网络提取民众对亚运会的情感倾向和改进建议,对杭州城市的发展具有重要意义。
目前,国内外学者对赛事推广的研究兴趣主要在情感倾向、IP开发、城市品牌等方面,葛霓琳等[1]使用朴素贝叶斯分类和支持向量机对评论情感进行分析,结果表明支持向量机的分类效果较朴素贝叶斯更好;王煜涵等[2]针对Twitter文本建立基于卷积神经网络的情感分类模型,分类效果对比传统分类方法有显著提升;HOCHREITER[3]提出循环神经网络(recurrent neural network,RNN)模型,通过获取句子之间的长期依赖关系,了解语义信息,从而分析文本情感。朱建明[4]认为发展我国自主赛事 IP 是一条经市场验证的正确道路,他通过解构现有体育赛事IP模型,提出提升IP商业价值积累的理想模型;朱洪军[5]认为在赛事推广阶段可以通过以赛事宣传为主,以城市宣传为辅,实现体育赛事与城市的完美结合,并通过各类赛事巡展活动扩大城市品牌认知度。国内学者主要对整体赛事推广研究较多,但对于大众的具体情感分析的赛事推广策略研究较少,故本文基于BERT模型对杭州亚运会的相关微博正文和评论,建立网络文本法进行词频分析和情感分析,为杭州亚运会推广和体育赛事未来发展方向提供一些建议。此外,杭州市亚运会推广的探索还将为体育强国、文化强国建设提供地方经验。
1.研究地概况
杭州市体育产业初具规模,赛事类型也呈现多元化发展的面貌。经过 33 年培养,有“杭马”这样的国内知名赛事;有国内唯一内河冲浪——钱塘江冲浪,具有不可复制性,并已举办十年;有以常春藤联盟等高校为主的“绅士运动”西湖赛艇。可以说,杭州已经拥有了一批格调较高的知名赛事,也有一批口碑较好的群众赛事,如杭州国际樱花徒步节、杭州城市定向赛、全国百城千村健身气功交流展示系列活动(杭州站)、市第十三届桥牌联赛、市第十届羽毛球俱乐部联赛、市斯诺克排名赛、西湖马术节暨马术邀请赛等。新兴品牌项目如马拉松、内河冲浪、城市毅行赛事项目经过多年深耕运作从小众圈层走向大众市场,马拉松、毅行等大型赛事参与人次超10 万人次,话题度、关注度、参赛热情激增。杭州正力争建设成为“世界赛事之城、运动友好城市、活力休闲之都”。
2018年世界游泳锦标赛和即将到来的2022年亚运会等大型赛事的举办,在场馆建设、赛事组织、市场开发等方面为杭州市体育产业发展带来新机遇。此外,在推进体育事业和体育产业发展的过程中,杭州市体育产业积极探索“体育+互联网”的模式,在公共体育场馆查询、导航、体育赛事报名抽签等事项夸大现代信息技术手段的应用,社会民营体育健身企业也主动运用大数据、互联网等现代信息技术,通过数据赋能,提高传统体育健身行业的经营效率。
2.研究方法
网络文本包括互联网用户以互联网为媒介生产和发布的各类文本、音频、视频等内容。本文中网络文本具体指在互联网交流平台中的正文、评论以及形成双向交流的文本。本文采用网络文本分析法,通过量化网络文本特征词,系统性描述互联网信息内容,并对内容进行情感类分析,推断文本提供者的特定立场、观点、价值等。通过运用深度学习算法对获取的网络文本数据进行高频词分析和情感分析,实现文本分析的目的。
2.1 BERT模型
BERT是Google的Devlin· J等人基于Transformer模型对海量语料进行训练,改进提出的一种自然语言处理(natural language processing,NLP)领域的预训练模型。其采用双向Transformer中的Encoder模块对模型进行搭建,对上下信息进行提取,舍弃了传统的NLP领域的本文处理方法,通过该层对输入的文本信息首先进行特征提取,一定程度上有效地解决了模型并行处理限制以及文本的长期依赖问题。
BERT模型的核心构建整体与Transformer模型一致,通过获取包含上下语义信息的词向量,将词与词之间的联系显性表示出来,再结合句子的上下文信息进一步分析句子的语义信息,对其进行深度学习,去除距离的限制,并且达到并行处理的目的,其网络结构如图1所示。
图1 BERT模型结构图
2.2 数据来源前期处理
本文运用python爬虫技术获取新浪微博等主流交流互动网站上有关“杭州亚运会”和“杭州亚运会赛事”的正文及评论信息,并对数据进行错别字纠正、补齐、合并相同评论等预处理,最终共获得有关“杭州亚运会”485条正文,“杭州亚运会体育赛事”351条正文及共计1155 条网络评论数据。将预处理好的网络文本数据存储在.pyc文件中,运用BERT(bidirectional encoder representations from transformers)预训练语言模型进行文本情感分析。
3.结果分析
3.1 词频分析
调用jieba对收集、整理的文本分词优化后进行词频分析,结合停用词表、情感分析定义词表排除部分无意义词汇后,从文本中共提取出115个关于杭州市亚运会形象感知的高频词汇(表1-高频词汇)。并将这些高频词以词云图的形式可视化展示(图2)。在词云图中,词频越高的词语会以较大的形式呈现出来,词频越低的词语会以较小的形式呈现出来。
表1 高频词汇
跑 203 平台 84 标准 57 杭州市 47建设 198 抽签 84 奖金 57 推进 47城区 189 参加 84 东站 56 开工 47完成 181 关注 82 首批 55 选手 46地铁 165 5G 82 奔跑 55 迎来 46电子竞技 163 文化 78 品牌 55 质量 46城市 132 打造 77 评审 54 组委 46交通 132 信息 76 爱 54 现金 46空气 131 文明礼仪 75 春节 54 工人 46设计 127 健身 75 参赛 54 主题 46提升 126 服务 72 万 54 集团 45浙江 121 施工 72 过年 53发布 121 漩涡 71 道路 52启动 114 拥有 71 试点 52理念 106 元宵 70 新闻 52发展 102 专业 70 创新 51
图2 词云可视化
词云图中一目了然,网络媒介平台中对于“亚运会”“杭州马拉松”“电竞”等项目讨论度居高不下,“场馆”“地铁”“交通”等设施建设关注度较高,“房价”“地段”“空气”等赛后预期讨论水涨船高,“5G”“短视频”等新技术手段、新传播形态也广为热议,也不乏对“上海”“北京”等办赛名城的讨论。总体来看,市民对亚运后城市配套及服务提升、资产增值怀有期待。
3.2 情感分析
基于前文所述的BERT预训练模型,对爬取的1155条评论信息进行情感分析。将80%的数据作为训练集,最初将最大长度设置为512,learning rate设置为1e-6,epochs设置为5,batch_size设置为16,此外,为了防止过拟合,增加模型的鲁棒性,将dropout设置为0.2,使用标准BERT模型训练,对预训练模型做微调,最终获得本文需要的情感分类模型,部分数据打分结果如表3所示。
表3-数据打分结果
亚运会后会放缓 0.35865266没想到是杭州的,加油加油亚运会 0.4121791
4.对策与建议
4.1 赛城融合,塑造城市品牌
网友讨论杭州亚运会时屡屡提到的“上海”“北京”,它们的共性在于成功地将公众对赛事的良好形象转移到了举办城市的形象上[6]。可以说它们是赛城融合的范例,持续带动了观光旅游、消费购物、商务投资,创造了数额可观的财富。杭州亚运会推广也应注重“赛城融合”,可以从特色、趣味办赛入手,开展配套群众性赛事活动;同时注意提炼城市精神融入赛事宣传,形塑城市理念特色,引导群众持续关注亚运会;此外,注意结合杭州柔性美、诗情山水、三个遗产的城市特点,探索“文旅+”“健康+”服务新模式,细致分析运动员、观光人员的驻地、参赛及旅游流线,使推广更具有个性与针对性,塑造城市文化特色让参赛、观赛者留下独特的“杭州记忆”。
4.2 技术赋能,给予新鲜体验
“5G”“直播”“电竞”等新名词反复出现,可见网友对新技术手段、观看形式、赛事内容的期待。作为数字经济名城,杭州亚运会推广应充分运用“数字体育”“城市大脑”等智慧服务,借助情感分析,推广推送网友感兴趣的内容,尽量及时准确地调整网友反馈不佳的内容;抓住马拉松、抓住电子竞技、霹雳舞入选本次杭州亚运会正式项目的机遇,打造趣味话题;积极探索线上观看互动评论新方法,借数字经济赋能赛事运作,运用VR、AR、3D等技术实现智能媒介多元融合推广,提升观赛体验,扩大赛事传播。
5.结论
本文采用文本分析和情感分析方法,首先通过对亚运会相关高频词汇进行分析,观察到网友对城市基建、亚运项目、新技术手段等话题讨论热烈。其次通过BERT深度学习算法对文本评论进行情感分析,了解网民对杭州亚运会的形象感知与情感基调,最终根据上述两部分的分析提出杭州亚运会推广策略:应结合城市形象与亚运特点,走赛城融合,技术赋能道路,将杭州打造成“赛事之城”,宜居之城。