基于文本挖掘的智慧城市建设公众认知研究
2024-02-29梁壮男
梁壮男
(安徽建筑大学数理学院, 合肥 230601)
智慧城市作为一种新兴的城市发展理念与模式,旨在通过新一代信息技术提升城市服务质量以及居民的生活水平,实现城市向智慧化的方向转变[1]。
目前,我国城市正处于新旧治理模式交替阶段。城市的高速发展、人口的极速膨胀给城市治理带来了巨大的挑战,智慧城市建设是我国城市化进程中的重要举措[2],加快智慧城市建设能够有效提升城市治理水平,有助于实现城市的可持续发展。智慧城市的发展以提高公众的生活质量和幸福感为目标,研究智慧城市建设过程中公众的认知情况,能够了解智慧城市的发展趋势,帮助政府和企业更好地理解公众的需求,从而调整智慧城市建设的方向和策略。
1 文献综述
作为城市发展领域的热点,智慧城市相关话题备受学术界关注。近年来,国内外对于智慧城市建设现状的研究涉及政策与治理研究、文献计量分析与发展水平评估等多个方面。郭昊等[3]对中国知网和WoS(Web of Science)数据库关于智慧城市的文献进行计量分析,发现国内外在智慧城市方面侧重点不同,为未来我国智慧城市发展指明方向。Sharma等[4]用潜在狄利克雷分布对发表的文献进行文本分析,梳理智慧城市发展脉络,对智慧城市领域研究的趋势进行总结。李德智和王婷婷[5]利用文本挖掘技术对我国智慧城市政策的主题分布及时空特征进行研究,为未来智慧城市政策制定提供建议。Tariq[6]选取了90个指标代表26个影响因素,从多个维度上比较澳大利亚主要城市的智慧程度与发展水平,根据结果为澳大利亚提供适当的建议,以提高城市的智慧程度。
上述学者对智慧城市建设现状的研究多是对官方或者学术领域发布的相关信息进行研究,缺少从公众认知角度了解智慧城市建设现状。智慧城市建设过程中离不开人的参与,只有充分发挥人的主体作用,才能实现智慧城市的可持续发展,提升城市的整体运行效率和居民的生活质量[7]。在信息技术高速发展的时代背景下,社交媒体以互联网为载体为网络用户提供了一个良好的信息表达渠道[8]。因此,现以智慧城市建设为研究背景,基于微博这一社交媒体平台,运用主题挖掘与情感分析的文本挖掘方法对相关文本数据进行分析,探究公众对智慧城市建设的认知情况,为未来智慧城市建设提供建议。
2 研究设计
利用潜在狄利克雷分布(linear Discriminant analysis, LDA)和基于情感词典的情感分析方法,对智慧城市建设公众的认知现状进行研究。研究框架如图1所示,包括数据收集及预处理、模型建立以及结论与建议3个部分。
2.1 数据收集及预处理
2.1.1 数据收集
将微博平台作为数据源,以“智慧城市”为搜索关键词,运用Python中Scrapy框架爬取自2023年1月1日至10月1日的帖子,最终得到16 835条微博文本数据。爬取的内容包括微博ID、微博正文、发布时间以及点赞数、评论数、转发数等信息。
2.1.2 数据预处理
(1)数据清洗。对文本数据进行清洗的目的是通过消除潜在的噪声源来准备文本语料库,以供后续分析[8]。对于通过爬虫获取的网络文本数据,首先删除本次研究中不需要的信息列,如发布工具、发布位置等;然后删除微博正文中存在的空白博文以及网页链接;最后人工筛查无意义的内容,包括招聘信息、广告等。
(2)分词及去除停用词。文本分词是进行文本分析的基础性工作,借助Python中的Jieba工具包实现中文分词。将与智慧城市相关的新兴词汇添加到自定义词库,如“智慧交通”“数字经济”等。使用精确分词模式,尝试对语句进行最精确的切分,使其不存在冗余数据,提高文本分析的有效性。同时使用停用词列表去除分词后数据集中的无意义字符以及其他出现频率高但对本次研究无意义的词语。
2.2 模型建立
对通过预处理后的文本语料库,利用LDA模型以及情感词典实现主题挖掘与情感分析,研究智慧城市建设公众的认知现状。其中关于LDA模型及情感词典的介绍如下。
2.2.1 LDA模型
LDA模型[9]实际上是一个3层贝叶斯概率模型,其组成结构包括词、文档、主题3种粒度,可用于推测文档的主题分布。LDA模型认为一篇文档有多个主题,每个主题又对应着不同的关键词,可以通过词汇的概率分布来反映主题。其中主题数K是LDA模型中的重要参数,可以由困惑度确定,通常困惑度perplexity数值越小代表模型的训练效果越好。其计算公式为
(1)
式中:Nd为文档d中包括的词语数量;p(Wd,n)为文档d第n个词语的生成概率;D为文档总数。
2.2.2 基于情感词典
情感分析通常被用于从大量的文本数据中提取情感信息,以获得人们的观点、看法、态度等。基于情感词典的情感分析方法是一种常见的基于规则的方法[10],它依赖于一个预先构建好的情感词典。情感词典是一个包含了大量单词及其情感极性(如正向、负向、中性)的词典[11]。具体来说,对于分词后的每个词,可以通过查找情感词典中是否存在该词,并获取其情感极性。
在计算文本的情感倾向时,可以将文本中所有情感词的情感极性进行加权求和,得到文本整体的情感极性[12]。如果总体情感极性为正向,则认为文本是积极的;如果总体情感极性为负向,则认为文本是消极的;如果总体情感极性接近于0,则认为文本是中性的。
3 实证分析
3.1 描述性统计
在2023年1月1日至10月1日期间共产生了16 835条与智慧城市相关的微博帖子,经过数据清洗后共得到15 926条有效数据。其中共有6 765个微博用户,平均每个账号发布2.35个帖子。微博平台中点赞、评论等用户行为一定程度上体现了用户在该话题的参与度,利用Python中Pyecharts工具包绘制用户行为数据时序图,如图2所示。
图2 点赞、转发、评论数量时序图
由图2可知,2023年1—6月公众对智慧城市的关注度相对稳定,在2023年7—9月有部分日期公众的关注度明显增加。同时查看相关文本数据发现用户在微博平台对智慧城市相关帖子的点赞量明显多于转发以及评论。说明在新浪微博平台,网民对智慧城市相关话题有一定的关注度,对智慧城市话题感兴趣,但对相关信息的缺乏讨论。
爬取的数据中包含微博发文的具体时间,因此可以分析各个时段用户的活动强度。以点赞数量为例绘制图3,结果显示在微博平台,平均每天的09:00—11:00以及15:00—17:00是用户点赞人数较多的时段,可以考虑利用此时段通过微博平台推广与智慧城市建设相关的信息,获取公众的想法,提高智慧城市建设过程中公众的参与度。
统计各城市在文本语料库中出现的频率,将所有城市出现的热度值做归一化处理,将热度值最大的城市作为100并进行同比例调整,热度值排名前10的地区见表1。
由表1可知,2023年以来,北京、天津、上海等经济较发达地区,智慧城市建设微博讨论热度相对较高。说明智慧城市的发展离不开经济的支持,在经济发达的省份,对该项目的投入相对较多,成果更加明显,微博讨论热度相对较高。
为了能够更清晰了解在“智慧城市”相关话题中公众讨论的主要话题,对预处理后的微博正文进行词频分析,排名前20的高频词见表2。在基于词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)算法提取的关键词中,选取前500个生成词云图,如图4所示。
在词云图中,所选取的500个关键词,出现的频次越高,字体就越大。由表2和图4可知,“高质量”“发展”“建设”等词占比较高,表现出公众对智慧城市建设具有较高的期待。“数字经济”“数字化转型”“科技”“数据”“产业”等词出现频率较高,说明智慧城市建设过程中离不开这些关键要素,在一定程度上代表了智慧城市发展的方向和趋势。
图3 日均各时段微博用户点赞量统计
表1 2023年1—9月智慧城市各地区微博讨论热度
表2 前20高频词
3.2 主题模型构建
利用LDA模型聚类之前,需要先确定文本主题个数K的值。利用Python中的gensim工具包绘制困惑度曲线,如图5所示。
根据图5可知,当主题数为6时,困惑度最小。利用Python中的工具包可视化LDA主题模型的结果如图6所示。可视化结果中圆圈之间的距离表示所识别主题之间的关联程度。当圆圈之间的距离太近或重叠时,可以看作是一个相似的主题。当主题数K=6时,圆圈之间没有较多重合,因此将LDA模型的主题数量确定为6。
LDA模型提取的6个主题下的20个关键词见表3。根据每个主题所包含的关键词,对每个主题进行概括。主题1反映公众对智慧城市建设中数字经济及相关产业的关注;主题2反映公众对智慧城市建设中相关技术应用及基础设施建设的关注;主题3反映公众对智慧城市建设相关股票市场的关注;主题4反映公众对智慧城市建设中人工智能技术发展的关注;主题5反映公众对智慧城市建设背景下社会民生发展的关注;主题6反映公众对智慧城市建设相关政策及战略布局的关注。分别将其概括为数字经济、技术应用、股票市场、人工智能、社会民生、政策发展。结合LDA主题识别图(图6),可知在6个主题中,主题1占比最高,且主题1与主题2中有部分重合,说明数字经济及相关产业是支撑智慧城市建设的重要组成部分,与相关技术与基础设施的发展相互促进。主题3与主题4也有部分重合,这是因为智慧城市建设相关的股票市场中包括一些与人工智能相关的企业与技术。
图6 LDA可视化结果
表3 主题关键词
3.3 情感分析
BosonNLP情感词典主要来源于社交媒体文本[12],因此使用基于BosonNLP情感词典的方法进行情感分析。实验结果显示,在清洗后的15 926条数据中,有13 236条数据的情感倾向为积极,约占83.1%;1 793条数据的情感倾向为中性,约占11.3%;897条数据的情感倾向为消极,约占5.6%。说明在微博平台中,公众对智慧城市建设基本持积极态度,大部分用户对智慧城市建设的发展是看好的,未来智慧城市建设仍有较大的发展潜力。
由于负面信息在人们的认知和情感上能产生更强烈的影响,为了更好地了解公众对智慧城市建设的看法,对消极情绪文本进行词云图可视化呈现,如图7所示。结合词云图并查阅相关文本数据可知,在智慧城市话题中公众的负面讨论主要集中在以下两个方面:①智慧城市建设成果转化方面,涉及“智慧停车”“联想”等话题。智慧城市建设过程中一些便民设施的设立如果不能确保落实,会导致公众无法享受智慧城市带来的便利和服务,从而引发抱怨。②公众隐私的安全问题。智慧城市建设过程中需要大量的数据采集和处理,存在公众个人隐私被滥用或泄露的风险。
图7 消极文本词云图
4 结论与建议
4.1 结论
选取微博平台2023年1—9月与智慧城市话题相关的在线文本数据,通过LDA主题模型与基于情感词典的情感分析方法对智慧城市建设中公众的看法进行研究,得出以下结论。
(1)当前微博用户对智慧城市话题有一定的关注,多是对相关官方微博的点赞,对相关问题展开的讨论相对较少。且经济发达地区智慧城市的讨论热度相对较高。
(2)公众关注热点围绕数字经济、技术应用、股票市场、人工智能、社会民生以及政策发展6个方面,其中数字经济话题受到的关注最多。
(3)公众对智慧城市发展整体上表现出积极正面的情感态度,消极情绪主要集中在对用户隐私安全以及建设成果共享方面,同时对智慧城市实施难度表示担心。
4.2 建议
基于以上分析结果,对智慧城市建设提出以下建议。
(1)抓住大数据和新媒体时代的机遇,积极利用社交媒体平台,从多个维度展示智慧城市建设的进展和动态,加大智慧城市建设宣传力度,提高公众对智慧城市概念的认知,引发公众的积极讨论。
(2)重点解决公众普遍关注的智慧城市建设热点问题,尤其是公众关注最多的数字经济领域。同时相关部门应密切关注公众的需求,将其作为政策制定和决策的重要依据,以提供更好的公共服务从而满足公众的期望。
(3)政府部门应该及时回应公众对智慧城市建设中存在问题的关注,引导公众理性诉求从而产生更多有效互动。同时拓宽和创新公众参与智慧城市建设的渠道,便于公众及时反映问题,提高公众参与智慧城市建设和管理的效率和效果,推动智慧城市朝着更利于人的发展方向建设。