智慧城市背景下西安市民参与城市治理话题热点识别
2021-09-10成园园刘云忠
成园园 刘云忠
摘 要:采用TF-IDF算法有效处理词频信息,并选择基于LDA主题发现模型的文本挖掘方法,通过web网络爬虫软件爬取“华商论坛”数据,挖掘市民參与西安城市治理的关注主题。分析结果表明:西安市民参与城市治理热点主题包括交通出行、环境污染、小区物业等13个方面。主题讨论热度高低与受众需求有极大关系,与市民生活越密切相关的城市治理主题越受市民的高度关注。该结果对定位西安城市治理关注点,助力“智慧西安”建设具有现实意义。
关键词:城市治理 主题挖掘 LDA模型 智慧西安
中图分类号:F290 文献标识码:A
文章编号:1004-4914(2021)04-018-03
一、引言
2020年国家明确提出大力发展“新基建”,为城市创新和高质量发展提供新动能。“新基建”是发力于科技端的新型基础设施建设,其支点是基于云、AI、5G和计算机等技术的融合与创新。作为中国西部地区重要中心城市,“智慧西安”的未来发展,与技术创新的深度息息相关。腾讯曾与西安在城市建设、政府治理、民生服务等领域进行深度合作,共同打造智慧城市。2020年腾讯云又与西安高新区达成战略合作,持续加码“智慧西安”。因而了解市民所关心的城市治理热点话题对助力“智慧西安”建设尤为重要。
基于互联网大数据追踪市民参与城市治理的热门话题、情感倾向的相关研究持续增长。冯小东等(2018)基于TF-IDF及LDA模型,针对政务微博互动中的微观数据,研究发现,参与相同政务微博的公众之间兴趣主题也很接近。孙赫(2015)利用网络爬虫技术和分词系统,分析城市微博投诉数据,进而设计并搭建微博城市投诉分析平台。国外研究公众参与城市治理的网络平台大多集中在Twitter、Facebook。Bonsón等(2015)研究西欧地方政府Facebook内容类型对公众参与的影响,研究发现,不同地方政府发布内容类型偏好不同直接导致公众参与的积极性也有差异。West(2004)通过评估网络平台下政务互动的满意度和参与度,研究互联网的互动功能能否提升公众参与城市治理积极性。
但国内外学者利用大数据研究城市治理问题大多还是集中在交通治理、公共安全、舆情监测等方面,对公众参与方面研究相对较少,而市民参与度彰显一个城市的基层治理能力,是评价城市治理的重要参考指标。因此本文以西安市政府网络交流论坛为主要研究对象,使用web网络爬虫软件对论坛数据进行挖掘,因市民参与城市治理的互动内容涉及主题范围广,为有效发现市民的诉求类别,利用TF-IDF及LDA主题模型挖掘政务网站上市民对城市治理问题的意见及态度,以便为西安城市治理提供针对性参考。
二、主题挖掘工具
(一)TF-IDF算法
TF-IDF(term frequency inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术,用以评估一个字词对于一个文件集或语料库中的其中一份文件的重要程度。
1.词频(term frequency,TF)表示词条在文本中出现的频率。
即:TF=
2. 逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。
即:LDF=log()
3.TF-IDF实际是:TF*IDF
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低频率文件,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
(二)LDA主题模型
主题模型是文本主题挖掘的重要方法,在分析文本相关性时将文本的潜在信息考虑在内,如今已成为文本挖掘的研究热门。在各种主题模型中,LDA(隐含狄利克雷分布)模型得到广泛使用,它是一个包含词、主题、文档三层结构的贝叶斯概率模型,属于非监督机器学习技术。可用于识别大规模文档集或语料库中潜藏的主题信息。该模型使用词袋法将文档视为词频向量,从而将文本信息转化为易于建模的数字信息。
LDA对文本信息的主题建模过程为:首先从文档中采样主题,然后提取主题对应词分布中的单词,不断重复这个随机生成过程,直到遍历文章中的每一个单词。
三、数据采集与预处理
(一)数据采集
“华商论坛”是西安本地新闻、爆料、乱拍等网上交流互动社区论坛,其建立时间早,数据量丰富,尤其是“群众呼声”版块记录了市民参与城市治理的大量文本数据,且政府部门及时回复,回函快速高效。因此本文通过web网络爬虫软件对该版块论坛数据进行爬取,主要包括主题帖内容、发布时间、用户id。以2015年1月论坛版块正式开通为时间点,截至2020年11月获取约4万个主题帖。
(二)数据预处理
由于抓取的数据量庞大,部分数据不可避免有格式混乱、数据重复等现象,为了减少噪音数据对主题分类的干扰,有必要对数据进行去重,设置规则过滤筛选掉特殊文本和无效不相关文本等一系列工作,预处理后最终有效论坛文本为38776条数据,用于下文主题挖掘研究。其中无意义文本类型见表1。
四、城市治理热点主题挖掘
(一)词频统计及词云图
首先将所有文本数据进行jieba分词,采用一个较为通用的停用词表(https://blog.csdn.net/Dorisi_H_n_q/article/details/82114913,
共有1893个停用词),将其作为初始停用词,根据多次主题分析结果,对初始停用词表进行扩展,增加主题分类实验中出现的对于主题分类无意义的高频词,如:陕西、西安等词,最终挑选出词语出现频率前20的词语,如表2所示。
根据词频统计结果,“消费”词频出现最高,“交通”“出行”等也频频出现,“医疗”“教育”等也是市民讨论的关注点。不难发现这些主题均与市民日常生活息息相关。
基于词频统计结果,将其做成词云图进行展示。词云图是根据词频大小进行作图,频数越大的词字体越大。词云图见图1。
由图1可直观地看出,“消费”一词出现频率最高,“出行”“交通”次之,“红绿灯”“公交车”“人行道”等词表达市民对于交通出行便捷程度等问题的关注;“卫生”“环境”市民讨论也较多,“垃圾”“污染”等词反映市民对于未进行垃圾分类,随处乱扔垃圾等现象造成的环境卫生问题的不满等;“小区”“物业”“业主”等词频频出现反映了业主与物业之间的矛盾纠纷问题持续存在;“医疗”“教育”等一系列问题也是市民反馈的主要关注点。
(二)确定最优主题个数
LDA主题建模过程中参数K的设定对模型性能起到关键性作用,参考一种基于Perplexity的最优自适应LDA模型选择方法,对于未知分布,其复杂度越低,模型越好。其过程如下:一是确定初始K值并计算主题之间复杂度;二是减少或增加K值并再次计算主题之间复杂度;三是如此重复直至得到最优K。
因此针对分词结果,设置复杂度参数从20~100,以5为步长不断训练得到模型,计算不同主题数之间复杂度。如图2所示:
(三)总体主题分布
确定最优主题数后,训练LDA主题模型,选取每个主题中分布概率最高的10个单词作为主题内容的特征词,并对其进行计算与分析。可将总体主题分布综合归纳如表3所示。
由总体主题分布结果可看出,讨论热度最高的13类问题分别是交通出行、环境污染、小区物业、消费权益、噪声扰民、医疗卫生、劳动保障、社会治安、住房问题、教育入学、城市规划、公共服务、入冬供暖。这13个主题较为全面地反映了市民参与城市治理所关注的民生问题,且均与市民日常生活息息相关。因而有助于政府更加细致深入地了解市民呼声和民生状况。
五、结论及建议
笔者通过收集西安市民参与城市治理的论坛数据,首先对数据集进行去重和规则过滤等预处理工作,所得新数据共38776条。进而选择TF-IDF进行词频统计,并通过参数寻优后训练LDA主题模型进行话题热点分析,挖掘西安市民参与城市治理的关注热点,從热点主题看,主题讨论热度高低与受众需求有极大关系,与市民生活息息相关的城市治理主题更受市民的高度关注。交通出行、环境污染、小区物业、消费权益、噪声扰民、医疗卫生、劳动保障、社会治安、住房问题、教育入学、城市规划、公共服务、入冬供暖这13类问题是市民关注的热点。
针对本文的分析结果,从交通规划、医疗卫生等多方面提出建议,助力“智慧西安”建设与发展。
一是交通出行方面。根据摄像头、测速仪、射频识别系统、公交地铁刷卡所反馈信息,通过大数据实现交通流量的实时监测、交通拥堵的实时疏导,构建智慧交通。
二是环境污染方面。完善智能垃圾回收系统,例如垃圾桶处于满载状态时主动发出信号,工作人员根据此信号来安排分配垃圾运输车的出行频率和路线,从而提高垃圾处理效率。
三是医疗卫生方面。实现所有诊疗环节以自助方式办理。完善陕西“医疗云”“健康云”平台。加速优质医疗资源整合,进而实现远程会诊、远程门诊、双向转诊等医疗健康服务覆盖。
四是公共服务方面。通过手机APP让市民随时随地通过手机定位并报告公共设施损坏情况,同时市民能够登录系统随时查看市政问题的解决过程及结果。
五是教育入学方面。以MOOC、网易有道为代表的新型网络教育模式开启了智能教育时代,能够促使城市保持长期竞争力。
六是消费权益、噪声扰民、社会治安、劳动保障方面。开发手机APP,实施举报有奖政策,同时实现多部门共享数据协同治理。
七是小区物业、入冬供暖、住房问题等。着力完善西安“15分钟政务服务圈”示范点,推动群众办事“就近办”“网上办”“一次办”等,加快建设城市社区周边15分钟可达的便民服务中心、代办点、网格服务点等服务设施,提升市民办事便利度。打造“智慧西安”需要公众参与的支持,城市治理的“一双眼”,不如市民的“千万眼”,只有动员全社会力量参与,才能快速促进西安城市治理智慧化。
[本文系2019年度陕西省社科界重大理论与现实问题研究项目《新时代中国超大城市治理的社会学研究——以西安为例》部分研究成果(项目编号:2019Z062)。]
参考文献:
[1] 冯小东,张会平.兴趣驱动的政务微博公众评论行为影响模型及实证研究[J].电子政务,2018,(11):23-33.
[2] 孙赫.基于微博的城市投诉文本的挖掘与分析[D];北京信息科技大学,2015.
[3] BONSóN E, ROYO S, RATKAI M. Citizens' engagement on local governments' Facebook sites.An empirical analysis: The impact of different media and content types in Western Europe [J].Government Information Quarterly,2015, 32(1): 52-62.
[4] WEST D M. E government and the transformation of service delivery andcitizen attitudes [J]. Public administration review, 2004, 64(1): 15-27.
(作者单位:西安财经大学统计学院 陕西西安 710100)
[作者简介:成园园,女,西安财经大学统计学院硕士研究生;刘云忠,男,西安财经大学统计学院硕士生导师。]
(责编:若佳)