基于多标签分类模型的青岛市社情民意的研究
2022-03-19刘峰硕王志芳薛靖峰
刘峰硕 王志芳 薛靖峰
摘 要:文章爬取青岛市领导留言板网站的居民留言进行分析,首先对数据进行预处理并建立多标签分类模型,达到一级指标建立分类的目的;其次,利用F-score法对一级指标进行评价,得到一级指标的F分类均值为87.32%>85%,说明所建立的一级标签分类模型质量高,适用效果好;最后,针对青岛市民意列出标签,给政府相关部门提出建议,以此提高青岛的建设水平。
关键词:社情民意;多标签分类;Python
中图分类号:F293 文献标识码:A 文章编号:1005-6432(2022)01-0040-02
DOI:10.13939/j.cnki.zgsc.2022.01.040
1 引言
在互联网普及的今天,人们会在网络上发表一些自己的看法和观点,伴随着网络普及程度的逐渐深入,带来的就是海量的文字量和信息量,人们习惯了用自己的闲暇时间去网上发布简短的文字来表达自己的情绪和看法,这对自然语言处理的研究提供了更多丰富的研究内容,也使得相关部门有了更多听取民意的渠道。
在此背景下,简化居民的问题,并且在不与原来意思冲突的情况下进行分类,达到更快速、更准确的表达,能够通过技术处理完成用户评论情感分析及主题提取。一方面,可以讓政府更快了解居民的实际问题,以此来改进政府的应对措施;另一方面,可以一定的标准,真实展现居民对政府部门工作的评价。
2 模型的建立与求解
2.1 居民留言一级标签分类
利用Python中的request库,在青岛市领导留言板网站(http://liuyan.people.com.cn)上,定位青岛市的居民留言并爬取书记或者市长下面所有的居民留言内容,使用request的get方法获取相应数据,然后使用xpath解析数据,获得居民留言,保存到text中。
在一级标签分类的基础上,利用Python留言信息用 jieba排序,并结合百度对青岛建设、环境保护、交通运输、教育文体、劳动和社会保障和商贸旅游7个指标的词典,得出频率最高的词作为一级指标的描述词,部分数据如表1所示。
通过表1可知,青岛建设中物业出现次数最多,共 1370次。环境保护中污染出现次数最多,共1356次。交通运输中出租出现次数最多,共613次。体育文体中教育出现次数最多,共4348次。劳动和社会保障中劳动出现次数最多,共3256次。商贸旅游中电梯出现次数最多,共1009次。卫生卫计中医院出现次数最多,共 2087次。
2.2 F-score方法修正
为了检验利用多标签模型是否能准确描述一级指标,借助F-score法,利用Python提取青岛居民留言出现频率最高的前100个词汇作为样本,求出7个一级指标的F值,带入如下公式,求得F值。
F=2PRP+R=2TP2TP+FP+FN
文章将数据带入上述公式,求出7个一级指标的F值,F值均大于85%,说明训练模型能够达到较好的训练效果。
借助Python,利用多分类标签模型对优化后的数据调用jieba分词,准确地利用词汇描述出青岛居民留言标签。
根据多标签模型中出现频数排序可以得出,青岛建设可以用开发、业主、房屋、管理、居民等词描述;环境保护可以用污染、排放、保护、污水、噪声等词描述;交通可以用出租、快递、收费、邮政、车辆等;教育文体可以用教育、老师、小学等描述;劳动和社会保障可以用劳动、保险、企业、养老、劳动合同等描述;商贸旅游可以用电梯、价格、物业、景区、屠宰、服务等描述;卫生卫计可以用医院、手术、子女、病人等描述。为整体反映青岛市居民的意见,文章最终借助Python得出青岛居民所有留言的词云图,如图1所示。
由图1可知,部门、物业、开发商、解决、不接等词十分明显,根据上述标签的归类,说明居民在乎最多的是青岛建设、教育文体等,符合实际情况。同时,由以上词云图所示内容,可以为青岛市的未来发展建设方向起到引导性作用。
3 结论与建议
综上所述,通过标签的归类可知,居民在乎最多的是青岛建设、教育文体。其一,青岛应该加强青岛建设,比如增加开发商、提高小区物业管理的效率、保障房屋的安全性、增加绿化面积,努力美化城市,青岛建设方面居民最为关注的就是物业、投诉、房地产等问题,可以通过降低租金或者是增加优惠,从而减轻居民的购房压力和居住压力。其二,青岛应该加强教育文体,除去住房问题最为关注的便是孩子的教育问题,比如教师的专业性水平、教师和家长之间的沟通、学校教育的及时性和管理性等,都应该提升教育的质量。在当下互联网时代,应注重教育的线上和线下结合的衔接性和互补性。在素质教育的基础上,青岛教育要针对全体学生,并且注重学生的全面发展,培养学生的个性发展,提高学生的基础知识和基本技能,为社会主义现代化服务。
再好的留言分类也不及政府部门认真解决的态度,多听群众的“牢骚”和意见可以让政府少犯错误。如果工作中存在令人不满意的地方,必须要严加改正,积极回应群众。不断改进调查的方式方法,树立优良作风,保护人民群众的参与性,提高积极性、主动性。力求更多地获取到那些被忽略掉的声音、被遗忘的实情,时刻跟随人民的脚步,抓住现实存在的问题,防范未来可能发生的问题,从根本上解决问题。
关注群众的情况,真正做到心系群众,面对海量的居民留言,一定要沉得住心,切实解决群众的各种问题,实际行动的效果远远大于言论。
参考文献:
[1]XU MINGLI,YANG WEI,HUANG ZHIXIONG.Do investor relations matter in the tourism industry? Evidence from public opinions in China[J].Economic Modelling,202194.
[2]孙桂煌.基于大数据技术的中文多标签文本分类方法研究[J].齐齐哈尔大学学报(自然科学版),2020,36(6):39-43.
[3]张宝华,朱思雨,吕晓琪,等.软多标签和深度特征融合的无监督行人重识别[J].光电工程,2020,47(12):15-24.
[4]涠洲岛旅游区党工委理论学习中心组.致力社情民意 创新服务形式[N].北海日报,2020-12-31(005).
[5]董婧.“两会时间”开启,为强省会汇聚民智民意[N].济南日报,2021-01-12(A14).
[基金项目]2020年度青岛黄海学院大学生科技创新项目“基于MLL模型的青岛市社情民意的研究”(项目编号:HHKJCX2051);2019年度国家级大学生创新训练项目“基于指数平滑法的自动售货机商务数据分析研究”(项目编号:201913320014)。
[作者简介]刘峰硕(2001—),男,汉族,山东枣庄人,就读于青岛黄海学院,研究方向:经济统计模型分析、计算机科学与技术。
1628501186260