基于文本挖掘的公安院校公众号主题类型挖掘研究
2020-09-15陈乐遥洪磊陈杨王川杨永舟刘姝文
陈乐遥 洪磊 陈杨 王川 杨永舟 刘姝文
摘要:旨在通过分析国内各大公安院校官方公众号和微博发布的数据,得出每个院校的关键词分布,在此基础上对各校如何展开新媒体工作提出辅助性可视化帮助。文章运用网络爬虫技术和LDA主题聚类算法,对互联网上获取的某警院数据进行分析,然后使用Flask和Vue将分析出的结果可视化,使之呈现出警院的词云图,该结果可以对警院的新媒体建设提出辅助性建议。
关键词:微博;微信公众号;LDA算法;Web可视化
中图分类号:G202 文献标识码:A 文章编号:1006-8228(2020)08-06-04
0引言
网络技术的迅猛发展,让新媒体、自媒体等词不再是一个遥远陌生的概念,新媒体技术的高速推进在为公安院校思想政治教育工作的创新带来了契机。目前各大公安院校基本都在努力做到依托现代化模式下的新媒体矩阵来创新公安院校大学生的思想政治工作路径,搭建好以微信、微博、今日头条、抖音、B站等为主体的新媒体矩阵,更好地服务公安教育工作,不斷为新时代公安新媒体建设培养技能突出、政治可靠的接班人。为了更好的对现阶段警院新媒体提出发展建议,我们选取了主流文字新媒体平台,从微信和微博来研究各大公安院校该如何在之后的新媒体文字工作中采取更贴合读者需要,更能讲好警院故事的方法。现今网络数据繁杂,我们可以借助人工智能算法建立模型,自动化的处理数据,并且借助当下最流行的B\S架构的Web服务来动态地可视化呈现数据的处理结果。
1 研究现状
在现阶段针对新浪微博与微信公众号的研究较多,但是限定发声主体范围,尤其是特定针对公安院校新媒体的研究目前还是少数[2-4]。目前针对新媒体主题的研究主流方向仍然是针对发布文字内容的研究,从发文内容中所含的情感倾向、关键词、传播方向趋势预测等方面切入[1.5-7],并结合这些内容对于人们的生活会造成什么样的影响作为研究输出点,将研究结果通俗化,让冷冰冰的数据更“接地气”。其中使用LDA人工智能文本主题聚类算法的居多,这一算法让文本的聚类处理更加便捷直观,其结果对于后续的分析更具有说服力。我们也依照这一想法从现阶段的研究方向出发,逐步深入,得出针对公安院校新媒体建设的主流趋势,并最终就研究结果在大方向上对各新媒体主体给予一定的建议。
2 研究设计
本项目的研究和实现主要分为三个阶段:数据获取,数据处理和科学的可视化数据呈现。现就每一阶段采取的研究方式和技术原理进行描述,具体流程如图1所示。
以下探讨在数据处理阶段我们主要采用的模型分析思维。
2.1 首先是选用的人工智能数据处理模型:LDA主题模型
LDA(Latent Dirichlet Allocation)是现阶段比较风靡和体系化的文本主题挖掘模型,它从本质来看就是一个包括了主语、文档和主题的嵌套了三层的贝叶斯模型,因为其完全基于贝叶斯的推理机制,所以拥有很好的解释能力。但是,该模型仅仅提供了针对文本数据的主题模型提取,并没有更多的涉及细化的演变机制和主题演化的解释。它一开始就把概率分布与贝叶斯的先验理论带入到有关主题的分析当中,再去利用先验估计的超参数经迭代计算来估计“文档一主题”和“主题一特征词”的概率分布这两个参数;由于采用Dirichlet分布进行了模型简化,所以这种方法可以部分避免LSA和PLSA等模型中的过拟合问题[8-11]。
模型生成过程如图2所示。
(1)按照先验概率p(di)选择一篇文档di;
(2)在从Dirichlet分布的a中取出样本生成文档d的主题分布θi;
(3)从主题的多项式分布θi中取出样本生成文档d;第j个词的主题z(i,j);
(4)从Dirichlet分布β中取出样本生成主题z(i,j)对应的词语分布φz(i,j),词语分布φz(i,j),由参数为B的Dirichlet分布生成;
(5)从词语的多项式分布φz(i,j)中采集样本,最终生成词语ω(i,j)。
2.2 处理数据的整体思维
在针对具有更多指标性数值的微博文本数据的处理中,我们充分参考了点赞量和转发量这两个指标值,数据处理的最终目标是既要得到文本关键词也要能够让这些关键词为新媒体主题提供对发布内容的修改意见。所以我们先进行文本内容有无点赞量、阅读量的第一批处理,将处理后的数据再放入LDA模型中进行分析,得到热门主题词。与此同时将全样本数据也进行LDA模型的分析。最终的生成结果中进行关键词比对,即从全样本关键词中去寻找热门关键词是否存在,如果存在则说明文本的健全性有保障,继续输出得到的热点关键词和全样本关键词即可,其过程如图3所示。
对于无指标性数值的微信公众号文本来说,则直接使用LDA模型进行分析,得到全样本数据的关键主题词,然后与微博中出现的关键词拼接以及去重。在总体层面上得出该新媒体主体的新媒体全样本关键词。
2.3 科学的可视化数据
对于数据的可视化,我们选择了现在的主流开发模式,即B/S架构的Web服务模式。在后端使用flask的基础上,我们充分利用前端vue的开放性开发的特点,与处理后的数据进行结合,并最终使用词云图来展示经处理过后的数据。采取更科学的数据可视化手段,在保证了数据结果展示准确性的同时也使得后续的研究工作可以更高效的展开。
3 实证分析
在微博方面,首先我们基于scrapy框架定制开发了给予微博开发者接口的数据获取程序。程序以深度优先的原则,将共27个公开官方微博号上的历史记录都依据时间顺序爬下,将十三个固定账户的微博uid输入队列程序中,队列循环后依次爬取,共获取316752条微博信息和相关的账号粉丝人数以及其他账户信息。
通过观察,我们将对获取数据中的content(微博内容)和repost_num(转发数)进行研究分析,在此我们先对获取的全部微博数据中的转发数进行平均数计算,算出全样本平均数后,依据经验可以尝试划定高转发的阈值大于平均数并且不低于平均数的1.5倍。在此基础上实现第一步的数据处理,得到高转发微博数据样本。
在这里我们只选择江苏警官学院一所院校的数据作为论证数据,而且实际上我们在实验中从微博的样本中得到了五处主题的概率分布,这里只举例示意列举具有高转发特征的第1处主题概率分布,并且在实验过程中我们不断调试主题数与单个主题内词语数量的关系,如表l所示,最终选择了体现效果最佳的一个组合。
从总体的主题分布来看,样本数据生成的所有主题的词分布如表2。
对于微信公众号的全样本文本数据我们也同样采取相应的算法和措施来进行分析,我们直接通过最终的可视化界面来分析这套实验的最终效果。
从微博的LDA模型处理后的结果,如图4所示,我们可以看出,受到新型冠状病毒的影响,即使是在2020年前四个月发布的内容,且整体文本数量不多的情况下,新冠相关主题的微博依然能够引起粉丝的高量转发。但在微信公众号中,我们选择了2018和2019年两年的全样本数据,从上述词云图中可以看到还是公安工作、学警学习这几类主题是江苏警官学院微信公众号平台最常发布的,同时因为时间跨度的问题,没有出现在微博内容分布中被高度关注的防疫和抗疫的内容。在这一实验的最后,我们通过得出的可视化图片可以得出一些一般性结论。不论是什么样的公众自媒体或者新媒体形式,只要贴着社会的热点话题来进行一些发文,就可以获得粉丝群体的高关注度和互动性,这一点是毋庸置疑的。但是从抹除了社会热点的高关注度话题后的数据来看,也就是从我们在实验中的微信公众号数据来看,真正决定新媒体工作建设的方向还是建立在本身特色和发布内容类型的基础上的,从可视化平台的大多数公安院校的结果中可以看出,省属的公安院校的内容更加贴近公安工作的底层,宣传的事例或者一些行文风格更朴素,宣传方向更单一,而几所部属高校的微博则不同,他们的文章中体现的人文关怀和综合性更强,所以各公安院校应当积极把握自身建设中形成的特色,并就与公安工作或者学警教育工作有教育指导意义的社会热点事件行文是每一個公众号主体都要遵循的大前提。
4 结束语
在现阶段针对公安院校的新媒体的建设特点分析中,新媒体平台中的短文本就注定了使用LDA模型可以满足绝大多数的分析情形。只需要在建模的过程中控制好主题数和词数的关系,就一定能够调试出一个合理科学的实验结果。公安院校的公众号还是要在维持自身人文关怀与坚持政治方向的基础上,不断发掘社会话题,弘扬警院正能量,讲好警院故事,为更多的青年一代的新时代预备警官夯实坚固的思想政治基础和红色意识。以思想带动实践,为建设四个“铁一般”的公安铁军储备优良人才,为实现中华民族伟大复兴奉献力量。
参考文献(References):
[1]王博,刘盛博,丁堃等.基于LDA i题模型的专利内容分析方法[J].科研管理,2015.36(3):111-117
[2]赵翔宇.新媒体时代公安院校思想政治教育创新研究[J].辽宁警察学院学报,2020.22(2):113-116
[3]秦大强,熊猛.移动互联时代公安院校大学生思想政治教育工作路径创新——以新媒体矩阵发展与运维为视角[J].上海公安学院学报,2019.29(5):90-96
[4]周殷玄.浅谈新媒体为公安院校思想政治工作开创的新格局[J].才智,2018.17:138-139
[5]唐可.利用多种建模方法从社交媒体中挖掘短文本结构[J].电脑编程技巧与维护,2020.2:140-142
[6]韩肖赟,侯再恩,孙绵.基于i题模型及其扩展的短文本算法评述[J].计算机应用与软件,2020.37(1):1-7
[7]吴广建.面向政务微博的数据分析系统设计与实现[D].杭州师范大学,2020.
[8]李牧南,王雯殊.基于文本挖掘的人工智能科学i题演进研究[J].情报杂志:1-7[2020-04-20].http://kns.cnki.net/kcms/detaiV61. 1167.G3.20200319. 1351.019.html
[9] Latent Dirichlet allocation. Blei D M, Ng A Y,Jordan M I.Journal of Machine Learning Research,2003.
[10] Content analysis of e-petitions with topic modeling: Howto train and evaluate LDA models?[J]. Loni Hagen.Information Processing and Management,2018.
[11] Short text similarity based on probabilistic topics[J].Xiaojun Quan, Gang Liu, Zhi Lu, Xingliang Ni, LiuWenyin.Knowledge and Information Systems,2010.3.
★基金项目:江苏省现代教育技术研究课题“基于现代信息技术的公安网络舆情教学模式创新研究”(2017-R-59195);江苏警官学院重点教改项目“互联网信息巡查课程线上线下混合式‘金课教学体系的重塑研究”(2019A30);江苏省大学生实践创新创业训练计划项目“大数据背景下的公安院校新媒体平台影响力研究”( 201910329031Y)
作者简介:陈乐遥(1999-),男,江苏连云港人,江苏警官学院学生,主要研究方向:网络安全与信息安全