基于政务微博数据分析系统的设计与实现
2020-02-21郑荣龙
摘要:本文着重介绍了数据分析系统的需求,探讨了一种针对政务微博分析的HRCA模型,并对政务微博数据分析系统的设计与实现进行了研究。
关键词:数据分析;HRCA模型;系统需求
目前政务微博内部的账户数据越来越多,微博的作用逐渐体现了出来,政府微博目前需要首先解决的问题就是设计并实现数据分析系统,通过该系统来寻找大众最关心的话题内容,得到大众的情感倾向,进而在政府微博上推送相关内容,实现微博价值。政务微博数据分析系统本身包含着数据采集子系统、数据分析子系统、数据可视化子系统,它们都可以很好的完成数据收集、储存、分析工作。本文着重介绍了数据分析系统的需求,探讨了一种针对政务微博分析的HRCA模型,并对政务微博数据分析系统的设计与实现进行了研究。
1 系统需求分析
1.1 业务需求
政府微博的主要工作就是为政府部门发布一些政策,通过这种方式访问民生,拉近群众和政府之间的关系,群众可以根据政府微博了解当前的优惠政策,政府也可以利用微博了解群众心中所想,由此可见政府微博就是政府的另一种形式体现,可以构建出一个亲民的政府形象。近几年来,政府微博越来越被重视,有关政府微博的运营问题也展开了研究,在运营过程中,提高信息处理效率,贴近群众,提高工作人员工作效率等内容成为运营人员首要考虑的问题。为了实现这些目标,政府微博就需要实现以下其中业务需求[1]。
首先政府微博需要采集政务微博账户数据信息,给系统数据分析提供支持,同时还需要提供最少一年以内的微博热点话题,通过这种方式来了解群众的心中所想,了解民心,在后续的内容发布过程中也可以据此提供策略依据。政府微博还需要掌握整体的舆论走势,引导舆论走向更好的方向,改善政府微博的服务质量,同时迎合微博用户的需求。政府微博还需要按照用户的访问时间热度判断微博发送的时间,判断政府微博近期活跃数以及热门话题等等。在数据分析方面,政府微博需要提供可视化的展示界面,将数据分析所呈现出来的结果变得更加直观,同时为政府微博发布提供热门素材信息。
1.2 功能性需求
政务微博的数据分析系统所需要提供的功能可以从数据采集功能、微博话题功能、舆论倾向分析功能、多维度数据分析功能等几个角度进行分析。政府微博数据分析系统本身需要从采集工作开始,采集的主要内容包括微博网站上的账户相关信息,微博评论内容、转发内容、点赞数量等等,这些具有用户特征的微博数据是政府微博数据分析系统着重收集的。在收集工作完成之后,就需要将采集到的内容数据进行数据清洗、格式转化。获取政务微博热门微博话题工作主要是从话题的内容出发,主要的目的就是分析微博账户一年以内的热点话题,通过这种方式来掌握群众所感兴趣的内容,然后对原有的热门话题数据进行有效的分析。同时受到政务微博账务类型不同的因素影响,很多用户的访问时间都是不同的,数据分析工作还可以对用户的访问时间进行统计,计算出最佳的政策推送时间并且不断的更新数据,推送数据。数据分析工作还需要具有数据可视化功能以及系统用户管理功能,在数据可视化功能中,政府微博运营人员可以通过柱状图、饼状图等对数据分析结构数据进行可视化展示,给运营人员一种直观的展示效果[2]。对于系统用户管理功能来讲主要的作用就是對系统用户的维护工作,配置对应的系统管理员,帮助用户添加、修改、查询等工作。
2 面向政务微博热度和情感分析的HRCA和EDS模型
2.1 政务微博热度HRCA模型
HRCA模型也是政务微博热度值模型,所谓微博热度值主要指的就是目前政务微博账户内部的热门微博,并且在热门微博中过滤出大众最为关心、最为重视的微博内容。据专业分析来讲,微博的热度值并不仅仅体现在点赞数和转发上,更多的应该是微博用户对其内容的感兴趣程度和重视程度。因为微博系统本身设置的关系,在微博中进行浏览,转发和评论等操作都是要麻烦于点赞的,所以转发和评论所占的重要比例是要高于点赞的。在确定用户重视程度上主要从用户评论的长度来考虑,其次转发人员的影响力也会给政府微博热度带来影响,比如如果一个拥有五万粉丝的用户转发并评论了政府微博内容,那么政府微博的热度值就被很好的带动了起来。根据HRCA模型所呈现出来的预期效果,政府微博可以采用代码编程的内容来进行实现,首先在编写代码之前需要确定对应的影响关系,HRCA模型本身包含着用户的操作行为,其中点赞、评论、转发等权值计算都会对HRCA模型产生影响,具体的代码如图1所示[3]。
2.2 政务微博评论情感值EDS模型
在对政府微博评论内容进行调研的过程中可以发现,政府微博评论的文本内容大多都是陈述句以及感叹句,只有个别的评论是疑问句,表现着对发布内容的疑问,疑问句文本本身就表达出了一种消极态度,而且具有很强的攻击性。EDS模型就是基于此进行开创的,EDS模型可以对言语表达出来的情感进行探索,主要的工作任务就是优化文本的情感分析。在对评论文本进行分析的过程中,EDS模型可以通过标点来判断评论内容的归属类别,比如感叹号一般都是代表着对政策的感叹,而怀有疑问语气的评论内容大多都是对政策内容存在疑问或者是不满意的情况。
3 面向政务微博的数据分析系统设计
3.1 系统整体架构设计
政务微博系统整体框架得到了数据分析系统的支持,而采集子系统、数据可视化子系统以及数据分析子系统又成为了支撑数据分析系统运行的关键技术。这三种子系统包含着不同的功能,功能的种类也是多种多样,其中数据采集工作、话题提取工作、情感分析数据分析工作、可视化工作等等。其中数据采集子系统主要的工作目的就是完成政务微博数据采集工作,其中数据采集工作包括对政务微博的网页记录、评论内容的字段提取、微博数据清洗以及政务微博数据格式化等等。在采集的过程中,采集的数据一般都会储存在MongoDB数据库中,在该数据库中,数据采集系统本身就是分布式集群,数据存放的形式是用单一存放的方法,通过这样处理来方便后期进行数据分析工作。数字分析子系统本身可以根据运营人员的具体需求来进行数据分析,在分析的过程中还需要进行微博热门话题提出工作、微博评论情感分析工作、政务微博多维度数据分析以及获取发布素材功能[4]。数据分析子系统本身通过Spark分布式框架实现的,它不仅可以实现独立字段操作还可以搭建Linux系统,在系统中对数据库进行分析,方便后续的数据可视化工作。数据可视化子系统本身包含着数据可视化展示功能以及用户管理功能两种,在表现形式上一直以柱状图、饼状图等几种形式来展现数据,这种形势也是数据可视化的具体体现。同时为了保证数据内容的可靠性以及安全性,该系统还设定了用户登录和用户维护功能,用户在登陆之后才能进行相关操作。
3.2 数据采集子系统设计
数据采集子系统的主要工作就是定时采集政务微博相关账户的数据信息,并对已经采集到的信息进行“清洗”以及格式转换,并对相关信息内容进行保存,以此作为整个数据收集系统的数据来源,给其他工作提供数据支持。
政务微博的数据采集工作一般都会对政务微博历史数据信息、政务微博评论数据信息、政务微博发布素材信息这三种形式。首先政务微博历史数据信息分析工作主要就是将政务微博账户历史所发布的信息的所有转发数、点赞数等等进行统一采集。采集的过程大概以一个月为更新时间,主要是为政务微博热门话题以及政务微博多个维度数据分析功能进行数据统计,统计的内容还包括微博ID、评论ID、用户性别、用户粉丝数、评论内容、评论内容的点赞数等等,这些信息都在统计的范围之内[5]。政务微博评论数据信息本身主要是将系统最近两天以内的政务微博账户发布的所有评论信息以及微博内容进行统计,统计的间隔大约在一个小时左右,数据更新一般都会倾向于政务微博舆论以及情感倾向,主要的字段信息內容以用户评论的文字为主要标准。第三类采集信息主要指的就是政务微博发布素材信息,这类信息基本上都是来自于政务微博官方账号和一些政务微博关注的账号,这些信息本身发布的素材都可以提供数据支持,信息数据大约在十分钟左右更新一次。
3.3 数据分析子系统设计
数据分析工作是整个数据处理工作中比较重要的工作内容之一,该系统的主要作用也就是处理数据、分析数据,对数据的内容进行更深层次的了解,了解的内容一般都是微博内容、数据清理工作、文本情感分析工作等等,在实际的工作过程中一般都使用Spark分布式框架作为子系统的计算引擎。在子系统设计的过程中一般都使用文本数据预处理、LDA模型训练等等。其中LDA模型训练需要从系统工作为开始,对微博数据进行读取,然后通过hrca模型获取热门微博的内容,随即对微博内容进行数据清洗工作,并添加词典、分词、去除停用词、b特征提取,随后进行LDA模型训练,获取词语及对应权重,最后将系统处理数据存入到mysql当中[6]。
3.4 数据可视化子系统设计
数据可视化子系统设计它的工作形式就是将数据分析中的数据内容通过图表的方式向用户进行展示,让用户可以直观的感受到数据变化。在系统用户管理功能当中,系统用户管理部分配有对应的系统管理人员,该管理人员可以通过添加用户的方法来注册用户,如果没有经过注册的用户在访问系统的时候会被拦截,整个系统的安全性得到了很好的保障。在数据可视化展示功能当中,数据可视化展示功能可以对数据分析子系统中的部分数据分析功能进行一定的展示,在展示的过程中不能通过图标的方式而是通过一些可视化工具,比如Echarts。在得到了可视化工具之后才可以读取Mysql数据,最后通过饼状体、柱状图的方式进行数据展示。
4 面向政务微博的数据分析系统实现
4.1 系统实现环境
面向政务微博的数据分析系统实现工作主要分为硬件环境以及软件环境两种,其中硬件环境具体指的就是计算机的配置,比如CPU、主频、内存、硬盘等等。软件环境主要指的就是给系统提供一定的开发环境和运行环境,软件环境需要得到硬件环境的支持,在硬件中安装对应的软件系统、框架,采取分布式环境的方法完成系统实现[7]。在面向政务微博的数据分析系统时,数据采集子系统以及数据分析子系统都是通过分布式框架才实现的,所以在搭建服务器的过程中需要根据相关技术完成系统设定,以此来实现定时启动数据分析任务[8]。
4.2 数据采集子系统实现
数据采集子系统的实现本身的作用就是保护系统的安全性,在具体的工作过程中主要使用的方法有反爬虫手段以及加密字符等等。其中反爬虫手段就是使用多用户模拟登陆的方式获取对应的Cookie值,然后通过代理的方式来完成运行。如果网站人员在识别Cookie用户的时候需要添加一段加密字符,此时如果某些非法人员经常使用一个Cookie多次的访问网站,那么根据系统设定会很容易将其判定为爬虫,最终拒绝该用户的访问。在实现数据采集子系统的过程中也会涉及到IP代理池的实现,在实际测试的过程中会为每一个电脑分配对应的IP地址,如果使用单- IP对政务微博进行多次访问、恶意访问,那么该IP也会被封禁[9]。
4.3 数据分析子系统实现
数据分析子系统实现主要包括一些热门主题提取,同时在文本情感分析和多维度数据分析和获取热度政务微博发布素材分析中的都有着很好的表现。该程序本身就需要处理大量的数据内容以及设定算法,所以在数据分析子系统中使用的技术都是基于内存的Spark分析框架,并且使用分布式架构加快信息数据分析处理的速度。同时数据分析子系统在文本数据预处理中也有着较好的应用,首先Spark对政务微博账户发过的热门微博进行整合,并取出前百分之二十的微博数据作为热门微博数据,并且对微博的具体内容进行热度排序,使用结巴分词器进行分词、过滤,最终生成没有副词影响的信息数据[10]。
4.4 数据可视化子系统实现
数据可视化子系统实现本身由表现层、业务层以及持久层组成,表现层的功能主要是展示可视化数据以及基本用户维护操作,而业务层的功能则是使用SpringMVC技术接受前端发出的请求,处理业务逻辑,最终实现各个模块之间的融合。持久层的功能是将数据保存到关系型数据库中,为控制层提供访问和更新数据的权利[11]。
5 结束语
综上所述,随着信息化社会的到来,微博等公众平台已经发展火热,目前已经成为传播政策、推广消息的重要途径,因此政务微博现如今已经成为了政府和广大人民群众之间联系的关键纽带。但是在政务微博处理数据的过程中遭遇到了很多的问题,微博运营遇到了很多的阻碍,由此可见,政务微博的财务系统设计工作尤为重要,相关运营人员需要面向政务微博的数据分析系统、数据采集子系统、数据分析子系统、数据可视化子系统进行探讨和研究,做好数据分析系统的构建,保证政务微博的可持续发展。
参考文献
[1]于一,杨俊杰,王太林.基于Android的排球比赛数据统计分 析系统设计与实现[J].科学技术创新,2020 (31):66-68.
[2]毕祥银,张辉,大数据分析在用电采集数据分析与智能监测系统的设计与实现[J].电子世界,2020 (19):136-137.
[3]刘斌.基于Twit ter大数据处理的境外舆情分析系统设计与实现[J].电脑知识与技术,2020,16 (27):30-3 3+42.
[4]边倩,王振铎,库赵云.基于Python的招聘岗位数据分析系统的设计与实现[J].微型电脑应用,2020,36 (09):18-19+26.
[5]韩冬,郭浩峰,李林洋,汪菊琴,江森林.基于大数据技术的区域房价与就业数据关联分析系统的设计与实现[J].电脑知识与技术,2020,16 (25):89-91.
[6]郭晓乾,武守晓,王承栋,刘思宇.基于大数据的电能质量监测分析系统设计与实现[J].软件导刊,2020,19 (08):182-18 5.
[7]游磊,梁颖,韩祺祎,张文,冯江.基于虚拟仪器的动态信号采集与分析系统设计与实现[J].自动化与仪器仪表,2020(07):144-147.
[8]陈恺.S模式监视数据质量分析系统设计与实现[J].软件,2020, 41(07): 228-2 34.
[9]吴磊,欧阳赫明,基于Spark的分布式健康大数据分析系统设计与实现[J].软件导刊,2020,19 (07):99-102.
[10]杨辉,基于R语言的北京市医耗联动综合改革数据分析Web应用系统的设计与实现[J].中国数字医学,2020,15 (07):22-25.
[11]舒畅,蒋方园.高校毕业生就业大数据分析系统的设计与实现[J].信息通信,2020 (07):149-150.
作者简介
郑荣龙(1984-),男,广东省江门市人。硕士研究生,计算机高级工程师、公职律师、一级建造师。研究方向为政务服务工作、大数据管理等。