基于数据挖掘技术的舆情分析系统的设计
2020-04-08粱艺琼
粱艺琼
摘要:针对舆情分析系统而言,其对提升学校管理水平有着很大的意义和作用。当前,随着的信息化技术发展水平的不断提升,网络技术的发展也变得越来越稳定。在这种背景下,本文即对基于数据挖掘技术的舆情分析系统的设计进行了简单的研究和分析,希望可以为相关人员提供一定的帮助。
关键词:数据挖掘技术;舆情分析系统;设计
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2020)03-0001-02
现阶段,随着信息技术发展速度的不断加快,计算机网络已经逐渐与人们的生活以及工作结合在了一起,其为人们带来一定便利的同时,也为学校管理工作的开展带来了很多挑战。并且,由于经济全球化进程推进速度的不斷加快,信息的传播速度也日益提升,很多关乎切身利益以及社会热点问题使得越来越多的人在网上展开讨论,从而形成了网络舆论。如果不能及时地进行干预,那么就非常容易出现群体事件。因此,为了可以为学生营造一个良好的学习环境,在今后的发展过程中,应该强化对数据挖掘技术的应用,合理的对舆情分析系统进行设计。
1 基于数据挖掘技术的舆情分析系统设计的必要性分析
针对网络舆情监控平台来说,其主要的作用就是针对海量数据,科学的对网络舆情进行研究和分析。在实际的发展过程中,随着信息技术发展速度的不断提升,网络舆情分析也逐渐成了数据挖掘的重点内。并且,合理的开展网络舆情分析,其主要的目的就是对海量数据信息进行深入挖掘,有效地将隐藏在数据背后的舆情观点分析出来[1]。针对这一环节而言,其核心技术具体涵盖数据采集以及主体跟踪等。
针对文本分类来说,主要的侧重点就是中文的文本分类。近年来,由于研究进程的不断深入,在文本分类领域,应用的先进方法也变得越来越多,包括:KNN算法以及决策树算法等。
一般情况下,文本聚类的主要目标就是依照文本的相似程度,有效且精准地对文本进行聚合[2]。同时,现阶段,文本聚类属于一种无监督的机器学习方法,在应用过程中,人们不需要训练过程,也不用事先对文档进行标注,其灵活性非常高,自身的自动处理能力也相对较强。因此,随着技术的不断发展,其也逐渐成了组织文本信息以及摘要的关键方法。通常而言,文本聚类具有很多的算法,包括:划分法以及层次法等。其中,针对划分法来说,其所涵盖的K-Means算法,无论是在实现难度,还是在计算速度方面,其都有着十分不错的表现,非常适合应用在挖掘大数据集中[3]。
对于主题跟踪来说,其主要的目的就是对用户所感兴趣的主题进行跟踪,在众多其海量的数据信息中,找到属于该主题的内容。在主题跟踪中,无论是训练与分类的算法,还是训练的样本数,都会在一定程度上对跟踪的质量造成非常严重的影响。同样,与文本分类较为相同的是,KNN算法以及决策树算法等都能够在数据的挖掘中发挥着非常重要的作用和价值。
现阶段,由于社会核心技术水平提升速度的不断加快,网络舆情监控也得到了前所未有的发展。尤其是进入21世纪以来,无论是国内,还是国外,都在强化对可以应用实际场景的商业平台的研究。但是,针对中职学校来说,由于其网络舆情具有较强的特殊性,而这一情况的存在,也使得一些比较成熟的商用系统不能更好地在学校中应用,其自身的价值以及作用也不能更好地发挥出来。综合而言,在学校的实际发展过程中,为了可以为学生营造一个良好的舆情环境,在今后的发展过程中,必须结合实际情况,加大基于数据挖掘技术的舆情分析系统设计力度,保证学校管理工作的开展可以更加有序和顺利[4]。
2 基于数据挖掘技术的舆情分析系统的设计分析
2.1 舆情分析系统的设计思路
在对基于数据挖掘技术的舆情分析系统进行具体的设计过程中,本系统强化了对数据挖掘技术以及智能处理技术等的应用,实现了多种技术的有效融合。
在具体的系统设计期间,首先应该对数据来源进行明确,校园网的建立,当前已经成为中职学校的信息阵地,与其他的网站不同,校园网站自身所包含的内容具有较强的多样性,内容涵盖的方面非常多,甚至随着信息技术水平的不断提升,越来越多的中职学校也纷纷建立了学生互动交流平台,学生可以通过这一平台,互相认识,自由的自身观点进行发布,也可以提出对学习管理的建议等[5]。
信息预处理模块:对于这一模块,其主要涵盖了网页净化以及中文分词等。
舆情分析模块:这一模块主要包含了话题评等。并且各个模块是可以独立存在的。
2.2 基于数据挖掘技术的舆情分析系统的总体设计分析
在具体的舆情分析系统设计工作进行和开展过程中,其主要是针对学校舆情做出管理预警,科学应用现代化先进手段和技术,有效且合理的对系统设计工作进行完成。因为中职学校舆情的特殊性不同于其他网站,所以,在系统设计阶段,应该综合考量[6]。
第一,对数据来源进行明确。一般情况下,在中职学校的实际发展过程中,其网络舆情的表现具有较强的多元化,针对同一个问题,或者不同的领域的问题,其都会存在不同的态度以及看法。同时,由于网络空间的自由性,其也为学生提供了很多自由发表自身意见的平台。所以,在实际的系统设计阶段,针对学校存在的突发事件等,都会在一定程度上引发学生们的讨论。故而,针对这一情况,学校应该将社会热点论坛等作为信息来源,以便可以有效对学校于舆情进行管理和区分。
第二,信息采集以及网页预处理。针对网页预处理,其主要的目的就是可以有效地对信息资源进行收集,同时利用网页的分析采集,科学的将时间以及发帖人等信息精准的进行提取。而针对信息采集,其具体的作用就是对网络爬虫等工具进行应用,并让其作为信息采集模块,以便可以从指定的网站上获取信息到本地,最后对相关数据进行更新[7]。
第三,舆情分析。所谓的舆情分析,具体就是指网络舆情管理的核心,同时也是较为烦琐的一个环节。主要对信息进行分类识别的前提下,有效跟踪和记录。
第四,舆情管理。依照上述舆情分析的最终结果,在对实际情况进行了解以及明确的前提下,对进行科学且有效的划分,合理地进行操作。如下为舆情分析系统总体设计模块图。
2.3 舆情分析系统的功能模块设计
第一,信息采集模块。在实际的舆情分析系统中,针对信息采集来说,其是非常关键的一部分内容,可以达到对指定论坛网络信息和相应的学校社区的数据进行采集的目的,也可以对这些信息进行有效的存储,以保证后续的数据筛选工作可以有序进行。通常情况下,在这一模块中,比较长应用的工具为网络爬虫等,设定初始化种子样本,并通过解析,在IP地址下载相对应的网页,同时对已经获得的网页进行超链研究,尽可能多的将结构等信息的分析出来,从而更加精准的对网页内容是否重复进行检查和判斷,最后将网页采集后,合理地将数据存储到数据库中。
第二,信息预处理模块。针对这一模块来说,具体涵盖内容如图2所示。
第三,舆情分析模块。针对这一模块,具体涵盖了话题识别模块等。其中,话题识别模块:新话题的实现应用了改进后的Single-Pass聚类算法,多中心的表现形式可以而更加直观地将舆情话题的动态变化展现出来。话题跟踪模块具体包含了构造分类模型,模型评估及文章分类模块。在具体的设计阶段,先对分类模型进行科学的构建,在结合具体情况,合理的评估分类模型,在依照模型,对文章的相似度进行精准的计算,最终对其类别进行明确。
第四,舆情管理模块。这一模块是系统的最后一个环节,其包含了用户管理以及权限管理等。其中,针对用户管理,具体是指在系统中,设计用户登录以及退出等模块,并有效地进行增加和删减操作,科学的设置用户信息。对于权限管理,主要是在系统的实际应用期间,由于角色的差异,其权限也会存在很大差别,在操作过程中,需要对角色进行授权认证等。
3 结束语
在具体的教学工作进行和开展过程中,为了可以最大限度地降低网络舆情问题出现几率,科学对面临的困境进行规避,学校在各项工作进行阶段,应该强化对数据挖掘技术的应用,设计并实现一个基于数据挖掘技术的舆情分析系统。并且,通过对分布式文件系统存储数据的合理应用,同时将云计算技术进行科学的结合,有效提升系统执行的稳定性以及效率。此外,通过话题发现以及舆情分析跟踪,可以在第一时间对网络舆情进行监控,正确地进行引导,保证中职学校学生管理工作可以顺利且有效地进行和开展。
参考文献:
[1]陈纪铭,卜晓.基于数据挖掘的城市旅游舆情分析系统设计与实现[J].电子技术与软件工程,2019(8):174-175.
[2]余宏.大数据环境下网络舆情分析在企业管理中的应用研究[J]现代计算机:专业版,2018(32):62-66.
[3]徐明波,王群.我国“中考加分”问题的网络舆情分析——基于五大综合类门户网站的研究[J].湖北师范大学学报:哲学社会科学版,2018,38(5):124-129.
[4]吴欣怡,汤静.新时代网络舆情的大数据技术应用与研究[J].计算机产品与流通,2018(9):81.
[5]王若宇.大数据下的网络舆情分析研究——评《网络舆情分析技术》[J].新闻战线,2018(16):177.
[6]陈艺卓,基于数据挖掘的高校网络舆情分析系统设计与实现[J].电子技术与软件工程,2016(23):189.
[7]袁键,田宏林,张涛.互联网舆情搜索分析系统的设计与实现[J].计算机与数字工程,2012,40(1):93-96.