APP下载

疫情背景下图书馆舆情感知与监控策略探析

2022-02-08王海川

内蒙古科技与经济 2022年1期
关键词:爬虫舆情社交

王海川

(河北工程大学,河北 邯郸 056038)

在信息化的时代,社交网络的飞速发展给人们的生活与学习带来了深刻影响,人们在身处现实世界的同时,普遍热衷于在虚拟世界寻求“身体在场”与“精神在场”的空间秩序的体验,虚拟的社交网络是对现实世界的投射,又不可避免地对现实世界产生影响。因此,各行业特别是服务行业非常重视用户在社交网络中的相关评价。图书馆从本质上来说也是一类服务行业,其服务品质的优劣直接影响到读者对于知识的获取、内化的水平。2020年,一场席卷全世界范围的新型冠状病毒肺炎疫情至今没有停息,该种病毒极具传染性,这一特性甚至重塑了人们在线下公共场所活动的规则与秩序,产生了深远的现实影响。在这一背景下,图书馆应当给予线上用户评价同样的重视,即应当对网络用户相关评价进行监测。

1 概念及研究现状

图书馆的网络监测分为两个部分,即公众形象感知和突发事件监测。前者代表用户的日常评价所形成的图书馆认知体系,后者代表了图书馆在突发事件时在网络中的检测、预警和化解的能力。这是图书馆舆情监控系统的两个重要组成部分。

对于前者,阳玉堃在社交文本海量采集的基础上,从基础设施、馆员服务、机构管理、馆藏文献等方面对文本进行剖析,并结合了关键词、高频词、语义网络等技术,将对于图书馆不同方面的印象进行了可视化的展示,这为读者感知研究提供了新的途径[1]。

对于图书馆的突发事件,张伟认为应当建立舆情信息预警平台,要主动收集,分析涉及图书馆公共安全方面的信息,对于危机事件要能够及时了解,分析和预警,以保证馆舍的安全[2]。但是该文对于系统架构技术论述较少。马益勇则认为应当设立图书馆舆情岗位,建立图书馆馆外合作机制,并且做好舆情监测的统筹角色,集思广益,提高图书馆在各个领域的角色价值。

总体来看,对于图书馆舆情监测方面的研究还较少,且未结合疫情这一新的背景形势。因此,笔者的选题具有一定的现实与研究价值。

2 疫情给图书馆舆情监测工作带来的挑战

首先是图书馆在决策层面上需要给予足够的重视,要充分认识到疫情情况下,任何公共事件的发生都具有更大的危险性,不仅会影响到正常的工作秩序,更会在网络上引发较大的事件涨落,因此如何处理、如何防范、如何善后,这是新问题带来的新挑战。

疫情的流行改变了人们在图书馆等公共场所的活动规则,即在正常情况下可以开展的阅读推广、讲座、会议等必须改为在线上进行,这意味着会后更多的图书馆用户也会倾向于在网络中针对图书馆的服务、管理、馆藏文献水平以及馆舍硬件好坏发表感想,进行讨论,同时对图书馆在线服务水平进行评价,这会使得相关的关键词大幅增加。

在疫情期间,由于人们的心理状态处于相对敏感时期,各项线下防疫措施较为严格,各项活动安排会受防疫工作影响,因此相应的,在图书馆这类公共区域,突发事件的发生概率也会较高。那么就意味着,在社交网络中,相关事件涨落发生的概率也较大。事实上,即使在平时,图书馆相关的网络热点事件也是存在的。例如在2018年12月份,安徽某学院的一位学生在图书馆大厅背书,因为声音较大而与管理员发生口角,并进而发展为摔杯子事件。这一事件在社交网络上被持续关注,评论数为6 193,转发数为2 300,点赞数为7 600。这在图书馆的相关事件中的关注度是较高的。又如2019年山东某大学的两名同学在图书馆因争抢座位而打架,最终被学校处以警告处分,并被图书馆列入读者黑名单。这一事件在微博上引起轩然大波,至今阅读量已达206万,评论及转发也达5 000余次。这是图书馆舆情分析的重要资源。那么在疫情期间,可以推知的是,在社交网络中,这类图书馆公共事件势必会与疫情因素相互叠加,产生更大的影响力和传播力。这是图书馆工作需要特别关注的。

在技术的应用上,疫情背景下的舆情监测,需要图书馆加强对包含特定关键词数据的探测,及时掌握用户情绪动向,特别是要警惕谣言的产生与辨别,平台要具有发现,分析研判,上报甚至报警功能,这也是疫情背景下对舆情工作提出的挑战。

在疫情背景下,社交网络中的相关数据量激增,而且在相当长的一段时间内必将持续产生大量相关文本,这对系统可靠度提出了更高的要求。事实上,在疫情常态化的实际情况下,如何增强冗余性,保证疫情监控平台的长期,不间断的运行,这是对图书馆舆情监测提出的又一项挑战。

3 舆情监测平台的技术架构

舆情平台的基本架构涉及数据采集、模型训练、数据处理、结果输出等多个环节,需要利用爬虫、分类器、模型训练等多种技术。

3.1 数据爬虫

爬虫是舆情检测系统的前端模块,它的主要作用是模拟浏览器向特定的网站HTTP发送网络请求Request,接受请求响应,按照一定的规则,自动的抓去网站信息上并获取数据到本地。这是一种代替人工的自动化模块。按照不同的类型,爬虫可以分为通用爬虫、聚焦爬虫、功能性爬虫、数据增量爬虫等。一个完善的爬虫模块应当是框架结构合理,获取技术优良,高度优化的代码,容易管理和维护。在通常的舆情检测系统中,爬虫的运行是以周、月来计算的,数据量非常大,优秀的爬虫设计能够保证系统在这一过程中少犯错误。同时,爬虫在实现数据采全的基础上,要做到较少的占用资源。对于爬虫来说,主要的判断标准有:获取时间、请求解析时间、脚本支持、CPU占用等。此外,长时间运行的爬虫还应当保证不会出现内存泄漏。目前一些网站安装有反扒策略,例如,网站后台会监控来自同一IP地址的大量访问,或者要求必须要有访问账号,或者是不定时弹出验证码识别等。而爬虫要能够模仿人类操作,采取联合爬取,自动注册账号,模拟User-Agent,访问时带cookie等。

3.2 数据预处理模块

数据分析模块集中了一系列数据预处理、数据分类、主题抽取等技术。在预处理功能中,包括分词,移除微博文本中的网络符号、超链接、乱码、停用词、重复数据清除、非汉语清除、大小写转化等,总之就是清除所有的不规范数据,将主要文本的微博数据转换为规范数据,减少数据噪声,得到质量更好的数据。目前Python语言的一些库,如Jieba、Numpy等被用来实现上述功能。

接下来是文本特征提取,这是监测系统中对文本重点词汇进行分析的环节,是用来区分。最常用的有TF-IDF,其基本思想是在一段文本中出现多次的单词,再另一个同类文本中也会出现多次,反之,一个单词很少在一个文本中出现,那么其在同类文本中也很少会出现,这就能够衡量出该词的特征区别度,即字词的重要性随着它在文本中出现的次数呈正比增加,但随着该词在语料库中出现的频率成反比下降。这一算法被广泛地应用在了各类检索模型。

另一个常用算法是信息增益(IG),其基本思想是衡量该词能够为系统带来多少信息,带来的信息越多,该特征就越重要。即信息熵的改变程度。此外,还有独热编码,互信息等算法可供选择。

3.3 分类模型构建

分类模型的构建是舆情监测系统的核心。也是学者研究较多的方面,在机器学习的时代,贝叶斯、向量积、决策树、集成学习、逻辑回归等都能完成这一任务,其中,贝叶斯算法较为简单和经典。它认为,在文本中,两个词之间的关系是相互的,一个对象的特征向量中每个维度都是相互独立的。在训练阶段,贝叶斯程序能够从词袋中收集信息,学习每一种两两词组合的后验概率,通过比较概率的大小来得到文本所属的类别。一般来说,对于社交文本的文本分类来说,上述算法是能够完成任务的,但是目前,神经网络算法正被得到广泛的应用,这类算法模拟人脑工作的原理,构建出很多个神经元,其本身具有输入层、隐藏层和输出层,之间的计算办法就是加权求和激活,即Sigmoid函数。以TextCNN为例,这些算法能够将文本解析为矩阵,就是将训练集的文本特征向量化输入,在经过连接点权重传入下一层,这一层的输出是下一层的输入。自然语言是一维数据,向量化进入卷积层后与卷积核做一个point wise的乘法后求和,然后是卷积。接下来,算法扫描向下滑动,持续输入,持续做point wise乘法后求和,然后是池化层,以降低参数的数目。最后由softmax函数做分类。这是一个基本的流程。神经网络算法的优点在于是具有较强的非线性映射能力,实现了从输入到输出的映射功能。此外,神经网络还具有一定的泛化能力,对于新的或者带有噪声的数据也能有较好的分类能力。

目前,神经网络算法发展出了递归神经网络、卷积神经网络等,并且自注意力机制等也逐渐被加入进来,算法机制逐步成熟。因此,神经网络算法模块是数据解析模块的首选算法。

3.4 分析结果管理模块

在一个成熟的监控系统中,目标文本应当能够被按照各种口径进行划分,比如某个事件段的情感比例、情感数量、高频词汇、关键词语义网络、文本主题分类、用户行为分析等,并且能够可视化的输出时序图、分类图等,以供使用者参考和决策辅助之用。

3.5 数据库

数据库的作用是用来存储爬虫所收集的数据字段内容,对于社交网络文本,往往包括了发布者、文本内容、发布时间、点赞数、转发数,评论数和评论文本、发布用户等字段,以被调用和存储分类结果。

4 疫情背景下舆情系统的改进策略

新冠肺炎疫情是图书馆在发展中面临的新课题,综合以上所述,图书馆舆情监测工作应当从管理和技术两个方面进行改进。

4.1 管理方面的改进

图书馆是社会、学校中理所当然的公共场所,并且阅读活动具有一定的私人性质,小规模聚集,讨论是应有之义。那么在此时的舆情监测方面,①应当成立专门的管理小组,专人负责,集中利用系统定制收集读者对于图书馆文献服务、馆舍布局、疫情防控措施等方面的意见建议。②要注意疫情期间舆情信息的公开透明,对内部应当充分共享,以利于合作防控,对于外部要及时生成舆情期间的舆情监测报告,下情上达。要特别关注开学、学期末期、学生毕业等关键节点的舆情监测工作,发挥系统的技术优势。同时要做好基于疫情报告的引导工作,及时发现问题,制定措施,解决问题。注意信息的对外及时公布,避免引起恐慌。

4.2 技术方面的改进

目前,基于神经网络算法的分类器技术发展迅速,BERT,Transformer,self-attention等技术的加入使得分类的准确度更高,运行速度更快,系统学习率更高,因此应当采用最新技术来提高系统性能。

在疫情背景下,舆情分析系统应当能够有重点的实施日常和突发事件中的监控行为。①语义分析,即需要分析“疫情”“新冠”等特定关键词所联系较多的词汇有哪些,这些词汇那些与图书馆由关联,那些直接指向图书馆的服务,应当被明确。②情感分析。文本的情感分析是舆情分析中重要的一个方面,如前所述,疫情期间用户的情绪与平时相比较为敏感,因此舆情系统应当感知到日常阅读活动中读者的情绪有哪些是消极的,那些是积极的,而这些积极与消极的情绪所指向的图书馆服务的那些方面也应当明确。③目前,国内的疫情已经持续一段时间了,在这期间,关于疫情的关键词在不断地变化,死亡率、感染率、无症状、环境等词汇,系统应当增加基于这些关键词的疫情态势图,同时应当注意与图书馆、阅读等词汇共线的文本都是哪些,并展开深入研究。

猜你喜欢

爬虫舆情社交
利用网络爬虫技术验证房地产灰犀牛之说
社交牛人症该怎么治
聪明人 往往很少社交
基于Python的网络爬虫和反爬虫技术研究
社交距离
你回避社交,真不是因为内向
大数据背景下校园舆情的爬虫应用研究
数字舆情
数字舆情
大数据环境下基于python的网络爬虫技术