APP下载

基于自然语言处理的防洪重大事件新闻舆情分析
——以长江 5 号洪水为例

2022-06-29冉钦朋闫龙增

水利信息化 2022年3期
关键词:词频过境语料

喻 鑫,张 亮,冉钦朋,闫龙增

(长江水利委员会水文局 长江上游水文水资源勘测局,重庆 江北 400020)

0 引言

根据中国互联网络信息中心发布的《第 47 次中国互联网络发展状况统计报告》[1],截至 2020 年12 月,我国网民数量已经达到 9.89 亿人,互联网的普及率达到 70.4%,网络新闻用户达到 7.43 亿人,占网民整体人数的 75.1%。在互联网发展迅猛的时代,人们了解信息的手段越来越广泛、便捷,公众对某些新闻会有自己的观点和态度,尤其是主流新闻平台逐渐开放评论通道,增强公众的互动性和参与度。参与评论的公众来自不同群体,因此对新闻事件的评论具有一定的代表性。人们通过评论表明自己对新闻事件的态度,某篇新闻和自身评论共同组成新闻舆情,因此新闻舆情具有参与度高、活跃度大、传播性广、影响力深等特点。

新闻舆情研究是对新闻网络舆情进行的监测研究,从非结构化或半结构化新闻相关文本中获取需要的知识。目前新闻舆情研究主要是对新闻舆情技术的研究,梁永春等[2]实现了基于新闻文本对网络舆情的监测工作,黄克敏等[3]对网络舆情热点新闻的发现技术进行了研究,林萍[4]把 LDA(Latent Dirichlet Allocation)主题模型运用到网络事件舆情研究中。而且,逐渐加大对新闻重大事件的舆情研究,赵靓[5]针对武汉疫情期间的舆情进行了研究,韩佳伶等[6]对山西农村饭店坍塌事件舆情进行了研究。

近 2 a,极端天气事件时有发生,例如河南郑州“七二O”特大暴雨事件、随县柳林“八一二”极端强降雨事件等,极端天气容易引起防洪重大事件。由于防洪重大事件往往具有突然性和破坏性,防洪重大事件越来越受到政府和公众的关注,舆情研究尤为重要。

2020 年汛期,长江流域干流发生 5 次编号洪水,尤其“长江 2020 年第 5 号洪水”(以下简称长江 5 号洪水)峰高量大,三峡水库出现建库以来最大入库流量,上游发生特大洪水。重庆市启动有记录以来首次Ⅰ级应急响应,遭遇新中国成立以来最大过境洪水,受到社会的普遍关注。

目前,对防洪新闻舆情研究主要在于新闻报道舆情引导方面的分析,王先明等[7]从新闻报道角度对重庆日报在 2020 年抗洪新闻报道中发挥舆论引导作用进行了探究,但较少运用自然语言处理等技术对防洪重大事件进行新闻舆情分析,尤其是针对长江 5 号洪水过境重庆的舆情研究较少。自然语言处理[8-9]是为了让机器能理解和处理人类语言(包括文本、语音、图像等),融合了语言学和计算机学等多学科的人工智能研究领域,机器翻译、语音识别、文本分析等是其非常重要的应用。为此,本研究基于自然语言处理的中文分词、LDA 主题模型等方法,以长江 5 号洪水为防洪重大事件进行新闻舆情分析,以更好地了解事件发生和舆情发展过程。

1 研究思路

1.1 语料获取

今日头条是运用人工智能算法进行智能分发的平台,目前是公众了解新闻最活跃的信息平台之一[10-11]。头条搜索是今日头条推出的信息搜索引擎,其中的头条新闻可以给用户带来精准的内容检索和推送,新闻传播性强。本研究以今日头条搜索的头条新闻中关于 2020 年 8 月长江 5 号洪水过境重庆的新闻报道及其公众评论为语料,分析洪水过境重庆期间的舆情。对于其中的视频新闻,只获取网页页面中中文部分,包括新闻标题、内容和评论。

本研究采用适用于自然语言处理工作的 python语言进行编程。

1.2 中文分词

中文分词是新闻语料处理的第 1 步,只有通过中文分词,才能获取所有相关舆情词汇和词频,更好地了解舆情。本研究中文分词采用的是 LAC(Lexical Analysis of Chinese)工具[12],该工具采用深度学习算法对语句进行中文分词、词性标注等操作,整体F1值超过 94%。LAC 工具支持 python 语言,LAC 库安装和函数调用方便,效果好。LAC 有seg,lac 和 rank 模式,seg 模式主要是中文分词,lac 模式主要是中文分词和词性标注,rank 模式主要是中文分词、词性标注和词重要性标注,根据需要,本研究采用的是 LAC 工具的 lac 模式。

1.3 停用词和无关词性筛除

对新闻语料进行中文分词后,下一步是去除其中的停用词,这是最常用的词预处理步骤之一。简单移除文本中经常出现的对语料分析没有太多意义的词,移除后对语料理解影响较小,如“是”“的”等词。本研究采用的停用词表是哈尔滨工业大学、四川大学、百度等停用词表共同组成的新的中文停用词表。去除无关词性的词与停用词意义相同,通过去除对语料分析无太大意义的词性对应的词,降低词数量,如 LAC 工具词性标注中的“w”(标点符号)、“r”(代词)及“p”(介词)等。

1.4 LDA 模型构建

LDA 模型[13-15]是典型的自然语言处理的算法模型,是现在使用较为广泛的主题模型。LDA 是三层贝叶斯概率模型,是非监督机器学习算法,不需要人工进行主题标注,可以实现语义层的文本关联分析。

依据 Dirichlet 和 Multinomial 分布共轭性质,当数据符合 Multinomial 分布,先验分布如果是Dirichlet 分布,经过贝叶斯估计后,后验分布还是Dirichlet 分布。

以上结果提示,乳腺癌细胞在对他莫昔芬产生耐药性时,PGRN的表达不论从转录水平还是翻译水平都明显升高。

新闻文本集合中生成 1 个文本的方式如下:从先验概率中选择 1 篇新闻文本,从 Dirichlet 分布中取样文本对应的主题分布,再从文本的 Multinomial分布中生成主题;从 Dirichlet 分布中取样主题对应的词汇分布,再从词汇的 Multinomial 分布中生成词语,重复此过程直至生成整个文本。α和β分别是新闻报道文本-主题和主题-词汇的 Dirichlet 先验分布参数,θ和φ分别是新闻报道文本-主题和主题-词汇的后验分布参数。LDA 模型训练采样重要公式如下:

式中:Z为主题;W为文档;K为主题数;M为文档数;V为词汇数;N为单篇文本词汇数;p(zi=k│Z¬i,W)代表条件概念分布,Z¬i代表去掉下标为i的词后的主题分布;α表示文本-主题的先验分布参数,下标k,s表示对应的序数;β表示主题-词汇的先验分布参数,下标t和f表示对应的序数;表示第m篇文本中,去掉下标为i的词,第k个主题的词汇个数;表示去掉下标为i的词,第k个主题中,第t个词汇的个数。

LDA 主题模型处理前可以对新闻报道常见词进行筛除,这些词出现在绝大部分新闻稿件中,增加了 LDA 分析的词库,需要手工建立常见词表,包括“记者”“拍摄”“编辑”等。

2 研究实践

通过今日头条搜索的头条新闻,筛选出关于长江 5 号洪水过境重庆期间的头条新闻 93 份,其中可以获取评论的新闻报道有 60 份,共有评论 743 条。经过中文分词、停用词、无关词性、新闻常用词筛除后,可进行相关舆情研究。

2.1 新闻媒体分析

对今日头条搜索形成的新闻语料进行词汇和词频统计,新闻发布数量前 15 名的媒体统计图如图 1所示,可以看到光明网、新华网、中国青年网、北晚新视觉网(北京晚报主办)和央视新闻等媒体是新闻发布量比较靠前的媒体,重庆媒体中排第一的是上游新闻。光明网对长江 5 号洪水过境重庆期间进行了跟踪报道,体现了对该事件的重视和持续关注。新闻语料中可能会存在部分媒体转载其他媒体新闻的情况,本研究仅以今日头条中新闻发布单位进行统计。

图 1 新闻媒体报道统计

2.2 新闻热度分析

通过对新闻语料进行时间排序,可以看到长江5 号洪水演进新闻量随新闻时间的变化情况,也就是新闻热度的变化。图 2 是新闻量随新闻时间的变化图,变化情况如下:新闻热度在 2020 年 8 月 20 日达到最高(洪峰通过寸滩水文站),新闻量在 17 和18 日还比较平稳,19 日快速增长,21 日虽然在下降,但新闻量还是比较多,22 和 23 日趋于平稳且新闻热度较低。从图 2 可以看出新闻热度的变化与新闻内容的变化基本一致,也就是与长江 5 号洪水演进的变化基本一致,新闻报道热度呈现起始—集中—衰退过程。

图 2 新闻热度变化

对新闻语料分词后的词进行词频分析,新闻报道舆情排名前 25 名的词频统计情况如图 3 所示。从图 3 可以看出新闻报道的重点和方向,主要在特大洪水过境、特大洪水造成主城的影响、洪水形成原因等方面。词云是现在主流的数据展示效果图,通过词云图中词的大小和颜色深浅可以看出词的重要性,新闻词频词云如图 4 所示,图 4 与图 3一致,“洪水”“重庆”“长江”等词醒目,出现频率高,体现新闻报道对重庆遭受长江 5 号洪水侵袭的关注。

图 3 新闻词频统计

图 4 新闻词频词云

2.3 评论热度分析

对今日头条新闻舆情语料中的公众评论进行热度统计,评论热度变化如图 5 所示。从图 5 可以看出:评论热度高峰在 19 日,18 到 19 日评论快速上升,19 日开始下降,20 和 21 日评论也比较多,变化幅度不大。虽然洪峰过境在 20 日,但是 19 日特大洪水起涨就对主城产生了影响,公众自然会关注到此类信息。评论的热度高峰是 19 日,说明公众在洪峰过境前就对特大洪水的报道有了认识和关注,并发表了评论;同时也说明政府关于特大洪水过境的预警起到了效果,引起了民众的高度关注,有利于政府防洪工作的开展。

图 5 评论热度变化

图 6 评论词频统计

图 7 评论词频词云

2.4 水文测站分析

水文是防汛的“耳目”和“尖兵”,防汛关注更多的是对测站水情变化的关注,是防洪重大事件新闻报道的重点。水文站词频统计如表 1 所示,从表 1可以看出:寸滩站是长江 5 号洪水过境重庆新闻中提到最多的测站,次数达 157 次,说明寸滩站是长江 5 号洪水形成标志的测站(8 月 17 日寸滩站流量达到 50 000 m3/s,标志着长江 5 号洪水的形成),是长江上游、重庆主城水情变化的重要控制站;重庆主城区的磁器口和菜园坝容易在发大水时被淹受灾,在统计中也可以看出磁器口和菜园坝 2 个测站关注程度挺高;同时还可以看出乌江不是洪水过境重庆期间大家关注的重点。

表 1 水文站词频统计

2.5 LDA 模型应用分析

词频词云虽然可以初步看出新闻和公众关注点,但要把潜在主题挖掘出来,还需要采用主流的LDA 主题模型进行主题挖掘。根据新闻报道热度随时间的变化图,可以把主题变化分为热度起始、集中、衰退等 3 个阶段,这 3 个阶段时间分别为 20 日前、20 日、20 日后。根据困惑度确定热度起始、集中、衰退 3 个阶段潜在最佳主题个数分别为 3,2,4 个。设置文本-主题先验分布参数α= 50/K,主题-词汇先验分布参数β= 0.01,最大迭代次数为 100 次。

LDA 主题模型训练步骤如下:

1)对每篇新闻报道文本中的每个词汇随机赋予1 个主题;

2)对每个词汇,使用 Gibbs 采样方法进行采样,通过式(1)计算每个词汇在每个主题中的概率分布,然后为当前词汇重新赋予 1 个主题;

3)重复步骤 2),直至 Gibbs 采样收敛。

为使 LDA 主题模型更好地发挥效果,本研究采用更多的防洪先验知识改进 LDA 主题探寻效果[16]:1)通过停用词和无关词性删减,减小词频分布的不平衡;2)手工建立防洪先验知识库,提高防洪有效词汇词频,降低无关词汇的高频和相关词汇的低频现象,使主题更好凸显。

主题选取特征词时,根据实际情况合并词意相近词汇,每个主题选取 20 个特征词,其中去除主题都有的“重庆”“长江”和“洪水”3 个词。

起始阶段主题统计如表 2 所示,从表 2 可以看出:20 日前(起始阶段)新闻主题主要是长江 5 号洪水现况、洪峰即将过境、受灾救援 3 个方面主题,洪峰即将过境主题特征词中也可以看到关于洪峰即将过境新闻中包含有特大洪水形成原因方面的介绍。

表 2 起始阶段主题统计

集中阶段主题统计如表 3 所示,从表 3 可以看出:20 日(集中阶段)新闻主题主要是洪峰过境、洪水形成原因 2 个方面主题,从洪峰过境主题特征词中也可以看出,特大洪水过境是最主要的事情,在这阶段受灾救援新闻融入洪峰过境主题新闻中。

表 3 集中阶段主题统计

衰退阶段主题统计如表 4 所示,从表 4 可以看出:20 日(衰退阶段)后新闻主题主要是洪峰已通过主城、洪水形成原因、受灾情况、灾后重建 4 个方面主题;20 日后把受灾救援分为受灾情况和灾后救援 2 个主题,受灾情况主要来自新闻发布会上公布的特大洪水已经造成的实际损失情况,灾后救援主要是针对清淤等恢复城市功能的救援工作。

通过各个阶段的主题,整个主题可以分为洪水过境、受灾救援、特大洪水形成原因 3 个主题,新闻报道中受灾救援关注点始终在洪崖洞、磁器口等景点,说明城市重要景点始终是新闻报道的重要场景。通过主题,可以看出新闻舆情热点演化过程与洪水演进过程基本一致,长江 5 号洪水的演进一直是新闻的中心主题。

在对公众评论语料处理中发现,LDA 不太适用于公众评论主题探究中,表现为随着主题数量变化,评论在主题概率分布上差距不大,导致主题不是很突出,原因主要有以下 2 个方面:1)典型的LDA 模型本身不太适用于短句子主题探寻;2)评论用词相对新闻稿而言较为随意,前后评论可能存在较为分散、前后不搭、不一定是对该事件的评论等情况。

表 4 衰退阶段主题统计

3 结语

通过自然语言处理的方法,对今日头条平台中长江 5 号洪水过境重庆期间防洪重大事件头条新闻报道和公众评论语料进行舆情分析,看出新闻舆情演化过程与洪水演进过程基本一致,有助于防洪重大事件新闻舆情预警平台的构建。

在防汛工作中,政府部门要在洪水演进过程中,关注社会舆情,及时发布政策信息,尤其要把握防汛预警信息发布时间,回应社会关切,传播社会正能量。新闻媒体要在社会舆情发展过程中做好新闻报道,宣传身边感人事迹,客观报道洪水影响,准确讲解洪水形成原因等,同时要关注防汛知识科普,尤其是水位高程和重现期等方面,新闻稿出现一些水文专业词汇,部分公众不是很了解概念,就会出现“192.1 米指的是什么高度?海拔?水深?”“还没几年就写百年难遇。上次才八十年代,没得一百年”等评论。

在以后的研究中,可以对 LDA 主题模型算法改进、短句子组合成长句和把关联新闻作为先验进行挖掘等方面进行尝试,探寻 LDA 主题模型可以适用评论类主题的方法。

本研究只对文本类语料进行分析,现在短视频发展较快,关于防洪重大事件相关短视频语料分析可能也是未来舆情研究的重点。

猜你喜欢

词频过境语料
春风过境,人间温暖(组诗)
基于归一化点向互信息的低资源平行语料过滤方法*
基于词频比的改进Jaccard系数文本相似度计算
词汇习得中的词频效应研究
辨云识雨 等
濒危语言与汉语平行语料库动态构建技术研究
词频,一部隐秘的历史
国内外语用学实证研究比较:语料类型与收集方法
旅行美食纪录片《波登过境》的个案研究
汉语音节累积词频对同音字听觉词汇表征的激活作用*