APP下载

大数据环境下雾霾舆情语料库的构建模式研究

2019-09-10谢靖

兰台内外 2019年25期
关键词:构建模式社交网络语料库

摘 要:社交网络是社会公众表达自身诉求的新渠道,也是我国雾霾舆情的重灾区。文章以语料库与主要研究方法,从数据角度上剖析了语义标注技术在我国雾霾舆情监控中的应用价值。由于社交媒体的信息质量层次不齐,文章还考察了相关用户影响力评价指标及数据清洗规则。

关键词:雾霾;社交网络;语料库;构建模式

近年来互联网新媒体技术的不断发展,不仅使网络传播模式发生了深刻的变化,也使网络舆情的形态发生了重大的改变。新媒体技术的不断发展,使网民具备了越来越多自由使用互联网信息的能力。在自由交互的网络环境中,网络舆情的产生、积聚、爆发以及对现实空间产生影响和引导社会舆论的过程中,网民发挥出来的影响力越来越重要。

社交网络已成为健康信息的重要传播媒介,特别是近年来关于雾霾这一话题的研究引起了学界较大关注。目前存在的主要问题有:

(1)社交媒体成为了雾霾舆情的重灾区,极易引发民众恐慌,如何辨别相关信息真伪成为亟待解决的一大难题。

(2)社交网络信息质量参差不齐,内容更是五花八门,如何获取公众对雾霾危害的健康信息表达也是雾霾舆情监控的重要研究内容。针对以上问题,文章提出以语料库构建为基础,构建能够从多个数据维度反映雾霾信息的知识库模型。在信息质量评价上,借鉴科学计量学相关指标对社交媒体中用户行为的影响力进行正确评价。

一、用户影响力研究及数据选择

1.用户影响力指标研究现状

用户影响力的传统指标包括粉丝数、关注数、是否实名认证、是否有个人头像等,行为指标主要由发帖、回复和转发。

赵倩雯以雾霾事件为例,对微博用户的行为进行了深入挖掘,探讨微博如何对社会舆论进行引导,从而转移公众的关注点;王晰巍使用Gephi社会网络软件及数理统计分析工具绘制了雾霾用户传播可视化图谱;王祯骏等学者设计了基于时间模型的潜在影响力传播模型 ;汪明艳等从加强政府舆情治理的可控性角度,对社交媒体网络舆情传播影响力的指标进行了深入探讨;廖海涵等从新浪微博采集到的用户发布数、评论数、转发数等信息特征入手,借助数据的相关分析、偏相关分析、回归分析等方法研究用户行为关系;原福永等学者以新浪微博为研究对象,提出微博用户的用户影响力指数模型 ;张昊等根据用户自身特征与用户粉丝情况得出其计算公式,综合考虑用户在微博中的所有信息并计算用户影响力。

2.用户影响力数据来源

文章通过北京拓尔思公司海贝大数据管理系统,获取了66万条雾霾相关信息,在考虑用户行为时,只运用回复、转发等有效用户行为,考察相关指标的用户影响力分布。文章统计了相关用户的转载量排序分布、回复数排序分布,并利用齐普夫定律对其进行图像考察,如下图1、2所示。

从转载量、评论量图像,不难看出对于雾霾舆情用户行为,从统计学角度符合齐普夫定律,这意味着少量用户的发帖引发了多数的评论、转载。因而,这部分用户就是雾霾舆情主要的发布者或转发者。具体来看,转发和回复第一的均是“头条新闻”网络媒体。但网络媒体用户一般较少关注并与其他用户互动,那么实名认证信息则有助于排出此类用户。

3.用户影响力指标设计

除了自身发帖行为以外,社交媒体用户影响力主要体现在回复数、转发数这两个能够体现用户及用户互动行为的指标上。在此基础上,借鉴科学计量学中计量科学家影响力的指标H指数,文章提出了社交网络中回复H指数、转载H指数指标。一个博主的回复H指数是指其发帖中有h篇被回复h次以上,相对的一个博主的转载H指数是指其发帖中有h篇被转载h次以上。H指数的引入与实名认证个人用户相结合,即可以获得较高质量的微博用户信息源。

二、数据清洗和信息过滤规则

由于微博的迅速发展,言论可以随意发布,并且发布不需要非常复杂的验证,导致了非常多的虚假广告出现以及传播。具体体现为文本中经常夹杂着生僻的汉字、数字、表情符号、火星文或者英文等形式,以此来蒙混过关。这样的行为对微博用户的体验造成了非常严重的影响,同时对用户获取正常信息造成了困扰,对于短文本信息的过滤研究则非常有实用价值。

于然等人分析了中文微博信息的特点,提出了基于多视角特征融合的检测中文垃圾微博的方法;张磊等人使用了正则表达式来匹配过滤样本,建立停用词表作为文本过滤的特征项;刘陆阳提出了一种微博信息过滤处理的框架,结合用户可信度,检测垃圾微博并对其进行过滤;杨赫采用统计机器学习的方法,提取、分析和对比新浪微博平台上的正常账号和垃圾账号的社交关系行为的特征和微博内容的特征。

文章考察了部分雾霾舆情信息,并对其中信息质量较差的数据进行了规则分析,如下:

此外,对于部分长度过短的信息,其用户意图并不明显,因此在长度限制上以13个汉字为主要界限进行长度约束。

三、 语义信息自动标注类型

通过有效过滤后的微博信息,即可对其中的语义知识进行标注。在小规模标注基础上,文章列出了主要的语义信息类型及样例,如下表2所示:

通过考察相关数据,时间、地点、数量、健康表达这4个主要分类是社交网络中雾霾舆情里价值量较高的信息。除了这4类信息外,对于雾霾的吐槽、观点也是常见舆情,如“艾玛 头一回在雾霾缭绕的仙境中开车 真是太刺激了”,相关可提取价值量不大,多为公众吐槽。详细考察时间、地点、数量、健康表达,又可以对其数据进行进一步细分,如下表3-5。

从地点信息来看,移动端用户发送时,有较为明显的特征“我在: ”。此外,认证实名用户注册地点也是公开可以获取的知识。在用于地域性研究中,这些知识具有一定统计学意义。从数据分布来看,对于我国雾霾舆情的发布主要集中在北方省市,尤其是北京。以江蘇及相关城市作为检索,发现江苏省雾霾实名认证用户发帖仅为171条。移动端地理信息仍存在较为详细这一问题,有些地址必须与地理信息系统相结合才能获取其所在城市位置。

从健康信息总量上来看,在所有发帖中所占比例极小,但这部分信息显示了公众对雾霾危害的亲身体验,因此具有较高可信度和分析价值。在分析中,可以结合细粒度分析技术,对这些健康表达的语言学特征进行统计,并通过机器学习模型实现自动标注。

四、结语

文章以新浪微博为数据源,通过用户影响力评价指标、垃圾信息过滤规则的探讨,为获取高质量的雾霾舆情信息源提供思路。在小规模标注基础上,利用语料库技术,探讨了雾霾舆情在社会网络环境下,具有潜在挖掘价值的语义知识类型,为构建基于语料库技术的雾霾舆情知识库提供支撑。

参考文献:

[1]赵倩雯.从雾霾事件分析微博在社会舆论中的博弈[J].今传媒,2014,22(7):57-59.

[2]王晰巍,邢云菲,赵 丹,等.基于社会网络分析的移动环境下网络舆情信息传播研究——以新浪微博“雾霾”话题为例[J].图书情报工作,2015,59(7):14-22.

[3]王祯骏,王树徽,张维刚,等.基于社交内容的潜在影响力传播模型[J].计算机学报,2016,39(8):1528-1540.

[4]汪明艳,陈 梅.社交媒体网络舆情传播影响力研究综述[J].情报科学,2017,35(5):171-176.

[5]廖海涵,靳嘉林,王曰芬.网络舆情事件中微博用户行为特征和关系分析——以新浪微博“雾霾调查:穹顶之下”为例[J].情报资料工作,2016(3):12-18.

[6]原福永,冯 静,符茜茜.微博用户的影响力指数模型[J].现代图书情报技术,2012(6):60-64.

[7]张 昊,刘功申,苏 波.一种微博用户影响力的计算方法[J].计算机应用与软件,2015,32(3):41-44.

[8]TRS Hybase 海贝大数据管理系统[EB/OL]. http://www.trs.com.cn/cphfw/Hybase/. [2019.4.20]

[9]于 然,刘春阳,靳小龙,王元卓,程学旗.基于多视角特征融合的中文垃圾微博过滤[J]. 山东大学学报(理学版),2013,48(11):53-58.

[10]张 磊.虚拟社区不良信息过滤技术研究[D].昆明:昆明理工大学,2011.

[11]刘陆阳. 基于博文质量评估的微博过滤研究[D].北京:北京工业大学,2016.

[12]杨 赫.垃圾微博信息过滤技术的研究[D].哈尔滨:哈尔滨理工大学,2015.

[13]王玉新.大数据背景下的高校教学档案信息化建设[J].兰台内外,2018(04):57-58.

[14]车向清.高校档案数字化管理刍议[J].兰台世界,2019(S1):98.

[15]闫虹娟.大数据时代人社档案管理初探[J].兰台世界,2019(S1):76.

[16]蔡金玲,王小超,王文姣.气象专业技术人才队伍建设与发展的思考[J].管理观察,2019(08):65-66+69.

基金项目:江苏省社会科学基金“大数据下基于微博语料库的江苏省雾霾舆情监控机制研究”(15TQC002)阶段性成果之一。

作者简介:谢靖(1981- ),男,江苏徐州人,南京中醫药大学卫生经济管理学院副教授,博士,研究方向:基于智能信息技术的情报分析与评价。

猜你喜欢

构建模式社交网络语料库
基于语料库翻译学的广告翻译平行语料库问题研究
运用语料库辅助高中英语写作
社交网络自拍文化的心理解读
慕课课程构建的一般模式
语料库与译者培养探索