大数据环境下涉军网络舆情的知识图谱服务研究
2018-03-21,
,
知识图谱拥有非常丰富的语义信息,其开放与互联的特性被认为是一种优质高效的知识组织方式,从而在许多领域得到广泛应用。互联网上的著名涉军论坛和军网上的官兵论坛,均是涉军网络舆情集散地,需要对二者的网络舆情进行大数据分析研究。
本文结合舆情监测中心承担的舆情监测分析任务和相关课题的研究,围绕军事大数据战略开展了涉军网络舆情分析的知识图谱研究,以进一步推进新时代军事大数据信息服务的创新发展。
1 网络舆情管理中的知识图谱服务
1.1 知识图谱的构建
与概念化的传统语义网相比,知识图谱更关注实例、更易于在线更新和利用众包模式[1]。知识图谱的构建首先是获取大量计算机可理解的知识。大数据时代,知识大量存在于非结构化的文本数据、半结构化的网页数据以及各行业的结构化数据中。知识图谱构建过程主要包括知识抽取、知识融合和知识计算3个步骤。
1.1.1 知识抽取
知识抽取主要解决如何从各种异构数据源中获取知识。数据源分为非结构化数据、半结构化数据和结构化数据3类。处理非结构化数据,需通过自然语言技术识别文章中的实体,识别实体之间的关系,有时还需获取事件及其相关属性;处理半结构化数据,是根据不同结构训练出不同包装器,然后进行抽取;处理结构化数据,则需要通过ETL工具对数据进行处理后,得到符合要求的知识。
1.1.2 知识融合
知识融合是将不同数据源获取的知识进行整合并构建关联关系。从各个数据源抽取的知识可能还存在不一致性,因此需要使用融合技术将知识使用统一的术语结构(本体)进行描述,进而整合成一个庞大的知识库。本体不仅提供了统一的概念字典,还表达了各个概念间的关系以及约束。通过实体映射技术,将不同数据源中的实体映射到统一的本体概念中,进而实现不同数据源的实体映射。知识融合的大量运算,需要大数据平台高性能分布式计算能力。融合后的知识库需要有存储管理方案,如NoSQL数据库和关系数据库,应根据不同的应用场景采用不同的存储架构。
1.1.3 知识计算
知识计算主要是根据知识图谱获得更多隐含、少噪声的知识,以提高可用性。运用规则推理技术和链接预测技术可以获取数据中的隐含知识,使用基于图的社会计算算法可以在知识网络上补充知识间关联的路径,通过不一致检测技术可以发现数据中的噪声和缺陷等。
1.2 知识图谱技术应用于网络舆情管理的优势
将知识图谱技术应用于网络舆情管理,具有开放资源丰富、信息集成域广、计算能力强大的优势。
1.2.1 开放资源丰富
百度百科是百度公司推出的网络百科全书平台,几乎涵盖了所有已知的知识领域;互动百科是一个大规模的中文百科知识平台,具有与百度百科相同的规模,覆盖上万人群;中文维基百科是维基百科的中文版,提供网站全部数据的下载。它们都是当前有丰富知识的百科类知识库[2],因内容收集全面而成为相关领域知识图谱的优秀在线资源。此外CN-DBPedia,Zhishi.me,XLore等均是在上述百科网站基础上建立的知识图谱,拥有大量的领域知识。这些网站虽然没有提供数据下载服务,但都开放了访问接口,可通过爬虫等技术获取数据。
1.2.2 信息集成域广
网络舆情引导不仅需要本领域的知识,还需要了解政治、军事、经济、社会、医疗等各领域的知识。如“魏则西事件”涉及互联网、军队医院、医疗等多个领域,涉军网络舆情的信息管理需要跨领域的互通与协作。知识图谱的开放性为这种领域知识之间的互通提供了基础和便利。由于各领域的知识图谱大多由开放领域知识图谱扩展而获得,因此跨领域的知识集成变得相对容易。
1.2.3 计算能力强大
开放利用的知识图谱有着规范的结构和丰富的语义,不仅支持高效的查询和复杂的知识计算,而且能够为舆情主题发现、热点追踪等提供强大的支持。传统的舆情信息多存储在关系数据库或全文检索数据库中,使用文本聚类、文本分类等方法发现舆情。知识图谱支持多种存储方式下的语义检索,如Neo4j数据库,可以通过Cypher语言实现基于图的高效检索[3]。基于符号和基于统计的知识推理方法均可应用于知识图谱中,能够为舆情管理提供高效的辅助决策支持。
2 网络舆情大数据分析及其热点事件发现
2.1 网络舆情知识图谱
网络舆情热点事件是在公共或局部网络空间内,集中爆发于较短时间的一系列关于某话题的网络舆情事件的总称。网络舆情知识图谱是与网络舆情处理有关的结构化的语义知识库和舆情事件库,其基本组成单元为实体、关系、时间区间、实体四元组和实体、属性、时间、属性值四元组。时间区间是一个形如[ts,te]的区间,其中-∞≤ts≤te≤+∞。
网络舆情信息是以上述两种组成单位为基础建立的动态图结构。实体主要包括事件和对象两类,“事件”表示网络舆情事件中的各种话题事件,“对象”表示与事件有关联的各种客体,例如地域、任务、机构等[4-5]。关系主要包括3类,分别用于描述“事件-事件”“事件-对象”“对象-对象”之间的关系。例如四元组“启动针对ZX禁止出口令”“发布”“ [2018.04.16,+∞]”“美国商务部”,表达了最近发生的美国商务部制裁中兴通信事件。网络舆情事件在网络舆情知识图谱中的表示如图1所示。
图1网络舆情知识图谱中的舆情事件
2.2 网络舆情处理引擎
网络舆情处理包括舆情监测、主题发现、热点追踪和辅助舆情引导等,可基于网络舆情知识图谱来完成。如某网络舆情的知识图谱为常见的舆情事件进行了分类管理,每类事件中记录了相关的触发词。同时知识图谱中包含了各领域的大量术语以及与抽取事件相关的元素内容,可以直接用于事件的抽取。抽取方法步骤为:内容采集,通过网络爬虫从各大网络媒体站点和自媒体账号中抓取专门语料;文本处理,去除数据中的格式信息、广告、超链接等无用信息,然后拆分成段落和句子,使用自然语言工具进行分词、去除停用词;事件发现,从处理好的句子中提取主题句,然后根据触发词进行事件分类、要素填充,最后更新到知识图谱中。
网络舆情知识图谱的事件存储有着良好的结构和细节,包括事件的发生、传播的整个过程,为发现舆情事件提供了极大的便利。网络舆情知识图谱的有向动态图有类、对象和事件3种节点。图1中的有向边代表节点之间关系,可以通过社会网络分析法对舆情热点进行分析,还可以利用数据库提供的高效语句直接检索热点事件[6]。涉军舆情处理引擎负责具体的管理活动,主要包括舆情检索和舆情引导。通过预定义Cypher语句和SQL语句访问知识图谱数据库实现舆情检索,如主题发现查询2018年1月份以来评论数最多的10件热点事件,检索语句为MATCH ( )-[c:COMMENT]->(e:Event) WHERE e.startTime>="2018.1" WITH e,count(c) AS comments ORDER BY comments desc LIMIT 10 RETURN e。如事件追踪查询某事件引发的系列事件,检索语句为MATCH (e:Event)—>(ee:Event) WHERE e.name=“印军越线阻拦中方施工” RETURN e,ee。热点预测可以综合事件评论数和衍生事件数的增加速度预测可能发生的热点。舆情引导则是提供发布权威消息的接口,可以在官方网站、涉军论坛、微博和微信公众号中发布各类信息。
2.3 网络舆情事件演化及数据指标
在舆情形成和高涨初期需要及时发现舆情热点事件。网络舆情事件演化为热点事件的必要条件是关注度(演化度Evolution)高、传播范围(传播广度Range)大和受众观点出现分歧。舆情事件热度(Heat)是指在t时刻事件演化度和传播广度变化趋势的一种度量,即Heat(e,t)=ke×Evolution(e,t)+kr×Range(e,t)。其中,ke、kr为加权系数,满足ke≥0,kr≥0,ke+kr=1,可视实际情况调整。
舆情事件的舆情趋势(Trend)是指在t时刻舆情事件演化度和传播广度变化率的一种度量,即Trend(e,t)=∂t(Heat(e,t))=ke×∂t(Evolution(e,t))+kr×∂_t(Range(e,t))。其中,∂t(Heat(e,t))为Heat(e,t)ate,t关于t的微分,∂t(Evolution(e,t) )为Evolution(e,t)关于t的偏微分,∂_t(Range(e,t))为Range(e,t)关于t的偏微分。在实际计算中,舆情趋势可以使用差分近似。当舆情趋势大于某一阈值时,表示舆情事件热度增长迅速,可将该事件视为热点事件并加以重点关注;当舆情趋势在一段时间小于阈值时,表示舆情事件热度增长缓慢或者下降,可以取消关注。
2.4 主题舆情的热度分析
2.4.1 数据集构建与参数选择
以铁血网为例,“铁血论坛”有大量的活跃用户和帖文,通过爬虫抓取2018年以来陆军板块的100篇热帖构建验证数据集。首先确定各模型参数:时间单位选择0.5天,时间窗口Δt选择为4(即重点关注近2天),事件新鲜度衰减率α取-0.01,则最近4个时间单位的新鲜度分别为0.074、0.081、0.09和0.1;设舆情热度的加权系数ke取0.6,kr取0.4。论坛主要涉及4类传播事件即发帖、回帖、转发和浏览。为简化模型令这4类事件所对应关系的权重不随时间变化,分别取常数0.6、0.2、0.15和0.05。另外,还可设定舆情预警值,当舆情趋势超过该值时需要重点关注和引导该舆情。
2.4.2 舆情事件热度分析
舆情事件热度综合反映出用户参与该事件的程度和该事件传播的范围。对100个帖文综合分析发现,舆情演化度和传播广度的变化规律存在一定的关系又各不相同[7],即趋势大致相同但不完全一致。有些帖文演化度持续保持高位,但传播广度维持在较低水平,说明参与该话题讨论的为某个特定群体,并未引起大多数用户的关注;有些帖文演化度不高,但传播广度较高,说明该贴可能只是通过标题吸引用户并没有实质内容。实验中分析了4个帖文的演化度、传播广度和事件热度变化(图2)。图2中第1个帖文先后出现了2次热点,第2个帖文和第4个帖文在持续保持了一段时间的热度后迅速衰减,第3个帖文出现多次热点但总趋势是下降的。
图2 论坛板块涉军话题舆情热度分析示例
3 涉军舆情大数据的知识图谱服务
在涉军网络舆情大数据管理中,建立针对不同网络环境的舆情系统,通过不同途径开展知识图谱服务。以某涉军网络环境为研究对象,有关信息在描述中使用了代号表示。
3.1 话题舆情热度分析
所建的A网访问量稳步提升,网中运行的B论坛是网友之间进行交流的活跃地,其发帖和回复的数量都已成为军网上的大数据。舆情事件发现系统首先从存储数据库中检索最新帖文进行事件提取,并存储到网络舆情知识图谱中,然后再通过舆情事件基于算法自动发现热点事件,并按照相应的预警等级发出预警。如关注事件的舆情变化趋势以掌握网友的反映,分析一段时间内某类话题事件的舆情热度等。
近几年,国防和军队改革逐步推进,热点话题不断涌现。本文选取5个与军队改革有关的话题,计算话题的舆情热度(图3)。
图3 不同话题舆情热度的变化趋势
从图3可以看出,同一话题可多次成为热点,同一时段不同话题的舆情热度差别较大。随着时间的推进,热点话题在不断变化,一方面体现了不同阶段有不同的改革内容,另一方面也体现了网友对不同话题的关注度差别比较大。
3.2 用户参与活跃度分析
将用户参与的事件按照舆情热度进行累加,可以获得用户的活跃度。按照各个时间单位进行统计,可以获得用户活跃度的周期分布趋势图,如星期周期分布、小时周期分布等。用户活跃度的周期分布趋势图存在一些规律,如上午或下午某个时间点用户很活跃,这对于把握涉军舆情的监测时间有重要指导意义。
3.3 事件热点词汇云图分析
事件的主题句基本能够表达事件关注的内容,通过分析主题句可以发现网民关心的内容和习惯使用的词汇。对某涉军事件的主题句进行分词,以舆情热度作为权值进行求和运算,绘制出不同时间段的词云(图4)。如图4所示,词云中字号越大的主题,其舆情热度越高。
从图4中可以发现,不同时间段网民关注的热点词汇差别比较大,这从侧面反映出不同时间段涉军网络舆情的变化情况。如左上图中“中国”“航母”“飞机”“海军”等热点词的舆情热度较高,因为当时正是中国第一艘航母辽宁舰的试航时期。其他3幅图中关于“军队”“官兵”“改革”等的舆情热度均比较高。
3.4 涉军舆情的热点事件发现
舆情热点事件发现可以根据设定舆情热度阈值实现。当事件热度大于事件热度阈值时,可以认为该事件是热点事件(图5)。如图5所示,某帖文在18~27的时间段,事件热度超过阈值,被认定为热点事件。
舆情热点的出现时机可以通过舆情趋势预测(图6)。如图6显示,在16~20的时间段舆情趋势超过预警值,说明该事件为舆情热点。
通过对比发现,使用舆情趋势预判比使用事件热度提前了2个时间单位(1天)。经过在某涉军实验数据集上测试,有87%的论坛帖文成功实现了预测,取得预计效果。
图4不同时间段的主题句词云
图5 通过事件热度判定热点事件
图6 通过舆情趋势判定舆情热点
4 结语
本文分析了知识图谱组织的优质高效以及应用于网络舆情管理的优势,提出了网络舆情知识图谱的舆情事件表达和处理引擎设计,并从话题舆情热度分析、用户参与活跃度分析、事件热点词汇云图分析和舆情热点事件发现等方面,研究了涉军舆情大数据的知识图谱服务途径,但目前还缺少大数据的进一步验证。下一步将深化研究,以提高知识图谱服务舆情管理的效能。