APP下载

基于大数据分析的互联网公开情报发现技术及系统研究

2020-04-09张四平王梅

计算机时代 2020年3期
关键词:大数据分析

张四平 王梅

摘  要: 从网络空间的海量信息中发现公开情报信息,对于维护国家安全和社会稳定具有重要意义。文章通过开发的“大数据网络公开情报发现系统”,研究多源异构数据的采集、融合、分析及展示;通过设计网络空间对象关联分析系统来分析处理海量信息,从而能够支持不良信息的溯源、重点关注用户账号的关联、网络嫌疑人身份信息的协同搜索等。

关键词: 大数据分析; 互联网公开情报; 网络空间对象; 关联分析系统

中图分类号:TP393          文献标识码:A     文章编号:1006-8228(2020)03-09-04

Research on big data analysis based Internet open information discovery technology and system

Zhang Siping, Wang Mei

(School of software Hunan College of Information, Changsha, Hunan 410200, China)

Abstract: It is of great significance for maintaining national security and social stability to find open information from the massive information in cyberspace. This paper studies the collection, fusion, analysis and display of multi-source heterogeneous data by the developed "big data Internet open information discovery system"; through the design of network space object association analysis system to analyze and process massive information, so as to support the traceability of bad information, the association of the focused user accounts, and collaborative search of identity information of network suspects, etc.

Key words: big data analysis; Internet open information; network space object; association analysis system

0 引言

社會信息化程度不断加深,这对传统的社会形态有着深远的影响,传统的社会形态面临巨大的挑战。以新闻门户网站(新浪、网易)、论坛类媒体(BBS和博客)为代表的传统网络媒体,以微博媒体和社交网站为代表的网络新媒体,产生海量互联网信息,此类网络空间信息大数据具有模式多态、动态交互、碎片化、变化演绎等特点,其中蕴含着大量有价值的情报信息。如何针对用户的实际需求和真实搜索意图,发现互联网的公开情报信息,这项研究对于涉恐办案情报分析、经济情报分析、舆论情报分析等,以及对于维护国家安全和社会稳定具有重要意义。

1 研究现状

现代情报大数据具有数据规模大、高速生成、异构、多源、细粒度语义单元分析的特点,这些特点对计算平台、数据收集、数据组织和数据分析等提出了新的挑战,促使在这些领域形成了新的技术体系。

⑴ 大数据计算平台。大规模分布式计算平台是解决大数据的规模问题基本的思路,遵循Map/Reduce计算模型[1]的Hadoop[2]系统是其中的代表产品。在Apache等开源社区的推动下,针对不同数据计算模式的特点,分布式计算平台呈现不同方向发展:面向大数据高时变性的特点,出现了以Storm、Spark Stream、S4为代表的流计算平台[3];大数据中数据高度关联的特点推动了面向大图数据管理和计算的平台,包括Pregal(以分布式矩阵计算为基础)、Trinity(基于分布式共享内存)、Power Graph(基于GAP模型)和Distributed graphlab为代表的大图数据计算平台[4];针对大内存计算的需求,出现了以Hana、Spark、GemFire为代表的内存计算系统[5]。

⑵ 网络信息获取与提取技术。从各种公开或非公开数据源中获取数据是情报大数据系统的重要组成部分,其中主要包括数据获取和信息抽取两个关键技术。网络爬虫系统是当前主要的数据获取手段,Anthelion、Scrapy等系统可以自动地实现对互联网上网页或数据库数据的爬取[6]。在信息抽取方面,在互联网数据分析、医疗数据分析等领域均出现从网页等文本数据抽取各种语义信息的方法,主要包括通过网页结构进行分析获取其中的数据抽取目标的技术。

⑶ 多源异构数据建模与集成。多源异构数据集成的研究一直是信息集成领域的主要研究内容。在第一代的信息集成系统中主要实现对异构的半结构化文本和数据库的集成,主要以解决模式上的异构问题为主。

⑷ 情报大数据分析技术。情报分析领域业务部门、工业界和学术界多年来已在数据挖掘、互联网搜索、自然语言处理、在线社交网络分析等传统方向上有成熟技术和产品基础。

2 本研究采用的关键技术

本文研究的技术路线如图1所示,主要包括互联网情报获取与融合、情报知识仓库构建和管理、用户真实搜索意图理解、用户搜索意图的搜索与匹配等部分。

2.1 网络空间情报获取与融合

支持网络空间数据获取和推理,包括公开互联网、微博、博客、论坛、维基、共享网站等空间中采集文本、图片、语音、视频等各种类型的多模态数据,以及各类已存在的实体对象情报和关系情报。数据获取与采集过程不间断进行,采集后的数据和知识是后续推理和搜索的基础。

2.2 情报知识仓库构建和管理

面向公开互联网的海量实体对象情报及关系情报知识进行建模;在此模型实例化的基础上通过情报知识聚合,构建情报知识库空间,并通过索引、关联和演算等聚合操作预先形成情报聚合体。知识仓库中的情报知识是不断经过二次加工的,经过用户的查询、修改、反馈和自演化的过程,逐步完善,根据应用建立各类索引,同时满足用户搜索时的准确性需求和实时性需求。

2.3 用户真实搜索意图理解

真实情报意图理解的准确性和歧义消除是用户的基本需求。结合用户的上下文和语义知识等方法,迅速、准确地理解用户的真实意图,并转变成与知识仓库可匹配推演的表示方式。

2.4 用户搜索意图的搜索与匹配

基于意图理解表示和知识仓库,经过匹配、推理、计算乃至众包等技术和方法的处理,形成若干个满足用户真正意图的综合情报解决方案,并通过结果评价排序方式给出其优先级,为用户提供智能的情报解答方案。

3 系统整体架构

本文中“大数据网络公开情报发现系统”(简称BDID系统)的整体架构如图2所示,包括“大数据采集”、“大数据计算”、“可扩展分析工具与关联情报库”,以及“情报搜索与展示”四个子系统。

3.1 基于关联的多源异构情报大数据建模和高效计算

在开源流数据处理平台的基础上,融合大图计算平台,开发面向动态异构图数据的分布式计算平台;应用基于图的多版本管理、以代表点为核心的预计算等方法,提高动态图数据上基本算子的执行效率;利用实体关联网络的思想和资源描述框架(简称RDF)数据描述形式进行异构数据的建模;结合异构网络的分析技术和RDF数据查询技术,实现针对海量关联数据的管理和查询。

3.2 多源异构网络大数据智能采集与提取模型

首先采用可扩展分布式采集模型实现服务器无感采集,在分析、仿真真实网络用户群上网行为的基础上,实现对大规模分布式采集点的智能调度。然后,采用热点信息动态感知模型实现对社会网络的深度采集。再研究高智能内容协商采集模型,包括个性化可配置自动提取和互动式社会网络信息智能提取技术。

3.3 全媒体大数据可用性评估理论模型

首先应用一阶逻辑、时序逻辑和随机过程等不同数学方法,建立特定事件大数据的全面性、准确性、时效性和实体同一性理论模型,然后在统一的逻辑框架下把用不同数学方法建立的理论模型融合成为一个完整的特定事件大数据可用性理论模型。在此基础上,重点解决最大满足子集求解难题和应用需求可满足性判定问题,并进一步设计高效的特定事件大数据可用性的定量评估模型求解算法。

3.4 基于语义网的全媒体特定主题事件大数据分布式存储

由于数据源是全面涵盖传统网络媒体、网络新媒体和移动互联网媒体的网络全媒体,因此在进行特定事件大数据分布式结构存储前,首先通过对特定事件数据进行关联分析,发现其中隐含的相似模式,并为其自动生成RDF 描述的模型框架后,再进行基于语义网的分布式结构存储。在此基础上,项目进一步研究大规模分布式结构存储系统中基于文件的RDF图的存储优化技术,以及大规模语义网数据访问控制方法。

3.5 基于属性关联与图匹配的重点人物关联分析

首先研究重点人物、群体等实体的可关联信息建模方法,通过属性模板描述不同类型实体的可能关联属性,通过图模型描述组成群体的不同个体关联关系类型;在此基础上,在RDF语义网的支持下,分别由语义索引匹配和图索引匹配方法,对可能匹配的实体属性进行轮询计算,采用分布式处理架构与内存处理相结合的方式支持千级属性维度的并行计算,评估重点人物和群体的信息关联度;进而对“可信”匹配特征进行拼接,自动发现、评估和建立重点人物、群体之间的各类关联。

3.6 基于网络痕迹鉴别的特殊事件的溯源追踪分析

基于全媒体特定主题事件的大数据模型,首先根据特定事件的特征(或从样本数据中提取的特征),从事件库中检索得到特定事件关联的各种“网络痕迹”数据,包括全媒体的内容帖、转发评论及交互、上网的行为数据、其他相关数据等;根据数据的时间戳信息和时序模型,计算痕迹数据时间线;在此基础上,将与事件相关联的人、群体、组织等实体检索后按照时序关系组织成溯源图和追踪图;基于概率贝叶斯模型等分类方法对人、群体、组织的虚拟身份进行立场分类,筛选并发现新的重点人员及其轨迹。

3.7 结合深度学习与巨图匹配的时空敏感数据智能分析

针对RDF语义网中的人物、事件相关快速匹配需求,基于循环神经网络(RNN)、LSTM神经网络等深度学习方法提取人物、事件相关的各种数据的时间特征、空间特征提取方法,以及不同关键词间的深度语义关联,并在语义空间中研究基于时空相似的快速匹配算法;针对RDF语义网中的关系类知识的快速匹配算法,基于图的分布式处理方法,解决亿级节点规模、十亿级边规模的大图和巨图的并行匹配的分解算法及优化方法,通过图索引确保秒级查询相应;针对多尺度混合属性查询请求,以多时间尺度间的自动转换方法自动计算新的时空特征及其快速匹配算法。

4 结束语

本文结合公安等部门的互联网管理业务,展开了互联网上实体/关系的关联分析研究和开发,在大数据存储管理的基础上,“大数据网络公开情报发现系统”(简称BDID系统)。该系统能够对互联网上的特定信息进行不间断采集融合、关联分析和查询展示,系统按照人物、时间、地点、事件等维度将信息关联起来,为用户提供多种服务。

参考文献(References):

[1] 李超,周瑛,周焕,潘玮.大数据环境下情报分析方法与情报分析软件探讨[J].现代情报,2017.37(7):151-158,165

[2] 谢新洲.发展情报方法研究,应对大数据挑战[J].图书情报工作,2014.58(14):5

[3] KIM J, HASTAK M. Social network analysis: Characteris-tics of online social networks after adisaster[J]. International Journal of Information Management,2018.38(1):86-96

[4] 陳云伟.社会网络分析方法在情报分析中的应用研究[J].情报学报,2019.38(1):21-28

[5] 马续补,吕肖娟,秦春秀,刘玮,刘怀亮,李洋.政策工具视角下我国公共信息资源开放政策量化分析[J].情报理论与实践,2019.42(5):46-50

[6] ZHAO M, YAN E, LI K. Data set mentions and citations: Acontent analysis of full-textpublications[J]. Journal of the Association for Information Science and Technology,2018.69(1):32-46

[7] 王超,许海云,董坤,方曙.基于创新链的产业竞争情报分析框架与应用研究——以国内基因工程疫苗产业为例[J].情报理论与实践,2018.41(1):87-93

猜你喜欢

大数据分析
基于大数据分析的低压台区降损系统研究及应用
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
传媒变局中的人口电视栏目困境与创新