APP下载

大数据技术在科技情报研究工作中的应用分析

2022-05-30周萍王壮思万冬阳

电子测试 2022年8期
关键词:科技情报情报信息结构化

周萍,王壮思,万冬阳

(91054部队,北京,102442)

1 科技情报研究工作的现状分析

科技情报研究工作是根据现代化建设、军事需求、国民经济和科学技术发展需要,运用科学的方法和现代信息技术手段,对与装备建设有关的国内外科技信息进行搜集、加工处理、分析和开展深入研究,进而为装备建设的宏观决策提供数据支撑和信息服务。科技情报研究是围绕数据开展的科学研究工作,数据是情报研究工作最宝贵的资源[1]。

随着大数据、云计算、物联网以及互联网新媒体等信息技术的发展,可获取的数据信息量呈爆发式增长,这给科技情报工作的带来了快速发展的机遇。同时,在数据量呈指数增长,数据类型多样复杂的背景下,需要从海量数据中挖掘出有用的信息来开展情报研究工作,也是对科技情报工作新的挑战。

2 大数据技术对科技情报研究工作的影响

2.1 拓宽了情报信息的数据来源

以往的情报研究工作中,处理和分析的对象多为结构化数据。随着信息时代的到来,从互联网上收集的数据中常是文本、视频、音频、图片等半结构化或非结构化数据,这类数据不支持常规的数据检索,在数据的操作、处理和分析上有难度。大数据技术可实现对大量非结构化数据的识别、清洗、整理、筛选,并最终将多源异构数据统一为结构化或半结构化数据,从而能够进行后续的数据分析和处理环节。通过大数据技术丰富数据来源和数据类型,极大的拓宽了情报研究工作的基础数据。

2.2 提升了情报工作的数据处理速度

以往的情报研究工作受机器的性能限制,数据分析和处理耗时长,处理精度不高。大数据技术具有分布式集群处理能力,极大的提高了系统的计算和存储能力,具有实时计算、离线数据计算、批处理、流数据处理能力,实现TB级数据秒处理的指标。

2.3 提高了情报研究工作的科学性

以往的情报研究工作中,由于情报数据获取渠道难,相关数据少,在形成情报研究结果时常常需要情报人员结合个人经验进行分析,导致最终形成的研究报告客观性不够。大数据技术提供了可靠的数据存储方式,可以对海量情报数据和相关数据进行保存,同时大数据技术的数据挖掘工具,通过信息跟踪、比较验证等方式来提升情报质量,分析数据间关联度,建立情报信息的完整脉络,有效地避免了个人偏好等人为因素等人为因素的影响,增强了情报数据的系统性、科学性和客观性[2]。

3 大数据技术在科技情报研究工作中应用分析

3.1 情报数据采集

科技情报研究工作主要包括接收任务、进行情报数据采集、情报数据的预处理、情报数据分析和挖掘、情报研究结果展示等环节,下面分别从这几个环节介绍大数据技术在情报研究工作中的应用,具体的数据流转如下图所示。

图1 情报研究工作中数据流转图

3.2 情报数据采集

情报数据的采集是从各个情报来源渠道通过不同技术手段来收集情报数据并进行汇总。从采集情报的数据渠道来说,可分为内部渠道和互联网渠道。内部渠道是指自建的各类信息资源数据库,集中订阅或采购的期刊、文献资料、内部积累形成的各种研究报告工作手册等。通过内部渠道进行情报数据采集手段主要是人工录入,数据库导入等。

从互联网渠道进行数据采集是指国内外各类网站广泛收集情报数据,由于互联网数据量巨大,传统技术手段难以支撑采集工作,所以需要利用大数据技术手段。大数据技术中网络爬虫等数据采集工具可以高效、快速的进行情报数据的采集。网络爬虫软件可以根据预设的关键词和规则进行搜索,并对目标网站的内容更新进行实时监测和下载[3]。

3.3 情报数据预处理(清洗和加工)

互联网上虽然数据量巨大,但充斥着大量的重复、冗余、错误的信息,因此采集到的初始情报数据包含大量无用的信息,为提高后续数据处理的正确性,需要对采集到的初始情报数据包进行数据预处理操作。

首先通过数据清洗、过滤等相关技术,去除情报信息数据包中重复、无用、毁坏的数据,,提高情报信息的有效性和可信度。然后对筛选过的情报数据包进行加工。互联网中存储着大量的文字、图像、音视频等非结构化数据,在数据加工阶段,需要按照数据标准化规范统一各类多源异构数据源。通过大数据技术将不同来源、不同结构、甚至存在语义冲突的数据包进行加工处理,将异构的数据转换为具备统一语法和语义的通用数据模型。

在预处理阶段还需要利用大数据技术建立一个可靠的、持久化存储的数据中心,数据中心包括科技情报研究工作的所有过程和结果数据库。大数据技术中,大批量非结构化数据的持久化存储主要依托于文件系统HDFS,对于结构化数据的访问和管理,少部分结构化数据存放在传统关系型数据库MySQL中,大存储量可应用分布式列存储数据库HBase来完成。为了加快数据处理速度,还可以引入高性能Redis数据库用于存储内存数据。

3.4 情报数据分析和挖掘

情报数据分析和挖掘是科技情报研究的核心工作,通过对采集到的情报数据进行科学分析,建立数据间相关性,梳理情报数据的脉络,挖掘潜在情报信息,最终形成高价值的情报研究报告。在以往科技情报研究工作中,情报人员需要对情报数据进行分析处理,然后结合自身的经验积累,进行综合分析,最终形成专题报告。由于数据量不充足,情报数据分析和处理的往往停留在初步分析和浅层挖掘,同时,受情报人员知识素养的主观因素影响,形成的研究结果的客观性和综合性还有待加强。

在情报数据分析和挖掘过程中,大数据技术中自然语言处理、信息关联、智能分析等相关技术,采用定量的科学分析方法,通过构建知识图谱、建立学习模型,结合数理统计的理论,模拟专家思维过程,实现对情报数据的关联分析和深度挖掘。而大数据技术中数据融合算法可将多源异构数据进行融合,运用社会网络分析法、机器学习等技术对情报数据进行分析建模,反映情报数据的脉络,推断情报数据的规律和发展趋势。

3.5 数据展示和决策支持

科技情报研究工作最终要形成对特定技术领域相关技术情报工作的研究报告,而数据展示可以将研究报告的关键指标数据以图形化形式直观的表达出来,让用户能迅速掌握情报研究报告的核心内容。以往的科技情报研究工作,可通过常规图表绘制形式对研究结果进行展示。随着互联网上科技情报数据量的猛增,研究报告中的数据集也相应增长,常规图表难以支撑大批量的报告数据的展示。而大数据技术中数据可视化技术,可对复杂多元的报告数据在很短的时间内实现从抽象到可视化结构的映射,通过数据聚合等操作,可以实现多种数据检索方式,实现情报数据自定义范围的可视化展示。

在提供决策支持方面,大数据技术支持对情报数据的动态跟踪,对情报数据进行实时统计,通过定量分析与建设的方法,描绘情报数据的形成轨迹和趋势走向图,进行科学可靠的预测,为决策层提供数据支撑。

4 启示和策略

4.1 提供主动推送的情报信息服务

由于科研任务繁重,科技情报研究的日常工作中经常会承担临时性任务,通常要求在短时间内要形成情报研究报告,这使得科技情报工作容易处于需求牵引的被动状态,不能开展前瞻性、主动性的情报研究,长期下去容易导致情报研究工作的价值不能有效发挥。因此有必要转变服务理念,创新情报研究工作模式,从被动的接受需求转变为主动推送信息服务,通过深挖顶层需求,选取关键技术领域进行长期、主动的跟踪和积累,形成多元化情报研究成果,提供具有精准性、创新性、前沿性的信息服务,充分发挥科技情报对战略决策及科研创新的牵引和支撑作用。

4.2 建立科技情报信息资源共享平台

在以往的科技情报研究工作中,由于缺乏有效的资源共享机制,情报研究工作的相关资料和研究报告还是处于分散管理的状态,无法及时有效的传递已有信息资源,这会导致科技情报研究工作重复、耗时费力、效率较低,造成了信息资源的浪费。因此,有必要整合已有信息资源,建立科技情报信息资源共享平台,通过搭建数据服务中心实现不同技术领域资源统一归口管理,如专题资源库,动态资讯库等,确保情报资源的充分利用和深度共享。

4.3 完善情报工作的安全保密措施

大数据技术背景下,容易获取数据,另一方面也容易被获取数据。在科技情报研究工作中要重点从技术防范上入手,深度学习和应用大数据各方面技术,比如通过应用“反爬虫”技术来防止技术数据被窃取。从物理安全和技术安全两方面保障研究工作的开展,在安全保密的基础上形成资源共享的信息安全环境。

猜你喜欢

科技情报情报信息结构化
浅谈新形势下科技情报工作
基于数据工程的国防科技情报生态体系构建
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
深度学习的单元结构化教学实践与思考
基于向量空间模型的科技情报用户画像及场景化服务推送研究
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
试论市场经济条件下农业科技情报自动化发展策略
图书馆情报信息服务的创新发展
对公安情报信息意识的思考