APP下载

大数据环境下情报学发展的十个特征

2021-06-24罗立群李广建

图书与情报 2021年1期
关键词:发展特征情报学大数据环境

罗立群 李广建

摘   要:近年来,认知科学、复杂科学、计算社会科学等领域出现的新思潮和新理论,为情报学的发展带来了新的机遇;大数据、人工智能的兴起,为情报学提供了新方法和新技术。大数据环境下的情报学在思想、方法和技术上都发生了许多变革,文章在跟踪近年情报学发展动态的基础上,归纳了大数据环境下情报学发展的十大特征,分别为计算化、模拟化、平台化、知识化、智能化、一体化、多元数据融合、方法联合化、结果聚合化和人机融合化。

关键词:大数据环境;情报学;发展特征

中图分类号:G350   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2021011

Ten Characteristics of the Development of Information Science in Big Data Environment

Abstract In recent years, new trends and new theories in cognitive science, complex science, computational social science and other related fields have brought new opportunities for the development of information/intelligence studies; the rise of big data and artificial intelligence has provided new methods and new technologies for information/intelligence studies. Based on tracing recent developments of information/intelligence studies, the paper summarized ten characteristics of information/intelligence studies to show the full picture of information/intelligence studies in the big data environment, which are computerization, simulation, platformization, knowledge-based, intelligent, integration, multi-data fusion, methods combination, results aggregations, and human-machine integration.

Key words big data environment; information/intelligence studies; development characteristics

近年來,全球科学与技术界发生了重大的变革,认知科学、复杂科学、计算社会科学等领域出现的新思潮和新理论,为情报学的发展带来了新的机遇、注入了新的活力;大数据、人工智能的兴起,特别是深度学习、知识融合、认知计算等技术的成熟为情报学提供了新方法和新技术。情报学正在积极拥抱这些新的机遇与挑战,深度融合这些新的思想理论和方法技术,大数据环境下的情报学在思想、方法和技术上都发生了许多变革。从国外研究看,以美国为首的西方国家近年来开展了大量的大数据环境下的情报学研究,如XDATA项目为大数据环境下开展大规模情报分析提供了弹性计算框架和计算工具[1];大机制(Big Mechanism)项目试图解决大数据环境下情报因果关系的推理与自动分析,从海量文献自动抽取因果片段,将它们组装成完整因果模型,从而发现文献中蕴含的因果关系[2]。从国内研究看,贺德方[3]提出了情报工程,即利用工程化思维将数据、分析方法、情报技术等情报研究工作的要素进行组织,用工程化的模式实现情报分析的全过程;吴晨生等[4-5]针对情报3.0环境下情报机构面临互联网信息过载挑战,将智能工具作为情报生产方式变革的核心内容;李广建和江信昱[6]提出了计算型情报分析,通过计算解决大数据情报分析问题。上述国内外的研究和实践表明,大数据环境下情报学的理论、方法发生了许多变化。笔者在跟踪近年情报学发展动态的基础上,总结和归纳了大数据环境下情报学的十大特征。需要指出,有些特征之间存在着交叉,但强调的重点有所不同,揭示的情报学发展的方面有所不同,故笔者在本文中都尽量将它们列举出来,以期能全面展示情报学近年的发展。

1   计算化

计算化是计算思维和情报思维相结合的产物,强调通过将情报需求或情报课题转换成可形式化表达和求解的问题,对情报研究的问题进行数学建模,运用计算的方式进行大规模、自动化的分析,从而获得有价值的结论。情报计算化的核心主要包括两个方面,即情报问题的模型化和情报过程的自动化。

情报问题的模型化就是指利用系统化的符号和数学表达式对情报问题进行抽象的描述,其本质是对情报问题进行数学建模,这个过程也是深入理解情报问题的过程。情报问题的模型化是实现情报计算化的重要途径。如在科技情报分析中,传统的基于计量的情报分析主要依赖于计量和计数的方法,对情报问题缺乏深入的洞察力。大数据环境下,海量的科技文献、科技新闻等为情报建模提供了良好的数据基础,能够帮助研究人员从科技文献内容/文本中提取有价值的信号以及重要的知识,从而对文献内容进行细粒度的建模,发现一些潜在的和隐藏的模式。这是传统的计量型情报分析所不具备的优势和特征。Choi和Jun[7]开发了一种针对专利内部特征分析的计算方法和模型——基于专利文本分析的贝叶斯模型——来预测技术空白点,该模型通过文本预处理技术从海量的专利文件中提取关键的技术术语并用专利文档技术矩阵进行技术特征建模,使用贝叶斯聚类方法对结果进行投票,从而确定未来技术的空白研究领域。Choi和Jun提出的这种计算和建模方法深入到了专利文本内部,对技术细节进行细粒度的表征,对技术领域做了更细致的区分,因此能够有效地表征微观层面的技术特征,可以对细分的技术领域做出预测,这是传统的计量分析方法很难做到的。

情报过程的自动化就是指通过形式化的软件指令,在不需要人工干预(或极少干预)的情况下,按预期的情报目标实现情报的采集、加工、分析、服务等各个环节的工作。大数据时代,情报工作面临海量、高速、低价值密度的大数据的挑战,而情报活动本身又是一个充满竞争、博弈的活动,这就需要通过自动化赋能,使情报工作具备高效、准确、持续的能力。情报过程的自动化不是简单的将机器作为辅助工具,而是将其上升到了情报过程的主导地位,尽量减少人的主观因素对情报过程的影响和干扰,从而最大限度地保证情报结果的客观性和可靠性[8]。发现并识别未来有影响力的科学和研究概念可以帮助学者和科学家集中更多的精力聚焦有前景的研究领域。传统上情报分析被认为是一种艺术[9],以分析人员为主导的情报分析往往会受到人的认知因素和外部环境因素的影响而产生发现和识别的偏差,为此,Kathy等[10]设计了一种自动化的科技预测的情报流程,通过自动化的处理单元将科技情报分析、预测划分为四个阶段,分别是碎片生成、文档分层处理、碎片分层处理以及机器学习,为了保障分析的客观性,整个流程中研究人员只需对各个阶段所必要的参数进行设置,而无须干预中间的处理过程,情报分析系统将按照预设的分析模型(如概念识别、实体关系链接、引文情感分析和句子修辞分析等)实现大规模、实时的科技情报分析和预测,通过对800万篇全文文章和4800万条元数据进行分析,验证了该情报分析流程具有较高的准确性和可靠性。

2   模拟化

模拟化泛指以实验或训练为目的,将原本的系统、事物的关键特性或者行为功能予以系统化和公式化,对关键特征做模拟,从而实现对系统或事物的发展趋势、发展结果等的预测。模拟不仅仅是一项技术,也是一种解决问题的方法[11]。模拟一般要通过计算机进行仿真,其实质上是在计算机中构造与现实世界相对应的“人工世界”,建立起与真实系统相对应的“平行系统”,在“人工世界”与 “平行系统”中对现实复杂系统进行试验性研究[12]。情报学的模拟化是指通过复杂、动态仿真方法和技术根据以往的情报现象演化的过程和规律,抽象并验证出情报现象演化的关键特征,从而发现情报现象发展的基本规律,并推断研究对象未来可能出现的状态。

传统的情报研究中缺乏有效的途径对复杂、动态的情报研究对象进行刻画,情报的推理和预测能力非常有限。在大数据时代,情报源发生了巨大的变化,传统情报源的数字化以及互联网技术和物联网技术的兴起,使得情报研究对象的活动和发生的事件等相关信息都会迅速地反映到各类数据库、网站、网络媒体之中,同时,数字化和网络化的数据资源又大大方便了情报的感知和采集,从而使得动态研究情报对象成为可能。模拟为动态情报研究提供了一种实现路径,通过为情报研究对象的关键特征构建仿真模型,将平行映射的数据作为输入,对真实世界的运行状态进行仿真计算,可以有效地进行情报的推理。如在社会情报研究中,根据社会行为和情报的理论或经验,构建一个关于现实社会系统的在计算机中运行的人工社会,然后模拟其动态演变过程,以便获得对社会结构、功能及其变迁更好的理解,并解释复杂的社会现象或情报现象,乃至预测社会发展演变的可能方向,从而针对特定的社会活动获取有价值的情报[13]。网络舆情的演变就是一个典型的实时动态变化的过程,传统的分析方法对网络舆情动态传播机制的解释能力较弱,难以对网络舆情未来的发展和演变进行推理,往往需要借助仿真思想和方法对舆情的演变进行模拟,从而为舆情的干预提供有效的预案。彭程等[14]基于传统的SIR模型并引入信任系数变量来刻画舆情传播中,易感染类网民的动态演化过程以及舆情演化趋势,通过模拟实际网络舆情传播的特征解释了复杂网络舆情的传播机制,并通过易感染类网民占比与阈值间的大小关系发现了效用最大化的舆情防控点,最后利用仿真计算来检验政府舆论干预手段的有效性。

在科技情报研究中,论文、专利、报告等科技文献真实地记录了科学研究的成果、研究的过程、学者及研究机构的情况、作者和机构之间的合作关系、项目的受资助情况等诸多科研要素,海量的科技文献就构成了学术大数据。传统的情报方法受制于技术因素对学术大数据的利用非常有限,往往借助简单的、静态的计量方法对科技文献的内外部特征进行分析。如基于引文的文献计量方法是科技情报领域最为基础和重要的量化手段和方法,引文分析方法有助于探索,组织和分析大量科技创新的历史数据,主要是帮助研究人员理解过去。大数据时代的科技情报研究不仅仅需要理解过去,更需要了解未来,诸如都有谁是未来有潜力的学者、将来可能有哪些颠覆性的研究领域、哪一类的团队组合更易产生创新成果等。这就需要利用微观层面细粒度的学术数据对知识融合、科学创新的演变进行仿真计算,模拟并推演可能的创新过程。如Dashun Wang等[15]通过海量的学术大数据对科学家的影响力的演变过程进行拟合,加入了时间维度来量化科学家职业生涯中影响力和生产力的动态变化过程,他们通过随机影响力的规则构建了一个随机仿真模型,将发表产量、个人能力和运气的影响作为参数,仿真模型能够模拟出科学研究成功的普遍模式,用来推测出科学家未来影响力的演变轨迹,同时,该研究还能利用学术大数据的模拟仿真,揭示出学术研究、知识创新过程中所蕴含的规律、机制以及隐藏模式,以帮助加速科学发现和创新。

3   平台化

平台化的概念最早来源于软件开发领域,是指一套综合的工具和一组实践证明的共享的最佳平台,它形成了完整、久经考验、开放和模块化的解决方案,旨在随需应变开发软件和基于软件的服务。广义的平台化概念被定义为任何一种在其上可以构建其他应用(内容)的技术基础,这种理念本质上是一种更先进的生产模式。在情报领域,将成熟的、共性的情报方法和技术进行抽象、集成、封包成为“平台”,基于平臺实现最大程度的重用,规模化的情报分析和情报服务,这样,一方面极大地提高了情报分析和情报服务的效率、降低了成本和代价;另一方面能为情报用户提供了基于平台的个性化、多样化的情报分析和服务的定制。这种理念,我们称之为“平台化”。

情报的业务需求有两个特点,一是情报需求多且繁杂;二是情报需求时效要求极高。在传统的情报工作中,情报分析和情报服务是基于情报分析人员的“手工艺活”,往往需要分析人员耗费大量的时间和精力根据不断变化的情报需求进行调整,情报工作的效率难以保障。如在科技情报研究中,科技数据的采集、存储、科技情报的处理和分析等情报过程都需要情报人员根据实际的情报业务需求寻找不同的方法、工具并进行不断地调试,进行针对性的开发。当新的情报需求出现时,由于原有的业务代码与通用代码的耦合性较差,已有的成果难以得到有效的复用。近年来,云计算技术和大数据技术的兴起,为情报服务和情报分析提供了符合行业标准的开放平台,这类开放平台能够帮助情报人员快速定义、集成和自动化地构建情报系统的业务流程,最大化减少了重复开发和调试的工作量,使情报的分析能力、计算能力和存储能力得以高效复用。如DARPA开展的XDATA项目就是一个广泛的基于现在云计算和大数据行业标准的情报开放平台[1],该项目开发了高度可复用的情报分析、计算和存储的通用技术平台,包括资源采集、清洗与转换、数据建模、数据分析、结果可视化、用户交互、信息查询等基础功能,情报部门可以根据自身情报业务的实际需求在其基础之上快速地搭建、个性化地配置面向具体领域情报工作的情报系统和服务平台。另一方面,随着情报技术和情报方法的成熟以及工作流技术在情报领域的应用,将情报分析中的共性方法、技术按情报任务抽象、集成、封包成“情报技术平台”和最佳的“情报解决方案”,通过可配置的方式根据情报分析业务的需求对分析方法、分析模型、分析的计算资源等进行灵活的组合和配置,能够快速的构建面向特定情报任务的分析流程,从而实现情报分析和情报服务的规模化定制。如王静宜等[16]深入地研究各类型情报分析方法,提出了情报方法具有层次性,即“理论型方法指导思维逻辑、集合型方法集成研究流程、操作型方法实施任务解决、计算型方法实现测度计量”,揭示了情报分析方法在数据处理和任务解决中的应用规律。这项研究对不同数据和不同情报任务中的情报方法的定制和组合提供了理论基础。

4   知识化

知识化是大数据时代情报学理念和思想的重大转变之一,情报学正从过去的强调知识组织和知识体系构建的研究即解决“是什么”的模式,朝着强调深层次知识发现与知识利用研究即发现情报现象背后所蕴含的规律和模式的“为什么”以及提出理性解决方案的“如何做”的方向发展。知识一直以来是情报学研究的核心问题,著名情报学家布鲁克斯[17]曾指出情报学研究对象是客观知识世界,只是受制于不同时期的认知水平和技术水平,不同时期组织、利用知识的方式方法及其效果也不尽相同。传统上情报学都是通过间接的方式对知识进行处理,更多的是基于对信息、数据的分析和处理来实现对知识的组织和定位,高阶的分析和处理往往还需要分析人员根据自身的经验和知识以及对情报问题的理解来进行。在大数据环境下,情报人员有限的脑力难以对海量的信息和知识进行转化和利用,知识化的本质在于用机器逐渐替代情报人员在情报问题的解决过程中成为知识转化和利用的主体,机器借助于知识驱动的计算模式直接、高效地利用可表征、可计算的知识参与到情报采集、情报分析、情报服务中需要使用到知识的环节,协同其它的情报方法实现与情报分析人员相似的知识转化、知识利用的认知功能。知识化的核心在于情报/知识的可计算化,这就需要知识驱动的计算模式来加以支撑[18],这些知识计算模式包括概念推理、语义计算、知识图谱、因果关系分析、反事实预测等,而且,随着对知识化的深入研究,还会诞生新的知识驱动的计算模式。

当前情报学中的知识化研究呈现出两个主要的特征和趋势:

(1)利用领域知识指导面向特定任务的情报过程,优化情报结果。具体地说,就是领域知识的融合贯穿于信息采集、预处理、模型选择与数据分析及结果解读整个情报过程。在这个过程中,领域知识的融合有助于消除存在歧义或不确定性的数据、降低数据的冗余度、降低算法计算的难度和模型构建的复杂度。同时,将领域知识融合与情报分析结果相互印证,提高情报结果解读的质量,从而增强情报分析的可靠性和准确性。如王萍等[19]提出了领域知识融合驱动下的医学情报分析模型构建与优化的思想和方法,以冠心病患者的临床资料为分析对象,将医学领域知识融合嵌入机器学习全过程,优化领域知识驱动数据挖掘模型构建策略,促进数据的知识发现从传统型的算法驱动向新型的领域知识指导转型,提高了数据挖掘结果的置信度。

(2)发现蕴含在大数据中隐藏的模式、规律、因果关系等高阶知识,这类知识一般具有较高的使用价值或其本身已经是情报产品了。在传统的情报工作中,单一孤立的知识和事实是需要人工去交叉验证的并分析其中的因果关系,但是,大数据时代的海量数据信息中隐藏的因果关系结构一般都比较复杂、因果链冗长,其中往往会包含数量巨大的相关的、不相关的、显性的和隐性的多种因素,因果关系的构建需要将分散在不同数据中的多个单一知识点融合起来才能形成一个完整的链条,传统的情报方法很难实现,需要新的思路和方法,知识计算就是一种解决方案。如Valenzuela-Escárcega 等[20]提出了一种面向生物医学的文献自动阅读思想和方法,该方法能够对癌症生物学科技文献进行大规模的分析,能够从有关文献中抽取出Ras基因家族的癌症生物信息传导途径和机理,进而将它们融汇成大型的因果模型,利用这些模型识别出并解释了大量先前并不明确的癌症信息传导途径。

5   智能化

智能化是大数据时代情报学最核心的特征之一,也是未来情报学发展的重要趋势。智能化是指以情报思想为指导,以解决情报问题为目标,借助大数据、机器学习、云计算、物联网等智能技术赋能情报获取、处理、分析、分发等情报全流程,实现数据、信息、知识、情报、智慧的转化、管理与应用。对于情报工作而言,智能技术带来的影响是全局性和根本性的,情报工作已经从“数据世界”的获取和管理发展到了“知识世界”的知识发现和情报知识转化这样的层次。智能技术在情报领域的应用可以提升情报全流程各阶段的能力,因此日益成为世界主要國家情报竞争的制高点[21]。正如美国中央情报局前副局长兼首席学习官Joseph Gartin[22]所言,情报领域正处于重大的转折点,未来将受到人工智能,大数据和机器学习潜在的强大破坏性影响,人工智能和机器学习正迅速成为情报中重要的组成部分。

在情报获取过程中,智能化使情报从被动采集转向主动监测,情报处理的部分功能被前置到了情报获取阶段,情报获取的效率和规模得到了极大的提升。传统的情报流程属于线性的模式,情报的采集往往是基于情报的需求和情报计划来执行的。大数据时代的情报环境存在深度不确定性,情报源的数据和信息更新快、规模大、来源多等特性决定了传统的线性情报获取模式已经不再有效,智能化技术赋能情报获取则改变了传统的情报模式,能够实现跨时空、立体、多点、主动的监测,通过智能感知从海量信息中主动获取微弱信号,提前预警预测可能发生的危机。如Compton R等[23]提出了一种用社交媒体进行智能感知的情报获取思想和方法,该方法通过智能过滤器动态地从推特上公开可用的数据中提取推文,快速收集有關即将发生的事件的时间、地理位置等关键信息,有效避免了大量获取的无关信息对情报分析带来的负担,对拉丁美洲可能发生的社会动荡事件进行高效预测。

在情报处理和分析过程中,智能化使情报分析主体从分析人员转变为智能机器代理,智能机器代理承担了更多的情报分析和处理任务。在传统的情报工作中,情报分析人员要花费大量的时间和精力对图像、视频、文本、社交媒体等全源情报进行分析,从时空、事物、人物、事件等多维度去发现特定的联系或模式,这种方式已不再适用新的大数据情报环境。大数据时代的情报处理和分析,智能机器代理通过模拟情报人员的情报分析认知模式,以便理解复杂的现象世界,并对关键的对象、事件进行提取和抽象,协助情报人员发现动态变化的情报环境中复杂事件所蕴含的模式和趋势。如美国伊利诺伊大学的研究团队在研究人类对复杂事件如何进行组织的认知规律的基础上,提出了基于事件理解的抽象模式和事件组织结构,借助自然语言处理、图像识别等智能技术从多源异构情报源中识别对国家安全产生重大影响的动态,并对复杂事件及所有参与者按时间顺序进行链接和组织,进而识别和绘制出看似无关的事件或数据之间的关联关系,从而对国家安全与影响国家利益的事件进行预警[24-25]。

6   一体化

情报的一体化是新时期情报思想、情报体系和情报工作的一种转变。从国外看,美国情报部门认为当今世界充满复杂性和不确定性,美国面临的战略环境急剧变化,其受到的来自国际与国内的威胁与挑战日趋多样且相互关联,情报一体化是应对上述挑战的一种明智的情报战略转变。美国历来就非常重视情报一体化的建设,不论是战略目标制定上还是战略实施方法,情报一体化都是核心内容[26]。一体化就是通过情报体系整合化、情报流程协同化、情报资源集中化,整合情报界各部分力量,使整体力量大于各部分之和[27]。从国内看,新时期我国情报工作的外部环境发生了重大转变,情报工作正面临“百年未有之大变局”,国际形势正处在新的转折点上,世界多极化、经济全球化、社会信息化、文化多样化深入发展,各国相互关联、相互依存度前所未有,国际形势进入了加速演变和深刻调整的时期[28]。情报体系所面临的外部环境是一个相互关联、相互影响、非线性的复杂系统,牵一发而动全身。如近年来,以美国为首的国家发起的贸易争端,这背后涉及到国家的科技安全、经济安全、产业安全等问题,这些问题错综复杂、相互交织,这就需要一体化的情报思想、情报体系应对新的挑战、化解重大危机。情报的一体化经历了两个发展阶段,第一个阶段是在全球化的背景下,情报工作强调跨部门或跨国的同类情报和信息的共享与交互。全球化促进了国际贸易和投资、技术进步和经济改革,创造了一个无国界的世界。但越来越多的边界渗透、流动人口以及全球金融和通讯带来了许多新的安全挑战,包括政权颠覆、内战、传染病、恐怖主义、叛乱、族裔冲突、非法贩运人口、毒品、武器、走私等[29]。上述安全挑战具有跨国、跨地区的特点,这就需要情报工作加强国家间情报机构、国际组织、私营机构之间的合作,通过情报的共享与交换应对这些安全挑战。特别是在金融情报、公共卫生情报、反恐情报等领域开展情报共享与交换尤为重要。如欧盟国家为加强打击国际金融犯罪的力度,荷兰、英国、法国、卢森堡等国于2002年联合建立了欧盟的金融情报体系—金融情报网络(FIU.NET),开展欧盟金融情报部门之间的信息交换,取得了一定效果。

上述信息共享是在单一类型情报系统内,不同类型机构间并不存在横向上的情报共享机制,逐渐形成烟囱式体制,无法产生更高价值的情报产品为预警、决策服务[30]。特别是近年来国际情报战略重心已从全球反恐情报转向地缘政治情报,情报一体化发展跨入了第二个阶段,即向情报深度全域融合的一体化方向发展。深度全域融合是指情报工作已不再局限于特定领域、特定类型的机构、特定区域或国家,而是重视全领域的、全类型的情报共享,从以往强调专业化的垂直情报,转向强调全局化的多领域横向融合的情报,打通分散在各个领域、各个层次的情报孤岛。深度全域融合主要体现在两个方面:一方面是在情报的体系架构上实现情报的融合,建立类似于大脑中枢机制的情报中枢,通过情报中枢将不同区域、不同机构、不同来源的信息、情报汇聚到中心节点、集中统一进行分析和处理,为不同的情报机构提供统一的、全局的情报,从根源上有效的解决了情报共享的问题。最典型的例子是美国在2003年开展的情报融合中心项目,主要目的是提升联邦政府层面上如联邦调查局、中央情报局、司法部、美国军队等与州级、地方政府之间相互分享信息能力[31];另一方面是在情报服务国家重大决策上,往往涉及的领域和层面较多,更加强调从全局多领域视角洞察隐藏的重要模式和重要因素之间相互的影响。传统的情报工作模式都是不同领域、不同层次的情报机构为重大决策分别提供情报参考,这种情报是割裂的,难以产生情报的协同效应,情报的辅助决策功能大打折扣。这就需要系统的、全局的将军事情报、经济情报、社会情报、产业情报、科技情报等情报领域统一协调,从总体的角度为决策层提供的全局的、跨领域的全面态势感知,为决策的各个方面、各个环节提供全面的情报。如在供应链安全情报领域,一般会涉及众多的产业公司、情报组织、政府部门和非政府组织,供应链特别是ICT领域的供应链往往链条较长,影响辐射面较广,供应链的多层次性质掩盖了家庭、汽车、航空运输以及至关重要的政府武器系统和关键基础设施中使用的产品和技术服务的安全性,这就需要一体化的情报保障供应链安全[32]。2018年,美国政府通过了《安全技术法案》,在情报组织体系上由联邦采购安全委员会(FASC)开展供应链安全的情报工作,其采取了“全行业”和 “全政府 ”的策略,联合了联邦部门和机构、州和地方政府以及私营部门,在情报资源和情报服务上,通过为众多情报合作机构和组织提供统一的平台来实现供应链情报的共享和一体化情报决策服务,进而减轻对手对美国供应链的不对称攻击[33]。

7   多元数据融合

多元数据融合是指在情报工作重视多来源、多类型的数据,并在情报工作中注重这些数据的整合与融合。如在科技情报领域,多元数据一般包括论文数据、专利数据、科技新闻、学术网站、实验数据等,多类型的数据包括数值型数据、文本型数据、流媒体类数据等。多元化的数据可以从不同的角度刻画出情报对象的特征,多元数据融合综合利用情报对象相关的各种信息,以更加全面、系统的方式刻画和描述出情报对象的发展状态和趋势。美国国防部资助的 “科学和技术预测的回顾性研究”项目中指出,最好的预测不是从单个数据流中构建的,而是从数百或数千个数据流的平均值中得出的[34]。由此我们可以看到,多元数据融合不仅提升了分析的全面性,還提升了分析结果的准确性。

多元数据融合是现代情报领域中非常重要的一个特征和方法论,多元数据融合的第一次飞跃是在2000年左右,信息技术的不断发展和成熟,在金融消费、个人出行、移动通信等领域得到了广泛的应用,社会组织和个人的活动都可以被其产生的数字足迹追踪到。另一方面,受911恐怖袭击的影响,面向社会情报的多元数据融合和情报获取愈发受到国内外情报界的重视。如2003年美国情报界开始重视公民多元数据的获取和融合化工作,通过持续的自动监测与分析来识别并预警可能的高风险恐怖活动[35]。美国国防高级研究计划局DARPA开展的完全掌握情报项目(Total Information Awareness),通过开发超大型全源信息存储库技术创建虚拟、集中式的大型数据库,实现对多来源信息融合[36],其中多元数据包括:财务记录、医疗记录、通讯记录和旅行记录以及新的信息来源。该项目开发的数据挖掘和知识发现工具能够对大量信息进行分类以识别和发现特定的恐怖活动模式。多元数据融合的第二次飞跃是在2010年以后,Web2.0技术、大数据技术、传感技术等新一代信息革命推动了全球社会、经济、生活与数字技术的深度融合,可供情报工作使用的数据在数据量、多样性、丰富性、可访问性等方面都有大幅的提升,面向Web的、面向开源数据的情报采集与获取成为这一时期情报界研究的重点。如韩国首尔国立大学的Heyeol Kwon[37]提出了一种基于多元数据融合的新兴科技情报分析框架,该框架通过不仅获取了传统科学出版物的数据,还融合了多个开源的科技数据源,包括了Web学术数据、Wikipedia数据等,通过潜在语义分析、知识提取、实现了对新兴技术的分析和预测。该研究发现,不同数据源对科技预测起到的作用是不同的,而且,相同的内容在不同数据源中出现时所代表的含义也是不同的。如当科学研究产生成果时,最先会以学术论文的形式出现,相关内容会出现在论文数据源中,表明有可能出现科技变革;当某个研究成果已经达到一定的成熟度时,专利就会开始引用相关文献,相关内容会出现在专利数据源中,预示着未来技术变革的可能性进一步增大;而当相关内容被新闻转载时,说明这些内容已经不局限在学术圈之内了,这些内容已经引起社会的高度关注,意味着该研究成果已经成熟或者即将成熟。由此通过多元数据的融合就能判断出新技术的发展趋势以及当前的发展阶段。

8   方法联合化

方法联合化是指通过融合多种情报方法、情报模型的优势对情报问题进行求解,以获得最优的情报决策、推断、预测等结果。任何单一的分析方法和模型都是从某一个维度或角度对分析对象的一种反映和呈现,各种分析方法和模型都有自身的优势和劣势,为了最大化避免分析方法和模型的不确定性和尽量减少分析误差,充分利用各种分析方法和模型的优点,就要通过多种分析模型和方法的混合、组合、整合等融合手段来抵消各自的系统不同偏差,从而取得准确的分析结果[38]。

大数据时代,情报任务呈现出两个突出的特点:(1)情报需求更加复杂化、模糊化,深度不确定的情报环境造成了情报用户对情报需求和情报问题难以清晰定义,存在“走一步看一步”的情况,明确情报任务和问题本身就成为一个情报问题,需要从情报需求的不确定性中探索确实性;(2)情报对象更加多元化、隐蔽化,情报对象的真实面貌往往被大量数据和信息所掩盖,真实的情报需要多方法联合化来融合大量的“信息碎片”以发现“全貌”。上述特点强化了情报工作中多方法、多模型联合使用。具体地说,首先,需要联合多种分析模型和方法提高情报工作的准确性、全面性和可靠性。如在情报分析中,单一的情报方法很难达到较为理想的准确率,相对于选择最佳情报模型而言,多种情报模型和方法的融合是提高分析的准确性的一种手段[39]。美国著名的技术情报专家Tugrul.U Daim曾指出,新兴技术识别是非常困难的,特别是在缺乏可用历史数据的情况下,复杂的商业技术如芯片技术、动力电池技术、食品安全技术等通常会有多种因素(政治,文化等)影响商业技术的普及,仅靠技术趋势的分析是无法考虑到这些因素对技术的影响。他提出的解决办法就是将文献计量法、专利分析法、系统动力学等多种方法进行组合,对新兴技术进行融合分析。使用文献计量方法和专利趋势曲线拟合方法从技术视角对新兴技术进行分析,使用多选项分析和组织影响力分析从组织视角对新兴技术进行分析,使用市场分析和竞争力分析通过校准代表消费者偏好的变量来合并个人观点从消费者视角对新兴技术进行分析,最终通过系统动力学将所有这些变量合并到一个模型中,以便表示复杂的反馈回路,并生成表示市场渗透率的预计S曲线,实现对商业技术的精准分析和判断[40]。其次,数据驱动型和知识驱动型方法的联合化。本文提到知识化是当前情报学的一个重要特征,而知识驱动的方法往往会与数据驱动的方法一同使用。在大数据环境下,一方面,海量的数据流动和离散多元的信息严重影响了情报分析的效率和效果,所以还需要相关领域的知识来支撑数据驱动的分析;另一方面,大数据环境下的情报需求具有不确定性,这就需要情报分析方法对复杂情报环境和分析对象具有深入的洞察力。数据驱动和知识驱动相融合的方法非常适合在问题边界定义模糊的情报分析场景中发现一些隐藏的模式。如在舆情分析中,知识技术的应用主要对特定领域、特定需求的舆情信息进行组织,从而对舆情数据的采集、分析进行过程性指导和监督,甚至可以直接用于舆情服务,提高大数据舆情分析系统的准确性和实用性。张思龙和王兰成[41]提出了一种知识和数据双轮驱动的网络舆情分析技术,它既能发挥大数据处理技术在智能信息处理和深度语义挖掘方面的优势,又结合了知识技术构建一系列的舆情知识库和案例库,从而完善舆情知识服务体系。

9   结果聚合化

结果聚合化是指在情报领域利用群体智慧效应获得相对最优的情报问题解决方案或情报分析结果,一般包括针对特定情报任务或问题的推断、决策或预测。群体智慧是从许多个体的合作与竞争中涌现出来的,具有优于个体的智慧与能力的特点。著名的科学家弗朗西斯·高尔顿曾通过实验发现聚合众人智慧优于个人的智慧。他让787个不同职业的人根据自己经验去猜测一头牛的体重,尽管每个人的答案与实际重量(1197磅)相差甚远,但最终答案聚合后的平均值却十分接近正确答案,误差不到一磅[42]。美国科学院院士斯科特·佩奇[43]进一步从多样性的视角验证了在复杂环境中多样性在决策上的优势,证实了聚合具有多样性的认知、多样性职业背景、多样性教育背景的群体智慧,在进行分析、决策、预测时往往优于能力较强的个人或单一背景的团队。

近年来,研究表明,领域专家在分析和决策中普遍存在一定程度的认知偏差,诺贝尔奖获得者丹尼卡尼曼[44]指出,认知偏差会影响预测者做出理性的推理。在情报分析领域,美国著名的情报科学家菲利普·泰洛克曾受IARPA的资助进行过长达数十年的实证研究,其研究结果表明,单一领域或单一背景的专家(组)在情报分析中做出的推断、预测的准确性要落后于具多样性背景的团队[45]。针对情报分析和决策中单一的分析结果可能存在的认知偏差问题,情报结果的聚合是一种有效的解决途径,通过充分发挥群体的智慧、聚合来自不同分析团队对同一情报问题的分析结果,可以使分析结论更加全面、客观、理性。菲利普·泰洛克[46]提出了一种全新的聚合群体智慧进行情报预测的思想和理论方法体系,并将该方法应用于地缘政治“宜居带”问题的预测(即难度适中,即不能特别容易,也不能难到世界上无人可以回答)。首先,从全美招募了2700多名志愿者,他们的教育背景、职业、年龄各异,通过均化的方法将他们全部的预测结果进行聚合,第一年团队的准确率比个人高23%。之后,遴选出准确性较高的预测者组成超级预测者团队,通过在线预测平台向众多分布在各地的预测者发布相关的预测问题并及时推送与预测相关的各种信息,在交互的过程中完成预测结果的收集并通过聚合全部预测者的结果进行平均。结果显示预测平均准确率高达80%以上,远远超过了掌握机密资料的专业分析人员的预测。除此之外,信息市场也被认为是一种比较有效的结果聚合模式,信息市场是交易特定合同的市场,该种合同基于不确定的未来事件的结果,以此确定赢亏,现在被用于预测各类事件包括国际事件、社会事件、科技预测等领域[47]。信息市场的机制是增加准确预测者的资产,并使最不准确预测者的资产趋于零。那些具有较强预测能力的人则倾向于将更多的资产进行投资,因此会对市场价格产生更大的影响[48]。其本质就是将分析者的智慧、知识、信息通过网络平台进行聚合通过市场行为形成最优化的决策、预测结果。

10   人机融合化

人机融合化是指在情报工作中使机器概率化的智能与情报分析人员有机化的智能相互融合、互为补充,共同协作完成复杂的情报任务。情报工作往往涉及到社会、文化、道德、宗教、价值取向等多种因素,人之所以有人的用处,主要在于人有区别与其他物体和生物的道德、人格、灵魂、精神、记忆等精神活动[49],这是在情报工作中机器和人工智能技术不能替代人的重要原因。在情报工作中,将情报组织在决策、预测、干预中体现的价值效应(社会价值、文化价值)和国家利益融入机器的算法和模型之中并相互匹配,形成有机化与形式化相互协调的、理性的、智慧的情报结果。情报的人机融合化是一个递归循环的过程,一方面情报组织通过充分发挥人在反省、归纳、预期等认知能力,将基于自身发展目标、战略意图等隐性的情报预期与机器进行融合,而机器则充分发挥其在搜索、分析、计算、优化等方面的能力。人机融合就是人处理其擅长的“应该”(should)等价值取向的主观信息,而机器不仅处理其擅长的“是”(being)等规则概率的客观数据,同时也将从人处理“应该”(should)信息中优化自己的算法,从而产生人+机器既大于人也大于机器的效果[50]。

传统的情报工作中,机器处于辅助地位,主要承担了信息的存储、组织与计算;人的分析处于主导地位,依赖于大量的分析人员直接干预分析的方法、分析的过程以及对分析的结果进行解释,这就使得需要一定的分析周期才能最终形成情报产品以辅助高层决策。近年来,一方面,情报工作发生根本性转变,情报环境更加复杂多变,竞争对手更加狡诈敏捷,情报任务具有影响要素众多、抽象层次较高、时间更加紧迫、不确实性更强的特性;另一方面,随着人工智能技术特别是态势感知、人机协同认知、智能决策等认知智能技术的成熟,人机融合化正逐渐成为情报领域重要的特征和发展趋势。人机融合化使机器成为情报分析中解决问题的合作伙伴,在网络安全、数据分析、灾难援助等情报工作中与人类分析人员共同完成较为复杂和高级的情报任务。这就要求机器要像情报分析专家一样承擔更多的、更高级的情报分析任务,解决机器和人类在情报处理等“思考”方式上的基本差异,促进情报领域的人机融合化。如2017年DARPA确立了全新的情报发展战略——将机器作为合作伙伴,从认知层次解决情报问题(Transform cognitive problems using machines-as-partners)[51],这一发展战略背后蕴含三层含义:(1)机器与人共同协作、融合承担更高级别的情报分析任务;(2)将人的情报分析思维和认知机制向机器迁移,使机器模仿人的情报、知识的转化、融合机制;(3)机器要具有一种更适合机器的情报决策、预测、干预的认知能力,最终超越人类情报认知能力。目前,机器正在认知上学习和模仿人类的情报分析策略和机制,在某些分析能力方面已超越人类的现有分析能力,人机融合将在未来的情报工作和复杂决策中发挥重要作用。如南加州大学的研究人员研发了一种用于地缘政治预测的人机融合的系统SAGE[52],该系统不仅融合人类分析员的预测,还包括了一系列基于数据驱动的机器模型。机器模型可以预测事件的结果,或者作为工具帮助人类分析员梳理大量的数据,寻找历史事件的证据,而人类分析员对定性数据进行推理,结合机器对数据聚合、处理的能力,实现更加精准的预测。该平台融合人类洞察力和机器学习模型,允许数据驱动平台针对缺乏历史先例的新兴问题“实时”整合人为的反馈。在2019年,SAGE已与另外两个预测系统进行了对比测试,对相同的400多个地缘政治问题进行了预测,SAGE系统生成的预测结果比其它两个系统更加准确。

参考文献:

[1]  XDATA.Defense Advanced Research Projects Agency[EB/OL].[2020-10-14].https://www.darpa.mil/program/xdata.

[2]  DARPA.DARPA Big Mechanism[EB/OL].[2020-10-14].https://www.darpa.mil/program/big-mechanism.

[3]  贺德方.情报工程学的探索与践行[M].北京:科学出版社,2016.

[4]  吴晨生,张惠娜,刘如,等.追本溯源:情报3.0时代对情报定义的思考[J].情报学报,2017,36(1):1-4.

[5]  吴晨生,陈雪飞,李佳娱,等.情报3.0环境下的情报生产要素特征与情报生产方式变革[J].情报理论与实践,2018,41(1):1-4.

[6]  李广建,江信昱.论计算型情报分析[J].中国图书馆学报,2018,44(2):4-16.

[7]  Choi S,Jun S.Vacant technology forecasting using new Bayesian patent clustering[J].Technology Analysis & Strategic Management,2014,26(3):241-251.

[8]  李广建,罗立群.计算型情报分析的进展[J].中国图书馆学报,2019,45(4):29-43.

[9]  Khalsa S. The Intelligence Community Debate over Intuition versus Structured Technique:: Implications for Improving Intelligence Warning and Analysis[J/OL].[2020-10-13].https://journals.lib.unb.ca/index.php/jcs/article/view/15234/20838.

[10]  McKeown K,Daume III H,Chaturvedi S,et al.Predicting the impact of scientific concepts using full‐text features[J].Journal of the Association for Information Science and Technology,2016,67(11): 2684-2696.

[11]  Cioffi-Revilla C.A methodology for complex social simulations[J].Journal of Artificial Societies and Social Simulation,2010,13(1): 7.

[12]  王飞跃.人工社会、计算实验、平行系统——关于复杂社会经济系统计算研究的讨论[J].复杂系统与复杂性科学,2004(4):25-35.

[13]  罗俊.计算·模拟·实验:计算社会科学的三大研究方法[J].学术论坛,2020,43(1):35-49.

[14]  彭程,祁凯,黎冰雪.基于SIR-EGM模型的复杂网络舆情传播与预警机制研究[J].情报科学,2020,38(3):145-153.

[15]  Sinatra R,Wang D,Deville P,et al.Quantifying the evolution of individual scientific impact[J].Science,2016,354(6312): aaf5239.

[16]  王静宜,徐敏,祝振媛,等.情报分析中的方法应用研究[J].情报理论与实践,2020,43(1):33-41.

[17]  Brookes B C.The Foundation of Informatiom Science,PartⅢ,Quantitative aspects[J].Journal of Information Science,1980,2(6):269-275.

[18]  邱韻霏,李春旺.智能情报分析模式:数据驱动型与知识驱动型[J].情报理论与实践,2020,43(2):28-34.

[19]  王萍,牟冬梅,石琳,等.领域知识融合驱动下的数据挖掘模型构建与优化[J].情报理论与实践,2018,41(9):114-117,153.

[20]  Valenzuela-Escárcega M A,Babur ?觟,Hahn-Powell G,et al.Large-scale automated machine reading discovers new cancer-driving mechanisms[J/OL].[2020-10-13].https://academic.oup.com/database/article/doi/10.1093/database/bay098/5107029#129405514.

[21]  栗琳,孙敏.数据智能技术驱动的情报全流程变革及发展[J].情报理论与实践,2020,43(10):7-12.

[22]  Gartin J W.The Future of Analysis[J].Studies in Intelligence,2019,63(2):2.

[23]  Compton R,Lee C,Lu T C,et al.Detecting future social unrest in unprocessed twitter data:“emerging phenomena and big data”[C].2013 IEEE International Conference on Intelligence and Security Informatics.IEEE,2013: 56-60.

[24]  Li M,Zareian A,Zeng Q,et al.Cross-media Structured Common Space for Multimedia Event Extraction[J].arXiv preprint arXiv:2005.02472,2020.

[25]  Li M,Zareian A,Lin Y,et al.GAIA: A Fine-grained Multimedia Knowledge Extraction System[C].Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations,2020:77-86.

[26]  赖金辉.构建一体融合的情报界——2019年版《美国国家情报战略》解读[J].情报杂志,2019,38(12):48-53.

[27]  Office of the director of national intelligence: National intelligence strategy of the United States of America 2019[EB/OL].[2020-10-14].https://www.dni.gov/files/ODNI/documents/National Intelligence Strategy 2019.pdf.

[28]  中共中央党史和文献研究院.习近平关于总体国家安全观论述摘编[M].北京:中央文献出版社,2018.

[29]  Heine Jorge,Thakur Ramesh.The Dark Side of Globalization[M].New York: United Nations University Press,2011.

[30]  張家年.情报融合中心:美国情报共享实践及启示[J].图书情报工作,2015,59(13):87-95.

[31]  Intelligent Fusion Center[EB/OL].[2020-10-13].https://www.dhs.gov/fusion-centers.

[32]  Supply Chain Risk Management A Framework for Assessing Risk[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-SCRM-Framework-for-Assessing-Risk.pdf.

[33]  NCSCNewsletter[EB/OL].[2020-10-13].https://www.dni.gov/files/NCSC/documents/supplychain/20190422-NCSCNewsletter.pdf.

[34]  Charbonneau S,Fye S,Hay J,et al.A retrospective analysis of technology forecasting[C].AIAA SPACE 2013 Conference and Exposition,2013: 5519.

[35]  United States.Office of Homeland Security.National strategy for homeland security[M].Office of Homeland Security,2002.

[36]  Murray N.Profiling in the age of total information awareness[J].Race & Class,2010,52(2): 3-24.

[37]  Heyeol Kwon.Data-driven Technology Foresight:Text Analysis of Emerging Technologies[D].Seoul:Seoul National University,2018.

[38]  Thomson M E,Pollock A C,?魻nkal D,et al.Combining forecasts:Performance and coherence[J].International Journal of Forecasting,2019,35(2):474-484.

[39]  Bates J M,Granger C W J.The combination of forecasts[J].Journal of the Operational Research Society,1969,20(4):451-468.

[40]  Daim T U,Rueda G,Martin H,et al.Forecasting emerging technologies: Use of bibliometrics and patent analysis[J].Technological Forecasting and Social Change,2006,73(8):981-1012.

[41]  张思龙,王兰成.知识和数据双轮驱动的网络舆情分析技术研究[J].现代情报,2018,38(4):106-111.

[42]  Surowiecki J.The wisdom of crowds[M].Anchor,2005.

[43]  Page S E.The difference: How the power of diversity creates better groups,firms,schools,and societies-new edition[M].Princeton University Press,2008.

[44]  Kahneman D.Thinking,fast and slow[M].Macmillan,2011.

[45]  Tetlock P E.Expert political judgment:How good is it?How can we know?-New edition[M].Princeton University Press,2017.

[46]  Tetlock P E,Gardner D.Superforecasting:The art and science of prediction[M].Random House,2016.

[47]  Hahn R W,Tetlock P C.Introduction to information markets[J].Information Markets: A New Way of Making Decisions,2006:1-12.

[48]  Laskey K B,Hanson R,Twardy C.Combinatorial prediction markets for fusing information from distributed experts and models[C].2015 18th International Conference on Information Fusion(Fusion).IEEE,2015:1892-1898.

[49]  (美)維纳.陈步,译.人有人的用处:控制论与社会[M].北京:北京大学出版社,2010.

[50]  刘伟.人机融合智能的现状与展望[J].国家治理,2019(4):7-15.

[51]  DARPA and Data:A Portfolio Overview[EB/OL].[2020-10-13].https://www.nitrd.gov/nitrdgroups/images/3/31/DARPA-and-DATA.pdf.

[52]  Morstatter F,Galstyan A,Satyukov G,et al.SAGE:a hybrid geopolitical event forecasting system[C].Proceedings of the 28th International Joint Conference on Artificial Intelligence.AAAI Press,2019:6557-6559.

作者简介:罗立群,男,北京大学信息管理系博士后,研究员;李广建,男,北京大学信息管理系教授,博士生导师。

本文系国家社会科学基金重大项目“大数据时代知识融合的体系架构、实现模式及实证研究”(项目编号: 15ZDB129)研究成果之一。

收稿日期:2020-12-17;责任编辑:柴若熔;通讯作者:李广建(ligj@pku.edu.cn)

猜你喜欢

发展特征情报学大数据环境
专题导语:创新情报学探索
图书情报与图书馆的关系探索
大数据时代下的情报学思考
卷首语
我国战略性新兴产业发展研究
基于大数据环境的新闻编辑理念变革创新机制
改革开放以来广东包装设计的发展特征(1978—2000年)——消费心理研究