大数据环境下情报分析方法与情报分析软件探讨
2017-08-25李超周瑛周焕潘玮
李超+周瑛+周焕+潘玮
[摘要]大数据时代的到来,给情报分析带来了新的机遇和挑战。文章概述了大数据的时代背景及情报分析的发展趋势,在现有研究的基础上,对情报分析方法相关研究进行系统梳理,从中归纳出基于知识、文献、组织、专家、认知心理学等10类传统情报分析方法并指出其局限性,对7类大数据背景下的情报分析方法及常用情报分析软件进行了分类探讨。
[关键词]大数据;情报分析;分析方法;分析软件
情报分析是利用技术手段和软科学研究方法,对信息资源进行收集、整理、综合并形成有价值情报的方法。大数据环境下情报分析面临着前所未有的机遇和挑战。首先,大数据能够为情报分析提供有力的数据处理分析方法和工具,并能提升情报分析的应用价值,更好地为政府、企业、图书情报机构提供决策支持。其次,大数据环境下,情报分析过程面临数据量越来越大、数据类型更加复杂、处理和分析难度增大、精准化的用户需求及有针对性的结果呈现等问题。传统的情报分析方法已到了一个突破瓶颈的时期。而大数据分析和情报分析都是以数据为基础进行研究,通过分析数据和信息,为用户提供相关服务。并且都以多源数据融合、信息的定量分析、相关关系的探讨为研究重点。因此,优化和改进传统的情报研究方法,引进和创新适用于情报分析的大数据分析方法、思路、新工具和新手段,解决大数据为情报分析带来的新问题,充分挖掘大数据中蕴含的情报价值,使研究结果更加科学,就很有必要性。本文在对国内外情报分析方法进行研究的基础上,结合大数据的背景对传统的情报分析方法进行了归类并分析其局限性,对大数据背景下的情报分析方法和情报分析软件进行了探讨。
1大数据的时代背景及情报分析的趋势
随着科技的迅猛发展,在科学研究、互联网应用、电子商务、社交网络、物联网、移动互联、生物医药、医疗卫生、地理信息、影视娱乐等领域不断产生海量的数据信息,这就是所谓的大数据。大数据的基础在于数据,其特点主要是:数据类型复杂,数据体量巨大,数据价值密度较低,处理速度较快。百度公司每天处理的数据量约几十PB,共响应60亿次请求;据互联网中心和麦肯锡全球研究院预计,到2020年全球和中国的数据总量将达到35ZB和8.5ZB;关于大数据,维基百科给出的定义是:所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。而随着情报领域的知识划分逐渐细化、内容更加专深、数据量也日趋增大。我国每年新增的科技文献和专利数量分别达到了150万篇和200万条。海量的技术标准、科研文献、会议论文增长的速度已经超过了人工处理所能承受的极限,情报分析已经更多地依靠智能化、标准化、高效率的信息技术来辅助完成数据处理的工作。目前,情报分析的趋势主要是:研究领域从单一领域逐渐扩大转到全领域分析、对各种采集方式获取的不同结构数据进行综合利用、注重新媒体形式异构信息的分析、对情报分析智能化的要求不断提高。
2大数据环境下的情报分析方法
2.1传统的情报分析方法
传统的情报分析方法宏观上,根据研究手段分为:定性分析方法、半定量分析方法及定量分析方法;微观上,根据对象类型分为:基于知识的情报分析方法(知识地图法、知识基因法、空白点分析法、循证决策法等)、基于文献的情报分析方法(文献计量法、内容分析等)、基于组织的情报分析方法(SWOT分析法、产品生命周期分析法、PEST分析、定标比超法等)、基于专家的情报分析方法(访谈法、头脑风暴法、Delphi法、交叉概率法等)、基于认识的情报分析方法(哲学方法、理性思维方法、形象思维方法等)、基于认知心理学的情报分析方法(境况逻辑法、理论应用方法等)、面向军事情报的分析方法(基于物理、事理、人理的分析方法等)、面向公安情报的分析方法(哲学方法、中介方法等)、面向犯罪情报的分析方法(文件检验法、地图分析法等)、面向专利的情报分析方法(定性分析、定量分析、拟定量分析法等)。如表1。
传统情报分析方法的数据基本都是结构化、标准化、样本化的,而大数据格式明显具有异构性、多源性的特点,使传统分析方法在数据数量、类型上受到很大局限。同时,传统情报分析方法,更多地关注于文献分析,通过趋势外推进行预测;而文献数据本身存在信息不完全、表现形式单一、分类和编码困难、代表性可能不足等固有缺陷,加之大数据环境下海量数据易造成认识偏差,导致分析结果的科学性会受到很大影响。对于大数据环境下社会网络结构分析、批量与流式分析、可视化分析、空间信息分析等需求,传统分析方法也难以满足。因此,在應用中须对传统情报方法进行优化、改进、继承和创新,同时引进新思路、新工具和新手段,使研究结果更科学、高效、准确。
2.2大数据背景下的情报分析方法
海量的异源异构数据,对情报分析造成了巨大的冲击,而大数据分析方法与情报分析方法在本质上有很多共同之处,并且在数据处理方面更加优越。首先,大数据分析方法能够对数据进行深度分析,充分挖掘数据问的关联性,提升数据价值;其次,大数据分析能够有效进行多源数据融合,兼容多种结构和媒体形态的数据;最后,大数据分析基于更先进的平台和开发技术,具有更高的处理效率。因此,引进情报分析领域适用的大数据分析方法并进行创新,充分挖掘大数据中蕴含的情报价值是当前情报分析领域的研究热点。综合考虑方法本身的可操作性、可移植性、完整性等因素,本文从微观层面对18种大数据背景下的情报分析方法进行归类和分析。如表2。
2.2.1面向挖掘的分析方法
图模型分析与挖掘:图模型挖掘是文本数据挖掘方法的一种重要应用。赵斌等,通过一种基于“词项一消息一用户”的TWU图模型,来对微博中群体观点进行挖掘,把时戳作为边的属性来处理,提出了时间敏感性随机游走算法TSRW,通过对词项的相关性进行度量来挖掘群体观点。姜春涛等,提出用图示法定义专利文本单元语法及相似性关系,利用语义技术提高专利智能分析的准确性和性能。
信息提取:是把文本里包含的信息进行结构化处理,然后以统一的形式集成在一起,以便进行比较分析的一种方法。张敏,刘建华等,通过开源工具PDFBox和Tika对不同类型的富文档元数据及正文内容进行提取。首先,通过解析Content-Type来获取MIME类型名称,识别文档的类型;再通过对富文档进行分析,提取文档的创建时间、修改时间、文档标题、文本内容等重要信息,拓展了文本知识内容的识别方法。
时空数据挖掘:随着移动终端定位信息服务的发展和网络中描述时空范围的信息不断增加,挖掘时空信息并提升其价值,成为了数据挖掘领域的前沿课题。时间信息通常可从网页内容、用户数据或超链接中提取,Allen首次提出用代数的区间来表示时间。概率模型法、粗糙集、自动注解等方法都适用于时间的识别。空间信息分为源位置和目标位置,分析主机位置就可以定位到源位置,通过地理文本分析和地理信息标识可以找到目标位置。Lauw、Pham、Crandall等人提出了基于时空事件模型的社交网络发现方法,通过分析用户的地点信息、用户在时间和空间上的共现,预测用户之间的社交联系和强度。时空挖掘方法针对舆情研究、社交网络分析、研究主题周期等情报分析问题有很好的帮助。
联机分析:是对大量数据进行快速、灵活地分析和处理,为决策人员提供信息支持的一种快速软件技术,能够支持复杂查询处理。随着大数据时代信息化程度的提高,数据量不断增大、数据维度不断增多,联机分析技术正向着高效查询的方向发展。高雅卓,倪志伟等提出了基于关联规则挖掘的数据立方体物化方法及立方体增量更新算法。并进行了基于变量选择的OLAP查询流程模拟实验,证明算法提高了查询推荐的效率。于非,张岚,张柏秋,对美国ProQuest公司的ProQuest Dialog国际联机检索平台的指令算符、索引字段做了详细比对与分析,指导用户合理组配构建逻辑关系紧密的检索策略,提高查全率和查准率。
关联分析:是一种从海量数据或其他信息载体中发现项目或对象集合之间相关性、相关关系或因果结构的分析方法,常用的算法是Apriori算法和FP-growth算法。何超,张玉峰设计了商务情报语义关联分析算法,自顶而下进行多层知识挖掘,对用网络图结构表示的文本中的关联模式进行探索。杨建林对同一作者在其发表的所有期刊论文中列出的所有关键词进行关联分析挖掘,挖掘过程包括:业务理解、数据准备、数据预处理、数据挖掘和结果分析5个步骤。以发现学术个体在研究方向选择方面的行为特点,揭示不同研究方向两两之间的关联强度。
数据挖掘和文本挖掘:通過对结构化的数据进行挖掘,发现潜在的关联规律和模式的方法。数据挖掘偏重于图书馆信息检索服务方面,而文本挖掘属于计算机领域的研究内容,主要用来揭示文本中的词与句法特征。李信,李旭晖等采用数据挖掘方法,以Web of Science为数据源,借助SATI和SPSS软件分析了大数据驱动下图书情报学科研究的现状和进展。
2.2.2面向发现的分析方法
深度学习:是利用层次化的架构,对大数据进行有效学习、解释和表达的方法,相对传统的模型和方法,更为复杂和深入。该方法通常和人工神经网络方法相结合使用。随着科技发展大规模神经网络分析技术提升了深层感知的效果,与大数据形成相互促进的关系。体量浩大的大数据解决了人工神经网络训练样本不足的问题,而神经网络能够对异构数据、多源数据进行整合、提取特征和抽象,捕捉变化动态,实现大数据价值转化。Bengio等利用自动编码器,实现了非概率无监督深度学习;斯坦福大学Socher等,在解决情感分析问题时采用了递归神经网络,将识别率提高了5个百分点。国内,科大讯飞和百度的IDL对深度学习技术进行了深入研究,获得了良好效果。
知识计算:大数据知识计算是学术界的研究热点之一,是通过对数据进行抽取并构建成知识库(支持查询、分析、计算),从而进行高端分析,提升知识的价值。世界各国都发布了知识搜索平台,如wolframalpha知识计算平台、TrueKnowledge知识搜索平台、knowledge graph搜索服务、维基百科知识库等;国内有多所高校和研究所也参与了知识库建设工作,如上海交通大学建立的zhishi.me平台,复旦大学GDM推出的知识图谱平台,中科院数学研究院发布的知件等。知识库的构建工作包括:手动或自动构建知识库、对多源知识进行融合并更新知识库。手动构建知识库,需要专业人员并花费大量人力物力,如:知网(Hownet)、同义词词林、概念层次网络(HNC)和中文概念词典(CCD),OpenCyc;自动构建方法分为有监督的构建方法和半监督的构建方法,如Probase 和YAGO知识库。
社会计算:随着大数据时代社交网络的兴起微博、Twitter等在线应用使人与人之间的关系网络更加紧密,人的互联逐渐成为信息互联的载体和信息传播的媒介。因此,社会计算成为了学术界较为重视的研究内容。目前,社会计算的热点主要集中在社会网络结构分析、信息传播模型分析、信息内容分析、社会媒体中信息检索与数据挖掘等方面。社区结构是在线社会网络结构分析领域的研究方向之一,主要针对社区的定义、度量、结构演化等问题进行分析。在线社会网络信息传播模型研究方面,影响力较大的是传染病模型和随机游走模型;随后,不同领域专家从网络动力学、消息可信度、消息新颖度、消息的流行度等不同角度对进行了建模和实证分析。社会网络信息检索和挖掘,在大数据环境下需要处理:信息碎片化、自媒体现象、人的互联取代信息互联等一系列问题。国外专家Yang提出了时间序列聚类算法,Bollen通过情感分析提出情绪时间序列的方法。国内包括:清华大学、北京大学、上海交通大学、中国科学院等机构已经对社会媒体检索和挖掘进行了深入研究。
粗糙集理论是一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具,在情报学领域多用于专利分析、知识库构建、多指标综合评价、影响力评估等问题。大数据环境下粗糙集理论通过增量式学习和海量数据集进行合理分割的方法来解决数据量过大的问题。通过基于对等价关系的泛化,比如限制容差关系、相似关系、容差关系、模糊聚类等方法来处理不完备信息。周磊分析了粗糙集与模糊集、证据理论、神经网络进行融合形成的三种方法在竞争情报分析中的应用及基本工作流程。袁润,钱过利用粗糙集理论分析专利数据,并按照核心专利综合指数将特定领域专利进行分类。
语义分析:是指将人类的自然语言转化为反映其意义的某种形式化表示,使计算机能够理解。当前在概念、关系层次上的语义分析主要包括:基于统计的特征向量抽取和基于语义词典的相似度计算方法。ICTCLAS(Institute ofComputing Technology,Chinese Lexical Analysis System),是中国科学院技术研究所开发出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS3.0具有分词精度高、查询速度快、内存占用小等多种优点。北京理工大学张华平博士开发的NLPIR汉语分词系统也是国内用户较多的基于大数据语义挖掘平台,能够实现分词、关键词、聚类、分类、摘要、去重、情感分析、特定人物情感分析、精准搜索等功能。美国State Street金融服务公司,在公司首席科学家David Saul的领导下,采用语义技术来整合公司各种数据库,使得大数据真正变成了“智慧数据”。语义分析技术目前在图情领域多用于学科知识服务、个性化推荐、查询扩展、智能检索、数字资源网络聚合、微博主题挖掘、元数据描述、网络舆情分析等。
统计模式识别:统计模式识别是结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。该方法在图书情报领域主要应用于文档分类、文档图像分析、多媒体数据库检索等方面。
2.2.3面向可视化的分析方法
随着大量信息的产生,图书情报学领域研究人员需要对海量数据进行处理和利用,探索数据之间的关系、隐藏的规律,从而对事物发展的趋势进行预测,为决策者提供实时、准确的信息支持。可视化分析融合了多个领域的方法包括:地理空间分析、信息分析、科学分析、统计分析、知识表示、知识发现等。可视化分析流程主要包含5个步骤:根据研究主题,选取数据源并抽取数据;确定需要分析的元素,如期刊、学科、作者、学位论文等;再确定数据元素的关系,获取关系矩阵;最后绘图并通过分析获得相应关系信息。如何应对高维度、大规模、多类型、来源复杂、动态演化的大数据信息,提高信息的可用性,更好地提供决策支持,是情报可视化领域需解决的问题。目前主流的方法是数据转换和视觉转换。通过删除节点的方式简化网格,解决了曲面可视化的问题;Hoppe提出了渐进网格表达方法;Cignoni提出提高信息解析度、多尺度、多层次展示的方法,利用四叉树纹理层次和三角片面二叉树对几何和纹理进行展示;此外,还有将数据放置在外存的核外算法;采用细节强调的方式,简化非重要数据的方法,如鱼眼视图、空间树等。
2.2.4面向预测的分析方法
时间序列分析与多元统计分析:两种方法共同点是能够基于历史数据的变化,评价事物现状或预测事物未来的发展。前者主要通过调查或统计抽样获得系统的时间序列动态数据,然后进行相关分析和模型曲线拟合,预测发展趋势;后者是对多个观察对象和指标之间关联规律进行研究的方法,是从统计学中发展的一种综合分析方法,包含了:多元方差分析、多元线性回归与相关分析、主成分分析、因子分析、聚类分析等。
话题演化分析:话题演化分析方法是近年来文本挖掘领域的研究热点,主要采用LDA模型、LSI模型等,将对文本中词语表示为话题集合,模拟话题随时间推移表现出的变化。陈福集,马梅兰以成都女司机为研究对象,进行话题识别和演化过程分析,并研究了特征词分布特点,建立了关联度判别函数,改进了single-pass聚类算法,证明全生命周期模型分析话题演化方法能够对一般舆情发展进行分析。廖君华,孙克迎,钟丽霞采用LDA模型提取熱点话题,利用时间标签发现热点话题,以“钓鱼岛事件”实验证明模型能预测话题演化趋势。
2.2.5面向统计的分析方法
多维尺度分析统计,是在保留原数据几何关系的前提下,应用降维技术,通过非线性变换,把高维度空间的数据转换成低维度空间的数据,并进行统计分析的技术。目前较为流行的算法有:随机寻径网络算法,对时变性和随机性海量数据进行分析,目标是生成一个节点数目不变、只保留有效链接的精简网络即最小值网络;最小生成树算法,该方法曾被用来计算文献的共被引距离进行可视化分析和构造演化网络;潜在语义索引,通过海量文献进行词汇之间关系的分析,通过自然语言理解,能在一定程度上提高检索结果的相关性,多用于图书馆文献分析;突发检测算法,主要通过对学科领域内焦点词的发展,增长势头进行比较,研究学科领域内研究热点的变化、发展情况。
图论方法,是通过图形的角度对网络进行研究,反映网络数据之间的关联,能够进一步提高对数据的理解和分析能力。Andrei Broder等人通过搜索引擎收集了大量网页和链接,通过绘制网络拓扑,利用图论方法对本地及全球互联网的图形特征进行了研究。Google通过分析网页之间的链接图,来分析网页之间的关系,提高搜索的质量。PageRank算法基于对网页权威性的判断,使Google能比竞争对手更快地获取相关信息。
移动应用统计方法。随着移动互联网的发展,各种移动图书馆、微信图书馆等应用不断出现。在为科研工作者及时、便捷地提供信息推送、在线文献阅读、电子图书预览等功能的同时,每天产生大量的用户行为和服务日志。通过对大量的用户数据进行收集和统计分析,能够有效对服务进行完善和改进,在用户行为分析、舆情信息移动推送、竞争情报移动推送、书目信息推送、文献移动推送、信息定制、信息关联标引等方面都有很好的应用。
2.2.6面向集成的分析方法
多源数据(知识)融合方法:多源数据融合方法,是针对大数据环境下多源异构数据分析处理而提出的方法,通过对多源数据进行挖掘和融合,有利于提升信息分析的作用、减少信息错误与疏漏、防止决策失误。R.R.Yager提出一种多源数据融合的框架,并通过投票方式有效解决数据之间冲突。K.Chopra建立了一个多源信息融合的软件工具模型,并对情报分析的不确定性评价进行了探讨;陈科文等人则从系统设计、数据处理、融合模型与方法等方面对当前多源信息融合的关键问题与应用进展进行了综述。多源知识融合方法,是以提高知识的复用和共享为目的,对多来源的知识进行融合的方法。需要对不同来源的知识进行清理、消除冗余、解决实例、概念、属性和关系的冲突。通常利用人工智能、本体、机器学习技术的自动融合方式可扩展性较好。
2.2.7事实性数据+工具+专家智慧分析法
中国科学技术研究所,针对大数据环境提出了基于“事实型数据+工具方法+专家智慧”的情报分析方法。通过定性定量的系统结合方法,对信息资源数据进行深入分析,借助专家智库,提炼出相关政策建议。美国著名的战略情报研究所一兰德公司,利用自主研发的自动数据分析框架、理性程序并借助社会知名人士、政府离职官员作为顾问,对战略情报进行综合分析,取得了良好的效果。山东省科技情报研究所和广东省科技图书馆,分别将该方法应用于海水淡化和情报服务工作中。
3大数据环境下情报分析常用软件
情报研究人员在对海量异构数据的分析处理过程中,通常需要借助专业的情报分析软件,以缩短分析周期、提高分析的效率和准确性。以下对大数据环境下常用的情报分析软件进行概括分析,见表3。
3.1可视化分析软件
可视化技术旨在利用图形图像领域的技术和方法,研究大规模信息资源的视觉呈现,帮助情报工作人员理解和分析数据。该技术是知识计量学、科学计量学等领域重要的研究方法和手段。信息可视化工具包括:CiteSpace、RefViz、HistCite、Vosviewer、Leydesdorff等。Citespace由陈超美教授开发,能够通过对某学科领域的文献数据进行挖掘、绘制可视化图谱,展示学科发展趋势和动向。目前CiteSpace5.0为软件最新版本.新版本具有四大核心功能:快速定位本领域核心文献、快捷梳理领域的文献关联、探究研究前沿和知识基础和探测学科主题分布与主题趋势。Refviz是一款对参考文献进行管理并发现文献之间关联性的软件,由OmniViz和Thomson ISI Research公司共同推出。该软件能够将文献按照内容和关联度进行分组,以词语加权方式对词语的重要性进行分类,对热点词语权值的干预。HistCite是用来分析领域内文献关系,并绘制引文图谱的软件,能够通过可视化方式对最新、重要的文献进行展示的软件。Vosviewer是荷兰莱顿大学CWTS科学技术研究中心开发的集成文本挖掘、分散视图、标签视图、聚类密度视图的文献计量和可视化分析的工具。最新开发的1.6.5版本,对可视化效果进行了提升,提供了新的命令。允许用户对网络和数据密度可视化叠加效果进行自定义,并能够以自动化的方式创建VOSViewer地图。Leydesdofff是针对多种数据源分析的系列软件,由荷兰阿姆斯特丹大学研发,能够实现共词、合作、耦合、共引等分析。
3.2专利分析软件
目前国内外专利分析工具分为:专利采集和加工工具、专利检索分析工具及计算机辅助创新工具。专利采集加工工具通过爬虫对专利进行采集、清洗为专利分析提供数据,主要有台湾连颖科技公司开发的PatentGuider、北京彼速软件公司开发的BizSolution、保定大为软件公司开发的PatentEx专利分析系统、汉之光华专利情报分析系统等;专利检索分析工具具有先进的数据检索、文本挖掘功能,主要有美国Lexis Nexis公司的Total Patent、Aureka、Delphion、Innovaton等。计算机辅助创新工具包括:美国Invention Machine公司开发的Goldfire Innovator9.0,以TRIZ/ARIZ为工具,与全球超过70个专利库进行连接,包含了超过9000条来自各个领域的科学原理。主要作用是通過对典型技术问题专利进行技工,提出解决问题的方法。Pro/Innovator由亿维讯公司开发,支持隐性知识挖掘利用,对知识的产生、表达、组织、更新、检索、共享等过程进行全程管理。
3.3统计分析软件
大数据环境下数据可分为:结构化数据、半结构化数据及非结构化数据。在进行情报分析时:对于半结构化数据和非结构化数据的挖掘和分析,宜采用传统分析工具Excel、SAS、SPSS、Stata、Matlab等进行处理。而半结构化数据和非结构化数据处理相对较复杂,R语言、Python和Flurry则具有绝对优势。
R语言是由Nuckland大学Robert Gentleman和Rosslhaka编制,用于处理大数据环境下海量数据的统计软件包。R的优势在于有包罗万象的统计函数可以调用,提供了包括广义回归分析、风险分析、矩阵计算、抽样检验等功能,并且能读取由SAS、SPSS、Stata、Matlab等软件处理的数据。
Python语言具有非常清晰易读的语法特点,支持目前主流的操作系统,能够支持移动应用,拥有良好的学习支持资源并不断对库进行改良。Python的网络爬虫及R的RCurl包、Rweibo包等都可以进行网络数据和文本挖掘,对非结构性数据亦能进行分析处理。常用作文本挖掘、日志统计分析、社交网络分析等。
Flurry是专门为统计移动应用用户数据而开发的统计工具,能够支持包括iPhone、iPad、Android、WindowsPhone、Java ME和BlackBerry终端平台的数据分析,支持超过36万个移动应用。Flurry能够支持移动应用的构建、用户偏好的分析和数据智能分析推送等功能,在移动应用数据统计方面处于领先地位。此外国内外的移动应用统计分析工具/平台还有:Talking Data、Cobub Razo、FLURRY等。
3.4犯罪情报分析软件
面对大数据产生海量的犯罪情报信息,犯罪情报分析软件在公安情报分析中起到很大作用。Analysts Notebook是海湾战争中为美国开发的情报软件,为情报分析工作提供了强有力的支持。软件能够通过关联对比,将事先录入的杂乱数据形成关系网和分析图,为行动决策提供犯罪情报支持。为了提供数据存储功能,IBase和Ibridge软件应运而生。ATAC是BSRC公司开发的综合犯罪情报分析工具,具有学习分析的功能,能够进行统计分析、复杂查询、时间序列分析等功能。ESRI公司研发的地理犯罪情报分析软件ArcGIS,能够支持户外移动平台使用。
3.5竞争情报分析软件
瑞典Comintelli公司研发的企业竞争情报平台软件Knowledge XChanger,获得了美国和欧盟组织的认可,使用范围相当广泛,能够实现部分竞争情报流程自动化。此外还有Coemergence公司的ACIS、Traction Software公司的TeamPage、Comintell公司的Knowledge Xchanger、Cipher公司的Knowledge Works、Strategy Software Inc.公司的STRATEGY!,ClearForest公司的ClearResearch Suite等。
3.6威脅情报分析软件
威胁情报分析,是迅速出现在信息安全领域的方法,Solutionary公司的白皮书对“威胁情报”分析的定义是:通过对安全相关的信息进行搜集、分析、快速和清晰的评估、仔细判断后形成产品,作为决策和行动的先导。Open Threat Exchange系统能够访问威胁研究专家的全球社区,通过威胁指标分析多个来源的威胁数据,为研究人员提供安全设施更新的建议。Threatcrowd是一个威胁搜索系统,能自动从malwr.com获取信息,能够协助情报人员对关联数据进行分析。IBM X-Force是世界上最知名的商业安全研究软件之一,软件能帮助客户、研究人员和公众更深入地了解最新的安全风险,提前预知新兴威胁。公共安全威胁信息的分析和度量可以通过一系列软件的组合来实现,美国情报机构利用包括:Visible,Socializing the Enterprise,Geofeedia(社交媒体分析)、Open Source Indicators(利用公开信息预测政治动乱、经济危机,传染病爆发等)、Information Volume and Velocity(互联网信息收集系统由美国国防部支持),对公共安全信息进行分析。用于商业公开情报分析的软件主要包括:Recorded Future,Palantir,Aggregative Contingent Estimation(ACE)(通过筛选各种博客、推特、卫星图像等提供社会动乱的预警)等。
4结语
大数据时代情报分析和处理是获取知识的重要手段,也是情报研究的热点内容。随着数字化技术和网络的飞速发展,海量、非结构化、快速增长的数据不断涌现,对情报研究造成了很大冲击,情报学将不可避免的面对一场技术革命。本文在对国内外情报分析和大数据分析方法进行研究的基础上,总结了10类传统情报分析方法和7类基于大数据背景的情报分析方法,对传统分析方法的不足和大数据分析方法的优势进行了研究,并对常用情报分析软件进行了探讨,以期为情报研究人员和情报分析工作提供有价值的参考。