大数据分析方法及其在情报研究中的适用性
2022-12-19薛丽惠
薛丽惠
中国电子科技集团公司第十研究所 四川 成都 610036
引言
大数据分析的服务目标是“深入发现、分析、引导行动”,包括由多项工作构成的高重复性的工作。为了确保数据的准确,通常要将各种分析方法和软件工具相结,以此使其能够帮助工作人员更好地分析和处理海量数据,提高数据分析的速度,并且从海量数据中获取有用的信息。同时,运用大量的分析技术与软件手段,可以提高大数据分析的精确性。然而,在大数据分析的同时,也要充分考虑到大数据的应用,使其能够更符合大数据的分析结论,进而凸显其整体的实际运用价值。
1 大数据分析的方法分类
对于目前的大数据分析方法,学者的看法也不尽相同。对这些大数据的分析,可以分为3大类。从面向数据的角度、面向流程的角度和面向信息技术的角度进行分类。
1.1 数据视角下大数据分析
数据视角下的大数据分析方法的分类,主要是以数据处理的对象“数据”为基础,将大数据的类型、数据的总量、处理数据的方式等方面进行归类。
1.2 流程视角下大数据分析
以过程为导向的大数据分析方法,主要是根据大数据分析的过程,将其归类为一种较为系统化的方法。
1.3 信息技术视角下大数据分析
从信息技术角度看,大数据的分类主要集中于与大数据相关的新信息技术。以大数据处理体系结构、计算模式和系统为基础,对大数据进行分类整合。
2 大数据分析方法在情报研究中的适用性
2.1 可直接移植方法
可直接移植方法顾名思义,就是直接将数据分析的方法、原理、算法等,直接用于情报的研究。利用大数据技术,实现对信息资源的直接加工,解决在信息研究中所面临的有关问题[1]。由于数据分析有很多种方式,比如数据挖掘,观点挖掘,文本挖掘,多元统计分析,时间序列分析,多源数据融合,这些都是可以直接用于情报分析。就像前面提到的观点挖掘、文本挖掘、多元统计分析、时间序列分析、多源数据融合等,都可以直接应用于情报领域。
2.1.1 数据挖掘与文本挖掘在情报研究中的应用。从字面意义上来说,数据挖掘和文字挖掘是2个截然不同的概念,因此它们采用了不同的发现技术。文本挖掘是一种利用计算机语言和统计学的方法来揭示文本中的词汇和句法特点。而数据挖掘是利用计算机数据库中的大量数据作为数据挖掘的基础,通过对大量数据进行挖掘,从而发现数据中可能存在的各种数据类型以及数据间的相关性。
2.1.2 多元统计分析与时间序列分析。多元统计分析与时间序列分析在目前的大数据分析和情报研究中,是一种比较常用的定量分析手段。这两种大数据的分析方法的区别是:多元统计分析是指两个或更多的要素之间的相互依存和共同发展。时间序列分析是基于随机过程和数理统计的方法,对大数据时代下的动态数据序列进行了研究。
这两种方法都有一个共同的特征,即从历史资料的变动角度,客观地评估某一事件的发展状况,或对某一事件的发展做出理性、客观的评估。
2.1.3 多源数据融合方法。多源数据融合方法与上述的大数据分析方法相比,是一种针对大数据环境中的异质数据进行综合处理的一种新方法,更类似于基于大数据的分析[2]。多源数据融合方法在智能领域的应用,还需要借助多种技术、软件手段,通过多方面的协作,实现对海量信息的综合分析。其内容主要有:同型异源信息、异质信息、多语种信息的数据分析。多源数据融合,其数据分析的难度远超以往的大数据分析,因为多源数据的收集、整理、分析、判断等过程,都会影响到数据的分析。
2.2 移植方法
2.2.1 大数据环境中可用于数据处理和分析方法。目前的大数据时代,数据量呈爆炸性增长,但由于缺乏一个统一的标准,这将直接导致大量的数据质量出现低效性,进而将严重影响大数据的分析效果,进而导致数据的准确性和可信度下降。为了获得高质量的资料,将需要对现有资料进行综合分析,以取得更好的资料。这一数据的筛选主要是数据差错的自动检测和修复、数据处理和分析,这些方法能够更好地提升处理数据的一致性、完整性、准确性和时效性[3]。对于大数据分析应用于情报领域的应用,其关键在于收集到的信息资料,并对其进行质量控制。而大数据分析在情报应用中的应用,对情报材料的质量有着举足轻重的作用,如果在大数据分析中发现了不完全或不准确的信息,那么得到的情报就会有误差,从而导致情报不够准确、信息不全等问题。虽然资料的质量由使用者决定,但若能将资料处理与分析的方式引入,将资料的不一致、遗漏、重复等问题,将会提升资料的准确率,并将其应用于情报研究。
2.2.2 时空数据分析。时空数据分析是对地理信息科学进行的一种研究,包括天气预报、环境监测、GIS、城市交通网络管理等。这种分析方法在情报学中的应用,很大程度上依赖于其所搜集资料的可信度。
2.3 不适用的方法
2.3.1 翻译生物信息学分析。在大数据分析中,翻译生物信息学分析需要更高的数据采集精度,它是一种在特殊情况下综合大量数据资源和高效地使用生物信息的方法。同时,生物翻译分析也能很好地解释人和疾病的关系。从宏观上来说,利用生物信息学进行数据分析,可以发现基因与疾病之间的联系,并通过对生物信息学的分析,将其应用到分子层次,甚至是整个人类,从而为人类的疾病提供更多的参考。
2.3.2 学习分析方法。学习分析法是一种通过数据收集、数据分析和评价学习者的分析手段,它的终极目标是了解和优化学习环境以及学习者所处的学习环境。根据UNESCO IITE公司的数据分析,可以根据数据挖掘的结果进行分析,包括行为分析、关联分析和影响因子分析。尽管资料搜集是一种常用的信息处理方式,但是学习分析法的最终目的是对学习者所处的环境进行阐释,为老师和管理者提供决策依据,以逐步培养学生的学习习惯和提高学习效率。但由于它具有特殊的意义和适用场合,脱离了学习情境,它就会发生改变,因此其将很难移植到智能研究中去。
3 大数据分析的常见方法
3.1 流程视角下的大数据分析
从流程角度看,大数据分析是一种严格遵循大数据分析流程的方法,从流程角度看,因为数据分析是按照一定的程序进行的,所以,整个分析过程具有较高的有序性,而且每个环节都是紧密相连的。从总体上讲,大数据分析可以分成5个步骤,每个步骤都要选择最适合的算法。①数据分析的第一步,也就是数据的来源和获得,收集数据的时候,要从各种可以感知到的工具中提取有用的信息[4],这些信息都与时间、空间具有紧密联系。②对数据进行清理与提取,即从不同类型的数据中提取有用的信息,并把它们转换成结构化的形式。③数据集成。在此过程中,将数据的结构转换成可阅读或自动分析的形式。④则是对数据的解析,在对这些数据进行分析的时候,首先要找到这些数据之间的关系和规则,然后再从这些数据中挖掘出更多的信息。⑤对数据的解释,也就是把数据转换成一种便于读者理解的格式,使其结果更直观。从过程角度看,数据分析的核心技术包括神经网络、回归分析、分类、机器学习、网络分析、语言分析等。
3.2 信息技术视角下的大数据分析
从信息技术的角度看,大数据的分析主要是利用各种新信息技术对其进行分析。其中数据处理的基本框架是数据整合、抽取、数据分析、数据解释等。在数据的整合与提取上,有4种方法:联邦数据库、物化、搜索引擎、数据流4种。在进行数据分析时,一般都是利用传统的数据挖掘技术和数据机来进行,但由于其无法对大量的数据进行分析,因此将需要对数据进行调整,而在此类操作下将直接限制数据的应用。同时,在数据的解读中,还可以利用交互的数据分析和可视化技术,使用户能够更深层度上了解信息数据。在非关联资料的处理中,资料分析采用多维度的观点,可以直接地对资料进行分析。
3.3 数据视角下的大数据分析
数据角度的数据分析,主要是基于数据的数据分析,从数据的总量、类型、数据的处理方式等方面进行分类。从数据分析的特定角度出发,可以把大数据分为回顾性数据分析、标准化数据分析和预测数据分析3种类型。在回顾性的资料分析中,其研究的重点在于对资料的研究。而在预测性数据的分析中,则是以历史资料为基础,通过模拟的方法来进行预测。而标准化数据分析则是指对实时数据进行分析,以引发事件。除此之外,还可以根据其他的方法来进行分类。
4 大数据分析在情报研究中的未来发展趋势
4.1 情报语言发展走向交融化
情报语言的整合包含了许多方面的内容,随着5G的广泛应用和智能社会的发展,首先,信息检索将在国防、国家安全、高科技、商业和公共安全等领域发挥越来越突出的作用,竞争情报非常宝贵。其次,情报语言中的分类检索语言、词语检索语言、代码检索语言、引文检索语言和复合检索语言将变得更加详细、准确、完整和综合。不仅涉及分类法、主题方法、分类法和主题方法之间的转换和兼容,还涉及自然语言和受控语言的整合。识别各种信息资源的叙词表、显示概念之间的关系以及规范主题词概念的术语将动态更新。提供构建各种媒体信息资源的结构化方法将更具适用性和易用性,并不断推动信息语言朝着整合和传播的方向发展。
4.2 情报语言发展走向专业化
在科技语境下就要求情报信息更加的专业化,提高专业化就需要智能图书馆配备更加专业的知识。为了帮助不同领域的读者找到相关知识,在信息检索词库中,应包换更多专业信息语言。例如,医学专业的读者想要搜索“阿尔兹海默症”相关内容,如果搜索词条输入为“阿尔兹海默症”、“老年痴呆”,找到的结果将十分有限。从专业的角度分析,阿尔兹海默症是一种神经系统退行性疾病,如果仅仅以“阿尔兹海默症”进行搜索,得到的内容不够全面,了解到的知识也会大打折扣。这就要求智能图书馆在帮助读者搜索时注意联想词条的推送。由于检索学科还涉及信息检索的专业术语,即族检索和特征检索,因此信息语言的构建应考虑更好的族分类语言和具有更好特征的主题语言。专业化的推进反映了在科学技术背景下,学科、专业和产业之间的分工越来越细。信息检索必须深入分析,全面准确地分类。信息语言的使用只能与学科、专业和行业等术语相关联[5]。
5 结束语
在大数据时代,数据呈现出爆炸性的发展态势,要使数据得到最优化,就需要运用大数据的分析手段。本文对大数据的分析方法进行了归纳和总结,从可直接移植、可调整后移植、不适合于智能研究、需要进一步加强等4个角度,对大数据分析技术在智能领域的适用性进行了探讨。同时,还从大数据的分析方法和应用于情报领域的应用着手,切实预判未来数据分析的发展趋势。