多源数据情报侦查方法研究
2022-03-28薛亚龙刘梓泞
王 法,薛亚龙,刘梓泞
(1.浙江警察学院,浙江 杭州 310053)(2.宁夏警官职业学院,宁夏 银川 750021)
在多源数据驱动创新时代,人们在社会生活与生产中会产生海量复杂动态的多源数据。与传统实体情报侦查资源有所不同,多源数据情报侦查源在数据的含量指数、规模类别以及形态属性等方面都有着本质性的区别,促使侦查人员不得不关注和重视多源数据潜在的情报价值。以多源数据为情报侦查的核心构成要素,以多源数据的挖掘算法和智慧情报侦查互相融合为衔接桥梁,探讨多源数据情报侦查的不同应用算法,已逐渐成为多源数据驱动创新时代情报侦查发展的必然趋势。诚然,多源数据情报侦查方法具有多视角、多层次反映犯罪情势发展的涉案数据关联聚类价值优势。通过对涉案多源数据的挖掘与分析,侦查人员能够高效精确地挖掘与犯罪情势具有各种关联性的涉案数据数理关系,从而为多源数据情报侦查决策提供客观准确的数据情报支撑。鉴于此,提出和引入基于多源数据的情报侦查方法研究范式,不仅是多源数据应用于社会各行业各领域的必然趋势,而且是现代情报侦查工作转型和变革的内在需求,更是预防和打击犯罪的必然选择。
一、多源数据情报侦查的内涵与属性
多源数据最早被应用于军事领域,随后逐步被拓展应用到地理测绘、数据传感、金融预测等社会行业领域中。对多源数据加以利用能够更全面、更充分地了解相关实际状况,基于多源数据的研究也才更具有说服力。[1]从情报价值的研究角度而言,依据多源数据的不同类别和属性而对其展开深度的算法挖掘与分析,对多源数据驱动创新时代的情报侦查工作具有重要作用。一方面,对多源数据的挖掘与分析既可保证情报侦查分析的全面性,而且通过多源数据情报源以及不同算法分析结果之间的互相验证,还可以进一步提高现代情报侦查工作的高效性和精确性;另一方面,从单一领域情报侦查研究转向全领域情报侦查研究,综合利用各种多源数据的挖掘与分析结果,更能突出现代情报侦查工作的智能性和严谨性。因此,多源数据驱动创新时代赋予了多源数据情报侦查新的内涵与属性。
(一)多源数据情报侦查的内涵
结合多源数据的属性范畴和现代情报侦查工作的价值需求,多源数据情报侦查首先应该包括五个方面的重要理念。一是依靠多源数据的情报理念。虽然传统实体的部分样本数据具有重要的情报价值,但是多源数据驱动创新时代的多源数据却能够提供更加精确和客观的挖掘分析,进而全面提高现代情报侦查工作的优质性和高效性。二是多源数据挖掘算法的科学性。在多源数据情报侦查应用过程中,侦查人员需要转变在传统情报侦查方法中过于依赖人工的传统思维模式,树立“不是我在侦查,而是我在侦查中”的思维理念,确立多源数据挖掘算法在应用过程中的科学性。第三,倡导多源数据共建共享的观念。侦查主体必须倡导多源数据共建共享的观念,破除或减少“数据孤岛”“数据壁垒”等现象的发生,从而改变情报侦查部门各自为战的侦查局面。第四,采取多源数据融合的技术方法。侦查人员获取的多源数据情报源既包括符号型、数值型等多源数据,又包括文字型、图片型等多源数据,还包括结构型、非结构型、异构型、半结构型等多源数据。只有对不同类别形态、不同属性结构等多源数据情报源应用数据融合的技术方法,才能提高对多源数据挖掘与分析的客观性和准确性。第五,重视多源数据的动态性。传统情报侦查数据源更多属于孤立、静态的内部型数据,而多源数据情报源更多是由内部型和外部型互相整合所形成的联动数据,时刻会随着数据犯罪情势①的变化而变化,所以,必须特别重视多源数据的动态性特点。这也是由多源数据的内在属性范畴所决定的。
基于以上分析,笔者认为,多源数据情报侦查的内涵是:侦查人员以反映犯罪情势的多源数据为基础和依据,采取Map-reduce多模态检索算法、协同过滤推荐算法、仿射数据传播聚类算法等不同的多源数据算法,深入挖掘分析不同多源数据与犯罪情势之间潜在的各种具有关联性数理关系,从而实现多源数据引导情报侦查。
(二)多源数据情报侦查的属性
从多源数据的内涵范畴和现代情报侦查的应然价值需求而言,这两者之间存在高度的关联性和较强的相似性。每个不同的多源数据都具有很强的情报侦查价值,甚至可以说情报侦查价值就是对不同多源数据内在数理关系进行关联聚类的挖掘与体现。显然,多源数据情报侦查是多源数据和现代情报侦查工作的有机结合体。与传统情报侦查相比较,虽然多源数据情报侦查与其存在诸如智能性、价值性、侦查性等相同特性,但是两者之间具有本质性的属性差异。在多源数据驱动创新时代,多源数据情报侦查具有价值需求敏感性、数据来源多源性、挖掘分析智能性、场景应用嵌入性等四个方面的独特属性。
1.价值需求敏感性。能够主动有效地获取情报侦查需求,并对其进行适时调整是多源数据情报侦查的首要属性。目前,关于情报侦查价值需求敏感性的预设和挖掘分析方法还没有形成成熟的机制,尤其是在数据模型构建、需求识别演算、算法调整策略、启发修正模式等方面缺乏深度的研究,致使侦查人员难以及时地根据数据犯罪情势的发展变化对其进行快速的修正和重建。所以,在多源数据情报侦查方法的应用过程中,侦查人员首先必须具备对情报侦查价值需求敏感性的意识和技能。例如,当获取购买数据、注册数据、检索数据、旅游数据、浏览数据等不同类别形态的多源数据情报源后,侦查人员需要在情报侦查价值需求敏感性意识支配下将其与数据犯罪情势之间潜在的关联性进行挖掘与分析,完成对数据犯罪情势中相关构成要素的智能数据刻画,从而为多源数据情报侦查的场景应用提供优质高效的决策支持。诚然,多源数据情报侦查既包含多源数据的属性范畴,又包含情报侦查的应然价值导向需求,这也就必然决定了其具有显著的价值需求敏感性。侦查人员在价值需求敏感性的指导和引领支配中,能够更快、更优地对不同多源数据情报源进行挖掘分析和关联聚类,从而提高多源数据情报侦查场景应用的敏感性和高效性。
2.数据来源多源性。如何通过不同多源数据挖掘分析出与犯罪情势具有关联性的各种数理关系,从而为情报侦查决策提供科学准确的数据支持,是迫切需要解决的关键性问题。传统情报侦查决策往往都是依赖犯罪现场勘查、摸底排队、调查访问、侦查实验等侦查措施而获取相关的决策数据,缺乏多维、动态、全面等多源的情报数据支持,导致情报侦查决策具有突出的片面性、静态性、选择性,从而无法从数据情报源头保证情报侦查决策的全面性、准确性和科学性。多源数据情报侦查方法却能从数据情报源头上解决上述关于情报决策的根本问题。例如,从多源数据的类别形态方面看,既包括符号型、数值型、文本型的多源数据,又包括图片型、字符型、碎片型的多源数据;[2]从多源数据的属性结构方面看,不仅包括结构型、非结构型等多源数据,还包括异构型、半结构型等多源数据;[3]从多源数据的来源部门看,既有来自公安系统的内部型多源数据,也有来自互联网、企事业单位、个人社交等方面外部型多源数据。显然,多源数据情报侦查具有典型的数据来源多源属性。同时,通过对多源数据采取数据清洗、数据集成、数据仓库构建等数据预处理技术,将实时数据与历史数据、外部数据与内部数据、社会数据与传感数据、线下数据与线上数据等不同类别形态、属性结构的多源数据进行数据融合,促使多源数据情报侦查的决策更加具有全面性和精确性。显然,多源数据情报侦查的数据来源多样性不仅能够减少数据情报源的不确定性,还能够保证数据情报决策的客观性,从而提高多源数据情报侦查决策的科学性和合理性。
3.挖掘分析智能性。随着多源数据呈指数级地迅猛增长,对其进行定量分析越来越受到关注和重视。对多源数据的定性分析往往具有个性化、主观性等鲜明特点,不同的多源数据会因不同的人、算法、技术方法等出现不同的数据解读;而多源数据的定量分析则具有可复制性、客观性等突出特点,不会因为不同的人或技术方法等因素影响而出现不同的挖掘分析结果。[4]显然,在多源数据情报侦查的挖掘分析过程中,定性分析有利于充分发挥侦查人员的主观能动性而避免出现情报侦查的思维盲区,而定量分析则有利于实现多源数据情报侦查的资源共建共享。鉴于多源数据情报侦查的现实应然价值需求,其挖掘与分析的过程具有将定性分析和定量分析互相结合的智能性,这是由多源数据情报侦查的内在本质属性所决定的。诚然,侦查人员在多源数据情报侦查挖掘与分析的具体过程中,既包括侦查人员定性的智能分析,如侦查人员的侦查思维、侦查经验、侦查方法等;又包括多源数据定量的智能分析,如对涉案的不同多源数据情报源所采取的链路预测、关联聚类、热点矩阵,以及时空锚点预测、离群数据检测等智能算法。所以,若要根据不同的场景应用而选择对不同的多源数据情报源进行挖掘与分析,就需要将各种多源数据进行数据融合,然后使其与情报侦查价值需求互相统一,再采取与其相适应的智能挖掘分析方法。这也是提高实现多源数据情报侦查应然价值的必然要求。
4.场景应用嵌入性。随着多源数据情报源与现代情报侦查价值导向需求的发展,将场景应用嵌入情报侦查业务过程将成为一种新型的情报侦查决策服务模式。不同的情报侦查场景应用需要预设不同的价值需求和算法选择,为了全面提升多源数据情报侦查应用的可复制性、可推广性,依据多源数据情报侦查的价值需求和算法的关联聚类性,可以将其场景应用嵌入分为专项维度的场景应用、领域维度的场景应用、政策维度的场景应用和协作维度的场景应用四个部分。
(1)专项维度的场景应用。侦查人员应该积极主动地将多源数据情报侦查融入专项维度的场景应用中,以多源数据过程嵌入和情报侦查决策快速反应为原则,构建“数据挖掘+情报研判+智慧侦查”联动型情报侦查的专项维度场景应用。通过采取多源数据的关联聚类、情报报告的自动生成、情报侦查经验的修正等挖掘分析流程,全面发挥侦查人员在数据预处理、数据仓库构建、数据挖掘模型平台设计等方面的价值优势,客观、科学、高效地为专项维度的场景应用提供多源数据情报侦查的决策服务。
(2)领域维度的场景应用。领域维度的场景应用主要是指侦查人员对不同多源数据从数据清洗、数据集成、数据仓库构建、数据融合、数据关联、数据聚类等流程进行挖掘分析,将多源数据的挖掘分析结果转化为多源数据情报侦查决策的情报支持,助推领域情报侦查工作形成较有利的态势。
(3)政策维度的场景应用。政策维度的场景应用主要是针对多源数据情报侦查过程中涉及情报侦查计划、刑事政策、侦查制度等重大问题,尤其是涉及重特大案件情报侦查的规划和论证、情报侦查决策的制定、情报侦查制度的建立,以及情报侦查计划的实施和检验、情报侦查决策的反馈和修正等具体场景的应用,以服务侦查决策,提升决策内容的整体性。
(4)协作维度的场景应用。协作维度的场景应用主要是通过构建嵌入开放式多源数据情报侦查的算法挖掘分析框架模型,帮助侦查人员全面熟悉和掌握链路预测、关联聚类、离群数据检测等不同算法的价值优势,促使不同侦查人员之间能够及时有效地进行数据融合、数据仓库构建等情报侦查协作的共建共享,提高多源数据情报侦查的协作水平和管理创新。
二、多源数据情报侦查平台设计
为了提高多源数据情报侦查流程模型构建的科学性和高效性,以多源数据情报源为主线,以链路预测、关联聚类、离群数据检测等数据挖掘算法为技术方法,以实现情报侦查的应然价值为核心目标,探索多源数据情报侦查的平台设计。依据多源数据情报侦查的不同属性,其平台设计可以采取多源数据分布式的框架进行构建,以保证多源数据情报侦查应用的准确性、一致性和安全性。(如下图所示)
多源数据情报侦查平台设计示意图
多源数据情报侦查平台的设计主要以“确立情报侦查价值需求——多源数据的挖掘分析——情报的处理与研判——情报的传递与供给”为基本思路,总体按照“多源数据挖掘分析——多源数据融合与场景应用形成——情报侦查决策与价值需求匹配”为平台设计框架。总体而言,多源数据情报侦查的平台设计方案主要包括多源数据端、多源数据融合、多源数据情报侦查决策应用、情报侦查价值需求匹配四个部分。
第一,多源数据端。数据汇集是多源数据挖掘分析的前提,而多源数据的挖掘分析不仅是多源数据情报侦查应用的关键环节,而且是实现多源数据情报侦查应然价值的重要保障。由于多源数据存在类别形态多样、权限归属离散、属性动态复杂等突出问题,[5]需要线上和线下进行数据汇集,然后对其采取数据清洗、数据集成、数据仓库构建,以及数据管理和数据共享等数据预处理技术,从而为多源数据情报侦查的应用提供前提和重要支撑。
第二,多源数据融合。数据融合是整个多源数据挖掘与分析平台设计中最为重要的程序,主要任务是解决多源数据挖掘分析不全面、不准确、不统一等相关问题。按照对多源数据进行关联聚类的具体要求,可以采用底层融合、中层融合、高层融合等层次性的数据融合技术方法。其中,底层融合的任务是对多源数据的形态类别、来源渠道、加权系数、领域特征等进行挖掘和归约,主要采取动态数据爬取、常态固定采集等方式完成数据融合;中层融合的目标是提升多源数据的可信度和关联性,主要通过构建多源数据与数据犯罪情势之间的时空矩阵关系、数据序列权重关系、情报对象社交关系、情报服务与数据挖掘算法关系等数据关联规则库,从而提高多源数据情报侦查的决策质量;高层融合是多源数据情报侦查数据融合的核心,也是连接多源数据情报侦查决策应用的桥梁和平台,主要通过关联聚类融合、图谱融合、检索融合、领域融合等方式实现。
第三,多源数据情报侦查决策应用。结合多源数据的内涵属性和情报侦查的价值需求,多源数据情报侦查决策应用的设计主要包括情报侦查场景应用和情报侦查决策方式两个部分。情报侦查场景应用具体包括专项维度场景应用、领域维度场景应用、政策维度场景应用、协作维度场景应用四个方面,而情报侦查决策方式则具体包括智能情报检索、个性情报推荐、专案情报定制和智慧情报预测四项内容。
第四,情报侦查价值需求匹配。多源数据情报侦查的平台设计是面向各级各类案件所需情报侦查服务的方案,侦查人员与情报侦查价值需求都依赖于多源数据情报侦查平台设计的科学性和合理性。同时,在提供情报侦查场景应用和决策方式的过程中,侦查人员需要及时收集关于情报规则构建与反馈、情报场景应用反馈与修正、情报侦查应用评估与反馈等相关信息,推动对多源数据情报侦查平台设计方案进行实时的修正和改进。
三、多源数据情报侦查的流程模型构建
传统情报侦查的流程主要包括情报搜集、情报控制、情报存储、情报传输、情报分析和情报利用等,而多源数据情报侦查的流程与其有着本质的区别。特别是在多源数据驱动创新时代背景下,多源数据情报侦查的流程更加强调多源数据融合、数据清洗、数据集成、数据仓库构建以及情报侦查决策的应用与反馈修正等,从而形成具有需求性、多源性、智能性、动态性等特点的现代智能情报侦查新流程。结合多源数据情报侦查的内涵属性和平台设计方案,多源数据情报侦查流程的主要原理体现在四个节点上。首先,需要明确情报侦查的价值需求,分析情报侦查的主要目标,明确制定情报侦查的计划、流程、指标体系等任务,选择情报侦查的技术方法。然后,明确收集多源数据的类型、途径、策略,汇集多源数据的收集结果。同时,需要对各种符号型、数值型、图片型等多源数据采取数据融合,完成多源数据情报侦查的数据仓库构建。其次,采取数据滤重、数据去噪、数据降维等多源数据的清洗技术方法,完成其类别形态的统一标准,再利用关联分析、聚类分析、离群分析、演化分析等方法完成对涉案不同多源数据的挖掘与分析。再次,通过对多源数据挖掘分析出来的各种结果进行解读,研判其内在的原理和离群数据产生的原因,并且撰写情报侦查的决策报告。最后,根据情报侦查的价值需求,对多源数据情报侦查的应用进行实时检测、价值评估和反馈修正等。
依据多源数据情报侦查流程的主要原理,可以将多源数据情报侦查流程划分为情报侦查价值的需求预设、多源数据的检索与汇集、多源数据的融合、多源数据的清洗与处理等七个模块。
(一)情报侦查价值的需求预设模块
多源数据情报侦查的任务是数据犯罪情势分析,还是犯罪行为的动态监测?是挖掘关键性数据、分析报告,还是侦查推理判断、情报归类提炼,或者是提供情报侦查决策方案?是情报侦查价值分析,还是多源数据的算法应用?对于这些问题,侦查人员需要提前就情报侦查价值的需求进行预设。情报侦查价值的需求预设主要包括两个层面。第一层,情报侦查价值的需求预设包括挖掘分析多源数据、情报研判和决策等,而预设对象则是某一类案或某一个案的数据犯罪情势构成要素。第二层,情报侦查价值的需求预设属于数据挖掘、数据算法、数据融合、数据仓库构建和数据关联规则等方面的主题。为了快速高效地实现多源数据情报侦查的应然价值,还需要对情报侦查对象进行挖掘和建模。在传统情报侦查过程中,侧重于采取定性分析方法对情报侦查对象进行挖掘分析,而在多源数据情报侦查过程中则会更多使用定量分析方法。在制定情报侦查计划、选择侦查途径、拟采取侦查措施类型等之前,类案情报侦查对象往往需要侦查人员全面客观地掌握当前数据犯罪情势、传统情报侦查经验和不足、国内外情报侦查比较典型的成功做法以及情报侦查发展态势等,从而促使情报侦查价值的需求预设更加具有客观性和精确性。对于个案情报侦查对象,侦查人员以前会采取调查访问、摸底排队等方式进行分析研判,这不但难以及时获得情报支持,还导致情报侦查价值的需求预设效果出现偏差甚至侦查错误。然而,在多源数据驱动创新时代,类案情报侦查对象和个案情报侦查对象都亟需侦查人员通过情报侦查价值的需求预设及时高效地挖掘与分析涉案数据、犯罪构成要素、犯罪过程计划和决策实施等方面的情报需求。例如,通过对涉案虚拟注册数据、旅游数据、住宿数据、买卖数据、检索浏览数据等不同多源数据情报源的挖掘分析,即可对犯罪情势中的各构成要素进行数据刻画和数据鉴别,进而能够准确验证情报侦查价值的需求预设。在确定情报侦查价值的需求预设之后,必然要求侦查人员明确多源数据情报侦查的目标任务,并根据目标任务及其时效性制定情报侦查计划,构建情报侦查流程,确定情报侦查评估指标体系,以及选择合适的多源数据挖掘分析算法等。
(二)多源数据的检索与汇集模块
多源数据检索与汇集流程的任务是确定多源数据检索与汇集的来源途径、范围、类别,制定汇集策略和实施汇集技术方法,并对其结果进行评估和反馈。[6]一方面,多源数据汇集与获取是多源数据情报侦查开展的前提和基础。按照对多源数据挖掘分析的不同过程,可以将多源数据汇集与获取具体划分为寻找数据、下载数据、提取数据三个环节。可以通过多源数据检索选择和确定哪里有实现情报价值所需的多源数据,发现和寻找所需的多源数据并进行下载或复制,然后从数据仓库构建中提取所需的多源数据。在情报数据汇集系统中,侦查人员可以根据情报侦查的情势变化而对存储在数据库中的多源数据进行实时更新,并及时对更新后的多源数据进行分类、归约、标引等,主要包括对多源数据汇集范围的选择、汇集周期的确定、汇集内容的过滤、汇集存储的标引、汇集结果的解析和汇集决策的推荐等过程。情报数据汇集系统中除了选择和确定的URL多源数据列表之外,还有特定的多源数据频繁项目数据集,共同构成多源数据情报侦查的数据词表体系。另一方面,多源数据汇集后,需要对多源数据的规模、关联性、时效性、权威性和真伪性等进行数据评估和反馈。例如,侦查人员需要对多源数据的规模是否能够满足情报侦查的价值需求、多源数据的类别形态是否多维全面、多源数据的挖掘分析是否精确有效、多源数据的挖掘算法是否科学合理、多源数据的来源途径是否合法可靠等进行评估和反馈,从而确保多源数据的检索和汇集与情报侦查的价值需求高度匹配和融合。
(三)多源数据的融合模块
构建多源数据情报侦查流程模型过程所表现出的最主要特征是数据融合。将通过不同途径和方法所获取汇集的不同类别形态的各种多源数据情报源聚类在一起,使其形成格式统一、权重加权系数相同或相似、应用目标可视多样的频繁项目数据集,该过程即为多源数据融合。[7]显然,多源数据融合主要解决的是利用不同的多源数据情报源进行数据转换和协作,使不同的多源数据进行迭代式的互相弥补,实现对多源数据的挖掘更加全面、客观和精确。一方面,实现同一情报侦查价值需求的多源数据可能是由不同的客户端、不同的途径来源、不同的数据仓库等组成;另一方面,多源数据的类别形态具有典型的多样性,既包括结构型、非结构型、半结构型、异构型等多源数据,又包括符号型、数值型、文本型、图片型等多源数据,造成多源数据的类别形态具有显著的动态性和多样性。这些不同的多源数据能够从不同维度反映和揭示犯罪情势的构成要素,进而对经过数据融合后新的多源数据进行相关性分析,能够更加深入地挖掘分析其与犯罪情势具有关联性的各种内在数理关系,为多源数据情报侦查的价值需求预设、情报侦查决策的应用提供强有力的数据支持和数据参考。根据多源数据情报侦查的应然价值现实需求,多源数据的数据融合主要涉及多源数据的同步与更新、共享与转换、汇集与清洗、仓库构建与集成、互补与映射、关联与聚类、归约与加权权重、共同相邻与衍生相邻等方面,每个多源数据的数据融合都需要不同的数据技术处理方法。[8]不同多源数据或其数据节点之间都具有一定程度的互补性,可以采取数据交叉印证、数据路径测量、数据时序矩阵等算法进行数据融合。多源数据的融合模块不仅能够降低和消除不同多源数据情报源之间的差异性和异构性,还能够有效提高多源数据情报侦查挖掘与分析的完整性和聚类性。
(四)多源数据的清洗与处理模块
在多源数据情报侦查的挖掘分析过程中,各种多源数据呈现出海量复杂、类别形态多样、指数级增长、结构动态各异等特点,而如何构建成格式标准统一的多源数据是多源数据清洗与处理亟需解决的问题。要建立高效的多源数据质量挖掘与分析评估体系,对涉案的不同多源数据情报源展开数据校对、数据过滤、数据去噪等技术处理,从而优质高效地完成对多源数据的清洗与处理。从多源数据的内涵属性和情报侦查的特殊价值而言,多源数据的清洗与处理主要包括数据过滤、数据识别、数据降维和数据重名区分等。通过不同途径汇集的多源数据难以避免数据的重复现象,因此,在对其进行挖掘分析之前需要进行数据的重名区分。有些重复的多源数据的类别形态可能一样,有些重复的多源数据则可能会出现完全不一样的类别形态,这就要求侦查人员首先对多源数据进行分析与识别,把同配多源数据的不同类别形态进行融合归一,比如对缩写与全称、同义与转换、缩略与合并、重构与兼并等多源数据的清洗与处理。此外,多源数据的清洗与处理还包括数据去噪、数据查漏、数据补缺等。例如,侦查人员需要对海量、动态的多源数据进行去噪、查漏和补缺,对高维复杂的多源数据进行数据降维处理等。所以,多源数据清洗与处理的模块能够全面提升多源数据情报侦查挖掘分析的客观性和高效性。
(五)多源数据的挖掘分析模块
从多源数据情报侦查的关联聚类效果而言,多源数据的挖掘分析主要包括离群分析、计量分析、演化分析、模式分析、网络分析、关联分析、共现分析、聚类分析和矩阵分析等方法。[9]例如,侦查人员通过模式分析法可以挖掘分析数据犯罪情势中的犯罪模式类型,通过关联分析法可以分析与涉嫌犯罪具有关联性的各种数理关系,通过聚类分析法可以对犯罪主体、犯罪时空、犯罪痕迹、犯罪过程等进行类别聚类分析,通过矩阵分析法可以挖掘分析某类型或某个案犯罪的情报侦查预测。为了提升对多源数据挖掘分析的精确性,可以采取以下几种典型的挖掘分析方法。第一,计量挖掘分析法。计量挖掘分析的对象主要包括犯罪主体、犯罪时空、犯罪痕迹、犯罪客体和犯罪过程等刑事案件的构成要素,具体方法又包括犯罪统计排序法、犯罪周期时序法、犯罪数量空间分布法和犯罪类型增长法等。计量挖掘分析的主要功能包括对犯罪主体的发现和识别、多源数据情报源的特征选择、数据犯罪情势的热点预测等,这些功能有助于侦查人员及时掌握数据犯罪情势,从而作出有利于侦查情势发展的多源数据情报侦查决策。第二,关联挖掘分析法。相关性原理作为多源数据情报侦查方法的主要原理,对涉案多源数据的挖掘与分析提供了强有力的理论支撑和保障。常用的关联挖掘分析法主要包括链路预测关联法、数据关联规则法、数据聚类关联法等,[10]其功能是挖掘涉案的多源数据情报源与数据犯罪情势之间的数理关系。第三,网络挖掘分析法。网络挖掘分析的对象主要是网络多源数据的类别形态、演化规律、模型机制、机构属性和数据路径等,主要是通过对网络多源数据的密度分布、聚类规则、数据距离、加权权重系数、相邻数据节点等进行挖掘分析,寻找和发现其与数据犯罪情势相关的各种数据节点、数据连边、共同数据相邻阈值等,快速地获知多源数据情报侦查的价值需求和决策分解任务。第四,演化挖掘分析法。演化挖掘分析主要包括对过去犯罪行为的梳理总结、对目前犯罪动态的实时检测、对数据犯罪情势的预测等三个方面。其中,对过去犯罪行为的梳理总结可以采取多源数据时序分析、犯罪周期分析等方法;对目前犯罪动态的实时检测可以采取数据渐变矩阵分析、数据异常突增分析等;对数据犯罪情势的预测可以采取犯罪情景预测分析、犯罪数据趋势外推分析等方法。显然,侦查人员应该依据不同的情报侦查价值需求采取不同的多源数据挖掘分析方法,提高对多源数据情报源挖掘的精确性。
(六)多源数据情报的发现与凝练模块
对涉案的不同多源数据情报源进行挖掘分析之后,需要对挖掘分析的结果进行解读和论证,及时发现犯罪情势的变化规律,并将其转换为多源数据情报侦查决策的数据情报支持和参考。其中,对多源数据挖掘分析结果的解读主要依靠情报侦查的假设论证、多源数据规律的挖掘统计、多源数据的离群数据检测、情报侦查决策应用的反馈和修正等方法,而对多源数据离群结果的解读则依靠多源数据的离群算法、情报侦查决策的强弱突变验证法、多源数据挖掘结果的多元协同归约法等。对多源数据挖掘分析结果的解读和对多源数据离群结果的解读是检验多源数据情报侦查价值需求的感知和决策反馈应用的重要指标。显然,对多源数据情报发现与凝练模块的构建,不仅是制定多源数据情报侦查价值需求的应然要求,而且是提高多源数据情报侦查决策效率的必然选择。诚然,在多源数据情报发现与凝练的流程中,通过对涉案的各种多源数据情报源的挖掘分析,不仅能够发现犯罪情势变化的时序特征和时空矩阵类别,而且能够对犯罪情势进行模拟预测,从而提高多源数据情报侦查场景应用的高效性。
(七)情报侦查决策报告的撰写与传递模块
在构建多源数据情报侦查流程模型过程中,侦查人员需要围绕情报侦查的价值需求广泛收集涉案的各种多源数据情报源,采取神经网络、决策树、链路预测和区块链等多种关联聚类的数据挖掘算法,实时预测犯罪情势,并将对多源数据情报源所挖掘与分析出来的各种关联数理关系有效地融合到多源数据情报侦查的决策应用中,从而形成多源数据情报侦查决策报告。情报侦查决策报告的撰写与传递模块不仅能够服务于情报侦查的价值需求感知、数据挖掘算法的选择、多源数据的互相融合和数据情报挖掘分析师的建立等,而且具有多源数据情报源的仓库构建、多源数据情报侦查的平台设计管理和流程模型构建、多源数据情报侦查决策实施的反馈与修正等价值功能。依据情报侦查决策报告撰写的属性范畴不同,可以将其内容分为为侦查人员提供情报侦查的价值需求感知分析、多源数据挖掘算法的不同价值优势、多源数据情报侦查决策实施方案的选择和反馈修正等。情报侦查决策报告的类型主要包括多源数据情报侦查的动态简报、决策参考报告、深度情报价值分析报告、数据化的犯罪情势预测报告等。情报侦查决策报告的撰写包括浅入浅出、深入深出、浅入深出、深入浅出四种方式。同时,依据多源数据情报侦查的传递功能价值不同,可以将情报侦查决策报告的传递分为制定情报传递的范式、选择情报传递的时效、情报传递的恰当接收、情报传递的应用反馈和情报传递失察的研判等具体过程。情报侦查决策报告的传递要求选择科学的情报传递方式,在恰当合理的时空内传递给急需的侦查人员。所以,为了实现情报侦查决策报告撰写与传递模块的价值,必须明确情报侦查决策报告类型、科学设计情报侦查决策报告结构、合理选择情报侦查决策报告内容、重点突出情报侦查决策报告结论、严格控制情报侦查决策报告的篇幅和传递范围等相关要求。
四、多源数据情报侦查的应用算法探讨
在多源数据情报的挖掘与分析过程中,多源数据情报源的价值密度较低,需要采用Map-reduce多模态检索算法等多源数据算法对其进行挖掘与分析。同时,多源数据情报源还具有更新速度特快的显著特点,这要求多源数据情报侦查应用算法应当具有收敛速度快、耗时慢等高效的算法优势。显然,侦查人员不仅需要将涉案“软数据”与“硬数据”、内部型数据与外部型数据、虚拟数据与实体数据等不同类别形态的多源数据情报源进行联动整合,还需要将符号型数据、数值型数据、图片型数据和文本型数据等不同属性结构的多源数据情报源进行科学高效的融合。所以,侦查人员应该转变传统数据情报侦查的价值导向,积极主动挖掘不同的多源数据情报源与数据犯罪情势之间的各种关联数理关系,全面提升多源数据情报侦查预测和决策的精确度,及时为预防和打击犯罪提供有效的应对措施。
(一)Map-reduce多模态检索算法
Map-reduce多模态检索算法是Hadoop多源数据算法中的一部分,主要用于对不同的系统、层次、形态等多模态的多源数据进行挖掘处理,可以将其部署在多源数据情报侦查的分布式数据仓库中,进而完成对不同多源数据情报源的运算与归约。[11]Map-reduce多模态检索算法具有典型的易于控制、收敛速度快、运算效率高等突出特点,其运算过程主要分为Reduce-task和Map-task两部分。利用Map-reduce多模态检索算法可以将对多源数据情报源的挖掘任务细分为数个子任务,降低多源数据融合的复杂度,再把多源数据情报侦查的子任务分配给Map-task,并由Reduce-task运算和汇总Map-task所挖掘分析的数据结果。在接收到涉案情报侦查价值需求的检索任务后,数据仓库中的各多源数据会根据HDFS的预设对Master的数据节点、数据连边进行数据情报检索,并将检索后所形成的多源数据聚类频繁项目子集调度给Map-task。同时,还需要在Map-task运算阶段将多源数据情报侦查的任务目标部署在Split的数据运算函数映射中,使用反复的数据迭代运算②这一数据挖掘分析中的典型技术算法,通过先取一个粗糙的数据节点相似度近似值,然后用同一个递推公式,反复校正此阈值,直至符合预定精度要求为止,从而完成对涉案多源数据降维空间转换的Map-reduce多模态检索和字典求解。而在Map-reduce多模态检索运算的Reduce-task阶段,可以通过Shuffle计算挖掘分析出不同多源数据之间数据节点的相邻权重加权系数,并依据其系数的相似度或近似值而寻找和挖掘与数据犯罪情势具有内在关联性的各种数理关系。显然,Map-reduce多模态检索算法主要从多源数据情报源的完整程度和准确程度两个方面进行挖掘分析。只有Map-reduce多模态检索结果与数据犯罪情势发展的客观实际相符合时,才表明多源数据情报侦查应用的准确性和客观性。还可以根据Map-reduce多模态检索结果与涉案多源数据情报源总数的比例,计算部分未知检索结果与其所有数据的占有比例阈值,进而降低或消除多源数据情报侦查应用的离群度和冗余度。所以,采取Map-reduce多模态检索算法能够提升对涉案多源数据情报源挖掘的完整性和准确性,从而全面提高多源数据情报侦查应用的客观性和精确性。
(二)协同过滤推荐算法
协同过滤推荐算法的原理是统计与目标用户有着相同兴趣的用户,或者有同样经验的用户群体,归纳该用户群体感兴趣的信息,将这些信息推荐给目标用户。[13]通过采取协同过滤推荐算法能够挖掘与分析犯罪嫌疑人潜在的个性喜好,从而有利于对犯罪嫌疑人或数据犯罪情势展开多源数据情报的刻画,且该算法所形成情报侦查预测和决策的质量都比较高。依据多源数据情报侦查所针对的数据犯罪情势客体不同,可以将协同过滤推荐算法分为基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法两部分。其中,基于用户的协同过滤推荐算法主要是指采取数据统计的运算方法发现与犯罪嫌疑人具有相同或相似个性喜好的其他犯罪嫌疑人;而基于项目的协同过滤推荐算法主要是指通过对涉案犯罪嫌疑人的个性喜好、犯罪空间时序的系数、犯罪痕迹的鉴别和犯罪对象的选择等情报侦查项目的挖掘分析,再通过寻找和运算与其存在相似性的情报侦查需求项目,实时代替基于用户的协同过滤推荐算法。
结合多源数据情报侦查的特殊价值需求和平台设计,可以将多源数据情报侦查的协同过滤推荐算法具体分为以下几个步骤。首先,汇集数据犯罪情势的多源数据情报源。此处的多源数据情报源主要是基于不同情报侦查价值需求项目的多源数据。侦查人员可依据数据犯罪情势来分析判断该算法对数据的适合性。同时,多源数据情报侦查的应用平台也会根据犯罪嫌疑人的涉嫌犯罪行为自动对存储在数据仓库中的不同多源数据情报源展开挖掘与分析,从而快速高效地发现其与数据犯罪情势之间潜在的各种关联数理关系。其次,对多源数据进行近关联搜索,将已挖掘和待挖掘多源数据的节点相似度作为两者之间的权重加权系数③,依据已挖掘多源数据的节点权重加权系数能够获取待挖掘多源数据的节点权重加权系数,达到对不同多源数据情报源的关联聚类效果。例如,侦查人员可以采取正弦相似度算法、余弦相似度算法和皮尔森相似度算法等技术方法完成对多源数据的最近邻搜索。最后,形成情报侦查决策的推荐结果。根据多源数据最近邻收集所运算和获得的数据节点权重加权系数阈值,使挖掘分析出的关联数理关系作为情报侦查决策的依据,并将所形成的情报侦查决策及时推荐给有情报侦查价值需求的侦查人员。相较于传统情报侦查的数据推荐算法,协同过滤推荐算法受到多源数据情报侦查中历史数据和更新数据的影响或制约比较小,所以,采取多源数据情报侦查的协同过滤推荐算法,不仅能够保障对不同多源数据的数据节点权重加权系数挖掘分析的稳定性,还能够提升多源数据情报侦查挖掘与分析应用的高效性。
(三)仿射数据传播聚类算法
仿射数据传播聚类算法是指主要利用不同多源数据情报源之间互相传播的技术方法形成频繁项目数据集合的聚类中心,从而实现各个多源数据节点自动关联聚类的一种智能数据挖掘算法。相较于传统的数据关联聚类算法,仿射数据传播聚类算法不需要对多源数据情报源的数据形态类别、聚类初始中心、数据连边和数据路径等权重加权系数进行提前预设。任何一个多源数据的数据节点都具有潜在关联聚类中心的价值,通过采取数据迭代算法就能够自动形成多源数据频繁项目数据集合的聚类中心,促使多源数据情报侦查应用的结果更具有精确性。从仿射数据传播聚类算法的价值优势角度来说,可以将其在多源数据情报侦查中的应用分为两个步骤。
第二步,运算和挖掘获取多源数据互相传播的吸引值和归属值。多源数据的吸引值主要是将不同多源数据从数据节点i传播到作为潜在多源数据频繁项目集合关联聚类中心数据节点k的相似度阈值,即R(i,k);而潜在数据节点k′的归属值可通过在R(i,k)中插入数据节点i来获取。同时,多源数据的归属值是从多源数据频繁项目集合中潜在关联聚类中心数据节点k传播到数据节点i的相似度阈值,即A(i,k)。显然,多源数据的归属值不仅揭示了数据节点k作为数据节点i关联聚类中心适配的权重加权程度,而且在一定程度上反映了数据节点k对其他潜在数据节点的吸引值大小。多源数据情报侦查的仿射数据传播聚类算法,一方面具有降低数据挖掘运算的耗时量和提高多源数据利用率的功能;另一方面,还促使多源数据情报侦查应用具有较强的便捷性和实用性等价值优势,更加有利于多源数据情报侦查应然价值的高效实现。
(四)图卷积网络多源算法
图卷积网络多源算法最早是由学者Thomas Kipf提出的,主要原理是通过对不同多源数据的数据节点相似度特征进行卷积并采取图的方式进行挖掘分析,具有数据收敛速度快、运算耗时少、成本低等显著特征。[14]图卷积网络多源算法的应用平台主要包括输入层、隐藏层和输出层三个部分。其中,输入层主要输入不同多源数据的节点共同矩阵和相邻矩阵,目的是挖掘与分析不同数据节点之间相似度的权重加权系数;隐藏层的任务是利用Relu算法、Dropout算法等挖掘算法对不同类别形态、不同属性范畴的多源数据分布进行数据仓库构建,防止出现数据冗余、数据重复等现象;输出层的作用是将所挖掘和构建数据仓库中的多源数据转化成行为的数据预测阈值。
多源数据情报侦查的图卷积网络多源算法具有数据收敛速度快、运算客观性强和情报侦查预测精确度高等显著价值优势,多源数据情报侦查的情报价值需求可通过图卷积网络多源算法得以实现。多源数据情报侦查的图卷积网络多源算法可分为以下六个步骤。第一步,多源数据的预处理。在获取到涉案各种多源数据情报源之后,采取数据清洗、数据过滤等技术方法对其进行数据预处理,再将经过数据预处理的多源数据转化为多源数据频繁项目的本体集合并以RDF的类别形态予以存储。第二步,构建多源数据的拓扑图。以RDF类别形态的多源数据频繁项目本体集合为数据模型构建多源数据的拓扑图,该本体集合中所有多源数据的总数量就是其构建拓扑图的数据节点总数。可以采用One-hot稀疏数据矩阵⑤来表示多源数据拓扑图的矩阵特征,促使构建多源数据的拓扑图更加客观合理。同时,还可以根据不同数据节点之间相似度权重加权系数的差异性,将其构建为两个具有无向型的多源数据拓扑图。第三步,多源数据的实例化张量。为了提升多源数据情报侦查挖掘与分析应用的精确性,需要对已构建的多源数据拓扑图采取实例化张量运算,主要包括数据节点矩阵、共同相邻数据路径矩阵、数据节点相似度、数据节点的距离标签,以及数据连边的无向图等实例化的张量运算。第四步,构建图卷积网络多源算法模型。为避免和降低在图卷积网络多源算法中出现数据过拟合等离群异常现象,可采取Leaky-relu函数对涉案的多源数据进行非线性激活,并利用Soft-max函数对图卷积网络多源算法展开Adam模型优化,从而提升图卷积网络多源算法模型的科学性。第五步,训练多源数据集。将多源数据拓扑图中数据节点A、B作为被训练多源数据集的对象,依据数据距离、数据路径、数据阈值、共同相邻或衍生相邻的数据节点等不同的数据节点属性范畴,将其作为训练多源数据集的相似度模型输入来源。然后,通过图卷积网络多源算法模型挖掘与分析最合适多源数据情报侦查应用的特征矩阵Abest和相邻矩阵Bbest。第六步,多源数据集的测试。在挖掘分析最合适多源数据情报侦查挖掘分析的特征矩阵Abest和相邻矩阵Bbest之后,将其应用于不同多源数据频繁项目集的测试。在多源数据集的测试过程中,首先选择和确定多源数据X、Y作为被测试的数据节点,然后分别计算数据节点X、Y的数据距离、数据路径、相似度阈值、权重加权系数和数据连边等,最后将上述多源数据节点X、Y的计算结果代入图卷积网络多源算法的运算模型进行挖掘与分析,其输出的结果即为多源数据情报侦查的数理关系挖掘分析结果。
(五)异构传感数据融合目标识别算法
传统的数据情报侦查算法为了降低数据挖掘的计算量,往往采用单一数据特征选择的静态目标识别算法,对类别形态、格式标准、内涵属性等相同或相似的同源数据具有较好的情报侦查挖掘分析价值。然而,随着多源数据情报源的不断产生,传统单一数据特征选择的静态目标识别算法已难以适应多源数据驱动创新时代情报侦查工作的价值需求。基于此,提出和引入一种特殊的异构传感数据融合目标识别算法显得尤为必要。依据对不同异构多源数据情报侦查的情报价值需求和流程模型构建,可以将异构传感数据融合目标识别算法具体分为三个步骤。第一步,异构多源数据的融合。异构多源数据的融合主要包括多源数据目标状态的融合和多源数据目标特性的融合两个部分。将通过不同情报侦查途径所获取的各种异构多源数据进行数据汇集、数据清洗、数据集成等数据预处理之后,再采取多传感器的数据目标跟踪技术将各种多源数据的目标状态进行互相融合,从而完成对多源数据情报源的数据目标挖掘和跟踪。同时,在对多源数据目标状态融合的基础上,还需要进一步对数据仓库中不同多源数据的类别形态和内涵属性进行挖掘与分析,完成对多源数据目标特性的融合应用。显然,通过对异构多源数据的融合应用,一方面在多源数据情报侦查的数据仓库构建过程中能够有效降低和消除冗余数据、重复数据、多维数据等离群多源数据出现的概率;另一方面,还具有提升后续异构传感数据融合目标识别算法高效、客观的运算价值。第二步,提取多源数据的目标特征。异构传感数据融合目标识别算法的关联数理关系挖掘分析主要有数据识别目标特征、数据空间特征、数据统计特征、数据阈值变换特征等技术方法。其中的数据识别目标特征方法主要是通过对多源数据的抽象提取所获得,能够揭示和反映出不同多源数据识别目标特征的本质属性区别。例如,侦查人员可以采用直方图的方式选择和提取多源数据识别目标的特征,图像的灰度级表示不同多源数据识别目标特征的空间分布。可利用直方图的图像区域大小M×N(M、N为坐标值)标定多源数据在该图上的可识别目标特征,不同多源数据的可识别目标特征分别通过公式F(Mk)=Nk来具体计算标定。其中,k的阈值范围为[0,L-1]。此外,还可以通过余弦频谱、正弦频谱、傅里叶频谱等技术方法挖掘和提取不同多源数据的目标特征。第三步,实现情报侦查的目标识别。在异构传感数据融合目标识别算法过程中,冲突阈值表示不同多源数据目标识别之间的权重冲突概率,而影响和制约冲突阈值的要素比较多。若多源数据M1和M2的冲突阈值较高时,则可以将两者进行数据融合;若两者之间的权重冲突概率特别高时,则需要先采取关联聚类算法降低权重冲突概率,再进行调整融合。可先将不同多源数据之间的冲突阈值提前进行预设,为了确保侦查目标识别的精确性和客观性,需要对其冲突阈值和概率进行不断的检验和修正。通过调整和修改不同多源数据之间的冲突阈值和概率来确保侦查目标识别的准确性,既考虑了不同多源数据内涵属性之间的兼容性,又合理解决了冲突阈值和概率过高等相关问题。因此,采用异构传感数据融合目标识别算法不仅能够全面降低和减少多源数据情报侦查应然价值和实际效果之间的差异性,还能够大幅度提升多源数据情报侦查目标识别的准确性和高效性。
(六)数据分类压缩算法
PPM压缩算法、旋转门算法等传统数据情报侦查算法往往存在有损压缩的缺陷,已难以满足多源数据驱动创新时代情报侦查工作的价值需求,所以,需要引入数据分类压缩算法⑥的多源数据情报侦查应用方法。结合数据分类压缩算法的价值优势和多源数据情报侦查的实际需求导向,可以将多源数据情报侦查的数据分类压缩算法分为四个方面。一是多源数据的划分。根据不同多源数据情报源被压缩的算法平台设计,可以将其划分为多源数据的时间戳压缩和多源数据的质量码压缩两个部分。其中,多源数据的时间戳压缩主要是寻找和汇集涉案多源数据情报源时的时间戳,这不仅能够提升多源数据情报侦查决策的准确性,而且能够保障数据仓库构建、数据集成等多源数据情报侦查流程模型的完整性和时序性。而多源数据的质量码压缩是分析判断对多源数据情报源挖掘和分析工作状态的质量码,主要包括连续型、离群型、Bool型等类型。根据多源数据情报侦查的不同情报价值需求,多源数据的质量码压缩可以采取不同的数据阈值[0,1]表示其不同的数据精度。二是多源数据时间戳和质量码的压缩。先预置一个多源数据时间戳和质量码压缩的基准阈值,通过处理其他多源数据时间戳和质量码压缩而获取两者之间的数据序列差值,并对相等或不相等的多源数据时间戳和质量码压缩之间的差值进行记录和存储,再采取数据节点匹配的RLE算法⑦完成多源数据时间戳和质量码的压缩目标。三是多源数据数值的压缩。在使用数据分类压缩算法对不同多源数据进行数值压缩的过程中,不但要考虑各数值压缩之间的差异性,而且还需要考虑不同多源数据之间的类别形态、内涵属性、数据路径和数据距离等。例如,针对不同数值型多源数据之间权重加权系数波动性较小的特点,可以直接对此类型的多源数据进行数值压缩。对于符号型、文本型等不同类型的多源数据,可以先预设一个多源数据数值压缩的基准值和固定差值范围,并对多源数据的字典采取初始化操作。同时,根据不同多源数据的记录和存储以及其基准值之间差值的范围,寻找相对应的数据节点字符串索引,再采取LZ78算法⑧等技术方法完成对多源数据数值的压缩任务。四是数据分类压缩算法的性能测试。为了提升多源数据情报侦查预测和决策应用的精确性,需要对数据分类压缩的算法进行性能测试,主要从多源数据时间戳、质量码和数值压缩等方面展开检验和修正。显然,相较于传统的数据情报侦查方法,数据分类压缩算法更加能够满足多源数据情报侦查的应用价值需求。多源数据情报侦查的数据分类压缩算法兼顾了对涉案多源数据挖掘与分析的效率和质量,这不仅有利于降低数据的收敛耗时和数值的压缩时间,还有利于提高多源数据情报侦查应用的高效性和优质性。
五、结语
基于多源数据的情报侦查方法是多源数据驱动创新时代的新型数据情报侦查方法,并且包括Map-reduce多模态检索算法、协同过滤推荐算法、仿射数据传播聚类算法、图卷积网络多源算法、异构传感数据融合目标识别算法、数据分类压缩算法等多种多源数据情报侦查方法,且不同的多源数据情报侦查方法有着不同的算法价值优势。基于此,引入多源数据情报侦查方法的研究范式既是必要的,也是及时的。以多源数据情报侦查的内涵与属性为研究逻辑起点,提出多源数据情报侦查的平台设计方案,构建多源数据情报侦查的流程模型,探讨多源数据情报侦查的应用算法,这不仅有助于提高多源数据融合的准确率和关联聚类的挖掘率,而且能够增强多源数据溯源的客观性和情报侦查价值应用的高效性,从而实现由“等待需要”向“创造需求”转变的应然情报侦查价值。
注释:
①数据犯罪情势主要是通过数据对犯罪情势进行描绘,将犯罪情势诸要素进行量化,以数据及数理关系描绘犯罪情势,从而为多源数据情报侦查提供科学准确的数据基础。
②数据迭代运算是数据挖掘分析中的一类典型技术算法,其原理是先取一个粗糙的数据节点相似度近似值,然后用同一个递推公式,反复校正此阈值,直至符合预定精度要求为止。该算法主要应用于BP神经网络训练、卡尔曼滤波五组核心递推公式、赫尔默特方差分量估计、拱坝溢流坝计算点位径向距离等方面。
③所谓权重加权系数是指在数据挖掘分析过程中,为了显示若干数据在数据仓库总数据源中所具有的重要程度,分别给予不同的比例系数。权重加权系数主要分为自重权数系数与加重权数系数两种,权重加权系数阈值的大小与所挖掘分析的目标重要程度有关。
④数据适配度主要是通过对数据源使用适当的Transact-SQL语句映射Fill(可更改DataSet中的数据以匹配数据源中的数据)和Update(可更改数据源中的数据以匹配DataSet中的数据)来提供这一桥梁衔接,从而提高数据在SQL Server数据库进行挖掘分析的性能和准确率。
⑤在数据被转换和融合后,存在部分数据不能直接被分配或存储在数据仓库的数据分类器中被挖掘分析的情况,而数据分类器往往默认数据是连续的,并且是有序的。为了解决上述问题,其中一种典型的解决方法是采用独热编码即One-hot稀疏数据矩阵,One-hot稀疏数据矩阵方法是使用N位数据寄存器来对N个数据进行编码,每个数据都有独立的寄存器位,并且数据和寄存器随机对应组合,在任何时候都是一对一有效,即只有一个寄存器位有效,主要具有解决数据分类器不好处理属性数据的问题和在一定程度上扩充数据属性特征的作用。
⑥数据分类压缩算法是指各种数据在被数据清洗、数据集成等存储在数据分类器之后,采取缩减数据量而提高其处理、传输、存储和挖掘分析效率,减少数据的冗余和存储的空间等,并且对压缩后的数据进行重构(或者叫做还原,解压缩)后与原来的数据完全相同。
⑦RLE(Run LengthEncoding行程编码)算法是一个简单高效的无损数据压缩算法,其基本思路是把数据看成一个线性序列,而这些数据序列组织方式分成两种情况,一种是连续的重复数据块,另一种是连续的不重复数据块。对于连续的重复数据快采用的压缩策略是用一个字节表示数据块重复的次数,然后在这个数据重数属性字节后面存储对应的数据字节本身;对于连续不重复的数据序列,表示方法和连续的重复数据块序列的表示方法一样,只不过前面的数据重数属性字节的内容为1。
⑧LZ78算法主要通过对输入缓存数据进行预先扫描与它维护的字典中的数据进行匹配来实现处理更新后的数据,在找到字典中不能匹配的数据之前它扫描所有的数据,输出数据在字典中的位置、匹配的长度以及找不到匹配的数据,并且将结果数据添加到字典中。