APP下载

基于数据挖掘的网络信息采集方式探析

2020-01-06丁悠成

科学与信息化 2020年34期
关键词:约简归纳法决策树

丁悠成

国网江苏省电力有限公司常熟市供电分公司 江苏 苏州 215500

引言

我国社会的飞速发展使得网络信息技术以极快的速率应用到各个行业中,同时其应用也有效推动了行业的发展。而数据挖掘技术则是网络信息采集方式之一,这种技术代表着人们在长期网络信息活动及研究中总结的经验,具有从大量信息中筛选出最富价值信息的能力。在将数据挖掘应用在网络信息采集中之后,人力分析的工作量被大幅削减,这就使得不同行业的工作效率均获得了很大程度的提升[1]。如今数据挖掘已经发展为一门囊括内容众多的学科,同时也引起了整个社会的广泛关注。

1 当前网络信息资源利用中存在的问题

近年来网络信息技术的普及与应用,使得互联网上的信息资源在数量及种类上展现出几何速率的增长。大部分情况下从互联网上获取的信息均是免费的,然而海量的数据使得人们难以在短时间内实现对数据的有效筛选,因而判定数据价值的工作也面临着一定的难度,而互联网本身开放性、动态性及异构性的特点进一步加剧了数据筛选的难度与准确性;另一方面,各类数据在数量上的庞大程度也导致了数据在内容上的复杂性,这就使得数据筛选工作的质量很难得到保障,对于其中违法或违规内容的鉴别也占用了大量的时间成本;最后,互联网的交互性导致某些敏感部门不能从互联网上直接获取信息,这就使得这些部门的信息需求问题难以得到有效的解决。

2 基于数据挖掘的网络信息采集方式探析

2.1 神经网络法

神经网络法的应用是人脑神经元形式在网络信息采集方法中的表现,可简单理解为将数据挖掘过程与人脑神经元相结合,从而构建出三种不同类型的神经网络模型,并根据实际情况对神经网络模型进行培训及优化,以使数据挖掘工作的效率获得相应提升。在神经网络法中包含了大量的神经元,而这些神经元则能够通过完全不同的连接形成动态画的系统。事实上,互联网本身具有一定的学习能力,这就使得在模拟人类大脑结构的同时,可将接触到的信息及获取的知识存储在不同的网络单元中[2],而互联网模拟人类大脑的优势,在于其本身具有相应的抗噪声能力,这是人类大脑结构所不具备的。

当前数据挖掘工作中常见的神经网络法以前进神经分类较多,该方式有效模拟了人类大脑的思考模式,因而也就使得网络决策更容易为人所理解,此外该方式还具有建立白化机制的功能,可根据数据挖掘、决策支持来提供相应的说明讲解。该方式具有很高的拟人化程度及人性化特征,但缺点是单个系统的构成需要大量的资源支持,且在应用的灵活性上有所匮乏。

2.2 粗集方法

粗集方法建立在粗集理论的基础上,这意味着粗集方法并不需要借助给定的部分特征或属性,而是可以直接从给定问题的角度进行思考,依靠不可分辨关系来查明数据之间的具体规律。假如系统采集到的数据中存在其他不确定因素或变化因素,则这部分因素需要得到及时的解决,而网络信息数据库又不具备这样的功能,这就使得粗集方法能够派上用场,粗集方法通过完整集合这部分因素及内容,能够有效强化信息的处理能力。此外,粗集方法还具有求解最小约简的功能,这就使得约简规则的总结及归纳成为可能[3]。一般情况下,最小约简是人们在数据挖掘过程中最期望见到的结果,而决策表约简则以大量不同内容的部分构成,粗集方法对最小约简的求得使得该方法在数据挖掘过程中备受相关人员的青睐。

2.3 决策树归纳法

决策树归纳法是网络信息采集过程中最常见的数据挖掘方式之一,而且决策树归纳法在应用难度上也是最低的。事实上,决策树归纳法还有决策图的称呼,其分类形式具有明显的树状特点,因而在相关规律的总结上也具有更高的可靠性。这就使得数据挖掘能够依靠决策树归纳法获得含有大量信息的字段,并根据字段之间的差异为决策树发展新的分支。在一个完整的决策树中,不同分支自己往往需要重复建立树的结点与分支。就其结构形式而言,决策树的形成往往需要以将全部子集均形成数据为前提,并在此基础上完善整个决策树的结构。

2.4 遗传算法

遗传算法在本质上属于优化技术,而遗传算法的出现则源自于进化理论,在进化理论与遗传相结合之后才有遗传算法的诞生。遗传算法在具体的应用过程中通常需要对求解的问题进行编码,随后根据各方面信息及内容,对个体的适应度进行详细的计算。在得出计算结果之后,遗传算法会对结果进行复制、变换等操作,从而使之产生新的个体。通常遗传算法会分为选择过程、重组过程及突变过程三种基本算子,而三种基本算子执行的算法也各不相同。而在数据挖掘过程中,遗传算法还能实现对计算的优化及分类,因而对于组合优化问题的处理具有一定的优势。相比其他方法而言,遗传算法最大的优势是其操作上的便利性及低难度。

3 结束语

网络信息采集已经成为当前时代背景下的重要信息资源获取方式之一,而数据挖掘的不同方法则使得网络信息采集的效率得到极大程度地优化。在不同数据挖掘方法的应用下,用户在进行网络信息采集时的效率能够获得极大程度的提升,也就使得网络信息资源的利用率获得大幅强化,对行业及社会的发展起到了一定的推动作用。

猜你喜欢

约简归纳法决策树
物理方法之归纳法
数学归纳法学习直通车
基于0-1规划的最小属性约简算法
面向特定类的三支概率属性约简算法
直觉模糊序决策系统的部分一致约简*
决策树和随机森林方法在管理决策中的应用
近似边界精度信息熵的属性约简
用“不完全归纳法”解两道物理高考题
决策树学习的剪枝方法
数学归纳法在高考试题中的应用