基于互联网大数据的挖掘和预测分析
2019-03-27
(四川大学商学院 四川 成都 610000)
引言
大数据的出现依托于互联网的发展,并很大程度上来源于互联网,由于大数据具有重要价值,且有着巨大的隐藏价值,因此,对于大数据的关注越来越高。庞大的数据总量和共享的互联网只是表象。数据如果能够提炼出规律,它就拥有了更高的价值,数据能够借助于各种各样的工具在分析的基础上为我们提供正确的决策,如何进行合理的挖掘和分析成了亟待考虑的问题。
一、互联网大数据的特点
(一)数据的多样化
在互联网环境下,数据来源十分广泛,也就意味着数据的多样化,可是也容易杂,结构多样化并且伴随着质量不高的问题。大数据的大并不意味着数据质量的高,有些数据并不一定真实有效。除此以外,来源广泛也意味着数据的复杂性,需要进行分析与筛选。大数据下,数据类型慢慢从单一的结构化数据转向融合型数据,即结构化、非结构化、半结构化三者融合。传统的数据分析无法应对如今类型众多的数据,所以如何通过优化资源配置、重组架构等方式实现更高效率的提取信息成了一大挑战。
(二)数据的高增长速度及大规模
大数据每时每刻都在不断地以惊人的速度产生,信息更新换代的周期越来越短,并且面对如此巨大且仍在继续扩大的数据规模,数据库的存储能力也在接受着考验,大数据和存储设备之间的协调如何达到平衡,如何设计出与之相匹配的存储架构成了关键。若不能克服互联网大数据的这个特点,面对从海量的数据中获取有用信息这一想法便无法实现。
(三)数据的时效性强
互联网数据产生速度快也伴随着价值的时效性强,很多数据信息是需要实时集成挖掘的,如果没有及时处理,则会大大降低其价值甚至失去其价值,在数据类型单一的情况下进行数据实时处理是比较容易的,但是囿于其规模巨大、形式多样的现状,数据环境变得更加复杂,很难做到实时处理数据,系统也很难把数据全貌,提升技术手段并实现对多个领域进行数据实时挖掘,采用在线处理手段成了数据处理效率提高的关键。
二、数据挖掘
(一)概念
如果从数据挖掘的具体任务实现步骤进行阐述。那么数据挖掘即是:首先,从海量数据中寻找一定的规则与逻辑,即确定数据挖掘的目标任务,明确需求;其次,根据数据挖掘需求,确定挖掘分析对象,进行数据的准备及一系列预处理动作;再次,选择挖掘技术,建立数据模型;最后,数据规则与逻辑的展示,并得到深层的信息。无论是数据挖掘技术的方法选择还是过程的确定,都应其应用领域的不同或者需求目标的不同而有一定的差异性,数据挖掘技术的应用可以帮助从海量数据中获取想要的信息。
(二)数据的预处理
数据预处理是指在主要的处理以前对数据进行的一些处理,指的是对所收集数据进行分类或分组前所做的审核、筛选、排序等必要的处理,来提高数据挖掘的质量。因为互联网大数据大体上都是不完整且不一致的杂乱数据,无法直接进行数据挖掘,或挖掘结果差强人意。
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
(三)数据挖掘技术的应用
数据挖掘在技术上的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的且人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘在商业上的说法是一种新的商业信息处理技术,其主要功能是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘是一门很广义的交叉学科,汇聚了不同的技术,尤其是信息技术、统计分析技术等。其的主要目的是为商业决策提供真正有价值的信息,进而获得利润。但所有数据挖掘者面临的一个共同问题是:互联网数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就成了最大的考验。
三、数据预测
(一)概念
数据预测是一种挖掘连续取值数据并从已有数据中推断获得信息的一种重要方法,在对数据进行了一定处理的基础上,通过合适预测手段建立模型以获得目标期望值。
(二)分类及方法
从商务预测的角度可以把数据预测分为定性预测和定量预测。定性预测是基于预测者的知识、经验、综合观察,或者集体的智慧和直观的材料,对事物未来发展变化的特点及变动趋势做出主观判断,优点是能够节省时间和节约费用。但是缺点则是无法准确严谨地把握这些因素的影响模式,无法解释清楚和固化为具体的流程。一些常用的定性预测方法诸如:经验判定预测法、专家意见预测法、调研判定预测法、主观概率预测法等方法。
定量预测是指在数据挖掘的基础上选择和建立适当的数学模型,再使用历史数据对模型进行训练,根据数学模型估计预测对象在未来的状态。这样预测结果稳定且准确,可重复和改进,并且易于学习和交流。难点和缺点是对数据资料的质量要求高,并且对使用者提出了较高要求,需要使用者具备相应的数学、统计学、算法等知识。定量预测又可以通过原理的不同分为两类,一类是时间序列,包括移动平均法、指数平滑、三次指数平滑、ARIMA等。另一类是因果法,包括线性回归、非线性回归、灰色系统预测法、马尔科夫预测法和机器学习的方法。
(三)数据预测的应用
数据预测是大数据最核心的应用,大数据预测的优势体现在它把一个不容易知道的信息转化成一个相对简单的描述问题,并且能通过一定手段实现。从预测的角度看,大数据预测所得出的结果不仅仅得到处理现实业务简单、客观的结论,更能用于帮助预测者提供决策,基于收集的信息规划进程,从而达到目的。
如在网络营销中,通过如爬虫这样的手段获取网络信息数据,然后有依据地进行分析、处理、挖掘,在结合现有信息和目标规划的基础上,选取适当手段,如回归方法或建立神经网络,设计模型最终获得最佳的营销手段及决策建议,更好地进行网络营销。
结语
在基于互联网大数据的时代,准确及时地获取数据信息并利用处理,根据目标期望结果,配以合适的数据挖掘方法,建立模型运用预测技术得到指导性的结果,这便是互联网大数据的真正价值所在。