大数据环境下物资采购数据分析方法研究
2018-01-04王娟
王娟
[摘要]目前,信息领域研究和应用的热点问题之一就是大数据问题,尽管国内外学者对大数据分析有了一定的研究,但对于大数据环境下物资采购数据的研究仍是空白。本文针对大数据的特点和物资采购数据分析的现状,首先阐述大数据对物资采购的影响,然后从提高数据质量、采用有效的数据挖掘技术和处理方法3个方面,对大数据下物资采购数据分析的技术方法进行研究。
[关键词]大数据;物资采购;数据分析
doi:10.3969/j.issn.1673-0194.2017.18.025
[中图分类号]TP311.52 [文献标识码]A [文章编号]1673-0194(2017)18-0041一02
通常,人们将物资采购定义为需方向供方购买商品或服务的一种商业行为。在互联网日益发达的现代社会,物资采购也从简单的面对面的钱物交换,转变为网上采购的方式,使物资采购过程中的数据收集变为可能。大数据时代已经到来,数据量、数据类型以及处理数据方式都已经发生转变,这预示着在大数据下对物质采购数据进行分析成为可能,当然也带来了各种挑战。2015年11月,我国发布的《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》提出,拓展网络经济空间,推进数据资源开放共享,实施国家大数据战略,超前布局下一代互联网。这是我国首次提出推行国家大数据战略。人们通过大量收集和分析物资采购历史数据,可以精准预测到物质的需求人群、需求量、消费频率和消费方式,从而指导生产企业的生产计划、库存量等一系列生产活动。因此,本文研究大数据下物资采购数据分析的技术方法具有十分重要的意义。
1大数据的定义和国内研究现状
大数据指所涉及的资料量规模大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策目的的资讯。
国内相关技术主要集中于数据挖掘相关算法、实际应用及有关理论方面的研究,涉及行业比较广泛,单位集中在高等院校和研究院所等,特别是IT等新兴领域,对技术进步起到了很大的推动作用。
2物资采购数据分析方法概述
在传统环境下,物资采购数据收集有限,使用常规的相关性分析、回归分析、聚类分析等方法就可以处理。但随着信息时代的到来,企业越来越重视标准化和流程化管理,需要收集的物资采购数据也越来越多,并逐步延伸到每一个具体的环节。传统的物资资料分析方法已不能满足现实的需要,只有通过各种计算机软件对数据进行充分整理、挖掘,才能对庞大的物资采购数据进行有效分析。
3大数据发展对物资采购数据分析工作的影响
2015年,全球有超过85%的财富500强企业在大数据竞争中失去优势。对于需要物资采购的行业来说,这些行业只有从大规模的物资采购数据中,提取、挖掘到有意义、有价值的信息,才可以提高物资采购效率,指导物资采购策略研究。在传统的物资采购工作中,企业会产生大量复杂、无法分类的不规律数据,通过人工分析不可能分析出具体的规律。而大数据“样本=总体”的全数据模式能够分析企业物资采购方面的所有数据,从而为物资采购工作提供更全面的参考,如,同类型历史采购价格走向、到货周期、各品种需求量等,使物资采购工作可以更加高效、准确。
4大数据环境下物资采购数据分析的技术方法研究
4.1提高物资采购数据质量是大数据下技术方法研究的基础
大数据的字面意思就是数据量非常大,从巨大的数据量中提取到自身需要的有用信息,不可避免地就要考虑到数据质量的问题。人们在处理数据时,要考虑到大数据的这种不确定性,而且要在数据的各个阶段,使用各种方法了解和把控这种不确定性。中国工程院院士、西安交通大学教授汪应洛认为,在大数据产业发展中,数据质量也是一大障碍,不容忽视,他说:“数据质量是大数据产业这座大厦的基础,如果数据质量不高、基础不牢靠,大数据产业就可能岌岌可危,甚至根本无从发展。因此,提高数据质量是大数据研究中的重中之重。
4.2采用有效的数据挖掘技术是分析物资采购数据的关键
数据分析离不开数据挖掘,物资采购的大数据也不例外。目前,主要的数据挖掘技术主要有WEKA、RapidMiner、PMML、Mahout、Dryad和Pregel等。笔者认为,物资采购数据挖掘更适合采用WEKA。WEKA的中文名是怀卡托智能分析环境,是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及在新的交互式界面上的可视化。
WEKA可以用在所有的操作系统平台上,使物资采购数据在常规系统上进行分析成为可能。对于物资采购数据来说,物资采购数据需要进行预处理、分类、聚类以及需要研究关联规则,并在某些时候对实际用户、仓储部门、销售方进行界面的可视化,指导日常工作。WEKA基本可以完成这些工作。
4.3处理物资采购数据需要结合关系数据库和非关系数据库
关系数据库,采用关系模型作为数据组织方式。关系数据库的显著特点是把具有相同属性的数据独立地存储在同一表格中。对于任意一个表格来说,使用者在变更表中的数据时,不会对表格中的其他数据产生影响。关系数据库的层次结构可以分为数据库(Database)、表(Table)与视图、记录(Record)和字段(Field),相应的关系理论中的术语是数据库、关系、元组和属性。
关系数据库系统在数据分析中占据着主要地位,但半结构化和非结构化数据出现以后,关系数据库系统就不能完全适应这些数据的处理需求,在处理物资采购数据时需要结合关系数据库和非关系数据库。后续出现的类似MapReduce的大数据处理工具在容错性、可扩展性、数据的移动性上具有明显的优势。该工具在处理物资采购数据时结合了关系数据库和非关系数据库,為大数据环境下物资采购数据的处理提供了借鉴。
5结语
本文根据国内大数据的发展和应用现状,针对物资采购数据分析的特点和需求,研究了在大数据环境下物资采购数据分析的技术方法。目前的物资采购工作中,对大数据的研究仍处于一个相对空白的阶段,还有许多迫切需要解决的问题。企业在物资采购过程中,要寻找适合物资采购大数据的应用方法和技术,提高物资采购的预判性、策略性、节约额和效率等,从而为企业提供决策性指导意见。