APP下载

大数据时代背景下对应用统计学专业的思考

2016-07-14上海财经大学浙江学院浙江金华321013

高教学刊 2016年18期
关键词:数据挖掘专业分析

(上海财经大学浙江学院,浙江金华321013)

(上海财经大学浙江学院,浙江金华321013)

“大数据”(Big data)研究机构Gartner定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统计学的一般方法,因而大数据的研究继承了统计学科的一些特点。但大数据尚未被统计学完全吸纳和应用,这主要是由于大数据与统计学存在两个很关键的差别。为此,在大数据时代背景下,应用统计学专业的人才素质的培养及课程设置如何改革等方面,是应用型本科院校值得并迫切思考的重要问题。

大数据;应用统计学;改革

一、概述

众所周知,统计学自古至今就是一门以研究数据为主的学科,至今已经形成了较为成熟的数据研究体系与框架。统计学专业的学生的主要就业方向是银行、会计师事务所、市场调查公司或其它企事业单位。因此目前统计学教育的主要目的是能够培养出独立完成问卷设计、数据收集、应用模型进行数据分析的高级统计人才,其主要专业课程包括:高等概率论与数理统计、应用回归、多元统计、市场调查实务、时间序列分析、金融计算等,这些课程仍然是传统的课程设置,并不符合大数据时代数据科学家的专业知识构成。因此,在大数据时代背景下对应用型本科院校应用统计学专业的培养模式和教学改革的思考是非常有必要的。

2012年3月29日,美国在倡议书中指出,美国将应用收集巨大、复杂数据的挖掘能力,加速科学与工程学科的创新脚步,改革学生培养模式。北京师范大学邱东教授探讨了面对大数据潮流人们应持有的科学态度,从大数据的概念功能、统计学与数据科学的关系、大数据潮流对统计学产生的影响等4个方面论述了大数据对统计学的挑战[1]。英国学者维克托·迈尔·舍恩伯格认为大数据的精髓在于分析信息时的3个转变:一是可以分析和处理更多甚至是全部的数据,不再依赖随机抽样;二是研究数据如此之多,以致于人们不再追求精确度;三是人们不再热衷于寻找因果关系[2]。为适应大数据时代对数据处理人才更高综合素质的要求,统计学科教师与专业教育应在知识结构、教育内容、教育方式和人才培养模式等方面,主动进行与时俱进的充实、调整及变革[3]。文章拟从数据挖掘与统计分析的联系与区别、大数据对统计教育及统计人才的机遇与挑战的新形势下从政府、企业和人才等多个角度进行展开调查,对于应用型本科院校培养顺应时代发展的应用统计学专业的高层次人才提供相应的建议。

二、统计分析与数据挖掘的区别与联系

统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。

统计分析过程:描述要分析的数据的性质,研究基础群体的数据关系,创建一个模型,总结数据与基础群体的联系,证明(或否定)该模型的有效性,采用预测分析来预测将来的趋势。

统计分析方法:(1)描述统计:将研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和归纳数据的特征及变量之间的关系的方法。集中趋势、离散程度、相关强度等、指标有平均数、标准差、相关系数等;(2)推断统计:用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法。总体参数估计、假设检验、Z检验、T检验、卡方检验等数据挖掘是从庞大的数据中分析出有目标数据群,筛选出利于决策的有效信息。数据挖掘的数据量极大,注重数据查询分析的可行性。数据挖掘是着眼于预测未来,从大量的数据中寻找某些规律。

数据挖掘过程:(1)定义问题:分析业务需求、定义问题的范围、定义计算模型所使用的度量、定义数据挖掘项目的特定目标等;(2)准备数据:删除错误数据或插入缺失值、查找数据中的隐含相关性、标识最准确的数据源、确定哪些列最适合用于分析;(3)浏览数据:计算最小值和最大值、计算平均偏差和标准偏差、查看数据的分布;(4)部署和更新模型:根据实际数据部署、更新模型;(5)浏览和验证模型:测试模型的性能、需要使用不同配置创建多个模型,并对所有这些模型进行测试,查看哪个模型为最佳;(6)生成模型:通过创建挖掘结构定义要使用的数据列、将挖掘结构链接到数据源,但只有对挖掘结构进行处理后,该结构才会实际包含数据。

表1统计分析与数据挖掘的区别

从上可以看出大数据虽与统计学密切相关,但二者也在研究目的、数据处理对象和技术工具上有着诸多差异。大数据的兴起不仅在分析手段、工作重心和价值理念上给统计学带来了重大影响,而且也使担负着培养现代统计工作和数据分析之人才的统计教育面临严峻挑战。

三、大数据对统计人才及统计教育的机遇与挑战

根据2014年大数据应用现状和趋势展开的调研分析,被调查者最关注的大数据技术中,排在前三位的分别是数据分析(统计分析与数据挖掘等)(25.5%)、数据采集(19.9%)、数据处理(18.5%)。企业数据管理面临的挑战:缺乏专业的大数据人才(26.95%)成为企业面临的最大挑战,其次是非结构化数据的分析和处理(26.65%)、传统技术难以处理大数据(25.27%)以及新技术门槛过高(21.13%)。根据2015年2月Forrest报告,很多企业都在努力挖掘其拥有的大量数据,包括结构化、非结构化、半结构化数据等,探索对数据的深入利用。从国内企业大数据应用的现状和规划来看,已经部署大数据应用的企业所占比例达到21.89%,计划1年内部署的企业占27.92%,计划2年内部署的企业占14.34%,没有相关计划和不确定的企业分别占11.32%和24.53%。大数据相关人才的欠缺将会成为影响大数据市场发展的一个重要因素。据Gartner预测,到2016年,全球将新增440万个与大数据相关的工作岗位,且会有25%的组织设立首席数据官职位。大数据的相关职位需要的是复合型人才,能够对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控。

根据学院统计学不同方向等专业的学生、老师、专家以及政府范围工作人员等进行访问调查的结果,然后结合现如今大数据时代企业和政府对人才的需求,最终制定应用型人才培养方案分别如下:

(一)深化课程教学内容改革

1.更新教学内容,紧跟时代发展——大数据、互联网金融、国民经济统计、货币银行、经济预测与决策;2.强化统计基础,提高实践操作——统计方法、软件实现、贝叶斯统计、非参数估计、统计软件、数据挖掘;3.强调专业导向,拓宽就业方向-选修、考证;金融类、经济类、管理类、会计类;统计从业资格证书。

最终根据学院不同方向统计学专业设置专业核心课如下:

(1)应用统计学:主要专业课调整为:概率论、数理统计、统计学、回归分析、时间序列分析、多元统计分析,抽样技术、数据挖掘、贝叶斯统计、计量经济学、统计软件、非参数统计、统计调查等;(2)应用统计学(金融统计):主要专业课调整为:概率论、数理统计、统计学、回归分析、时间序列分析、多元统计分析,抽样技术、数据挖掘、金融计量学、风险管理、保险学、非寿险精算、统计软件、国民经济核算、统计调查等;(3)经济统计学:主要专业课调整为:概率论、数理统计、统计学、回归分析、时间序列分析、多元统计分析,抽样技术、数据挖掘、国民经济核算、风险管理、保险学、非寿险精算、统计软件、金融计量学、统计调查等。

(二)重视教学方法改革

1.教师教学理念——单向灌输式转向引导探究式、教学案例能贴近实际问题(体测数据、大学生婚恋、手机);2.鼓励学生参与各类项目——科研、调研、方案设计、抽样调查、统计调查、学科竞赛、教师课题(分解子课题);3.注重综合能力提升——表达、协作、创新、研究报告、PPT展示等。

(三)建立完善的实践教学系统

1.基本知识技能实验——理论教学的课内实验,大一、二:数学类;大二、大三(上):专业基础;2.综合性实践教学——综合性数据的采集、处理、分析,大三(下)、四(上):数据挖掘、统计软件、统计调查;3.探索性实践教学——社会调查、毕业实习、毕业论文,大四(下)。

(四)改革课程考试方式

1.基本知识(理论)+实验报告(平时)+综合实验(期末)数学类;专业基础课程;2.方案设计、调研报告、抽样调查、统计调查;3.综合实验,数据挖掘、统计软件。

四、结束语

最终学院统计系下设两个教研室和一个研究中心,即基础统计教研室、专业统计教研室和大数据统计科学应用研究中心。秉承和依托母体学校——上海财经大学的办学宗旨和学术底蕴。在全校统计学公共课教学方面,针对学生的特点,课程教学采用课堂教学、调查实践与统计调查大赛相结合的教学方式与形式。也采取和校外企业、单位等合作项目老师指导学生参与的形式,这样既提高学生的实践能力又加强了师生之间的交流。在这样边学理论边实践的过程中也让学生足够了解现在企业所需人才的类型、找到自己的不足再补充理论方面的知识,然后学生还可以向学校反馈信息,这样最终形成一个学院专业始终跟得上经济的发展形势,不断地改革和完善教学内容,争取培养出在各级政府机关、银行、证券以及上市公司、企业集团、跨国公司等企事业单位和经营管理机构从事统计、市场调研、市场预测与决策、信息咨询、可行性研究和综合评价等实际工作以及科研单位从事研究工作的应用型人才。

[1]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1):16-122.

[2][英]维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[M].袁杰译.杭州:浙江人民出版社,2013:11-13.

[3]李卫东.大数据对统计学科的影响[J].统计与决策,2014(13):F002.

[4]陶海映,李治国.浅谈统计学基本问题[J].商业时代,2007(26):282.

[5][日]城田真琴.大数据的冲击[M].周自恒译.北京:人民邮电出版社,2013:223-224.

[6]李林杰,顾六宝,董正信.我国的统计学向何处去[J].统计研究,2000(2):33-37.

[7]李金昌.大数据与统计新思维[J].统计研究,2014(1):10-16.

大数据时代背景下对应用统计学专业的思考*

孔晓瑞 刘梦玲 靳俊娇

"Big data"is defined by Gartner,a research institute."Big data"is massive and diversified information assets that can grow at high rate and is with stronger decision-making ability,insight and the ability to optimize process with the help of new processing mode.Statistics can be applied in the research of big data,turning big data into small data.The search,clustering and classification of huge amounts of data depend on the general method of statistics,so researches on big data inherit some characteristics of the statistics.But big data has not been completely absorbed and applied by statistics,which is mainly due to two essential differences between big data and statistics. Therefore,under the background of big data,the cultivation quality of talents from applied statistics and how to re原form curriculum setting are important problems that applied undergraduate colleges and universities need to think.

big data;applied statistics;reform

C8文献标志码:A文章编号:2096-000X(2016)18-0041-03

2015年度上海财经大学浙江学院院级课题

孔晓瑞(1989,01-),女,民族:汉,籍贯:河南周口,硕士研究生,助教,上海财经大学浙江学院,大数据应用研究中心主任,研究方向:经济统计、金融统计。

刘梦玲(1990,01-),女,民族:汉,籍贯:河南南阳,硕士研究生,助教,上海财经大学浙江学院,统计系专业教研室主任,研究方向:经济统计、应用统计。

靳俊娇(1988,09-),女,民族:汉,籍贯:河南开封,硕士研究生,助教,研究方向:经济统计。

猜你喜欢

数据挖掘专业分析
一句话惹毛一个专业
探讨人工智能与数据挖掘发展趋势
隐蔽失效适航要求符合性验证分析
专业降噪很简单!
专业化解医疗纠纷
电力系统不平衡分析
更聚焦、更深入、更专业的数据分析
基于并行计算的大数据挖掘在电网中的应用
电力系统及其自动化发展趋势分析
一种基于Hadoop的大数据挖掘云服务及应用