APP下载

工科专业大数据教学探讨

2016-11-19王子甲

科技创新导报 2016年4期
关键词:工科专业数据挖掘大数据

王子甲

摘 要:随着信息技术等数据采集方法的进步,海量数据逐渐成为各个行业的重要资源,被广泛用于工业生产和科学研究。对于大学工科专业,无论是培养科研后备力量,还是为工业界输送技术人才,都应该拓展大数据相关理论方法的教学。该文在论述大数据分析方法背景的基础上,论证了大数据教学的必要性,分析了大数据教学的特点,提出了数理统计相关基础课程由各自学院结合该专业单独开设,增加面向大数据编程教学的比重等建议。

关键词:大数据 教学 工科专业 数据挖掘

中图分类号:G64 文献标识码:A 文章编号:1674-098X(2016)02(a)-0120-04

Abstract:With the advancement of data collection technologies,big data becomes a significant resource in various fields of engineering.It is generally applied both in industrial world and scientific research.To engineering majors,teaching of big data theory and technology should be emphasized either for educating future research staffs or for providing technicians for industry. In this paper,the necessities and key points of teaching big data skill in colleges were discussed after the introduction of the background of big data.It is suggested that mathematic skill of big data should be taught in combination with the corresponding major,and programming skill related to big data should be emphasized.

Key word:Big data;Teaching;Engineering majors;Data mining

信息技术的快速发展为数据采集提供了越来越多的方法和手段。随着大量实时数据的连续积累,传统的数据存储和挖掘方法逐渐不能适应现实需求,大数据的概念随之被提出来。大数据一般指在因数据量巨而无法在可容忍的时间内用传统的软件工具采集、清洗、管理和处理的数据集[1]。具体来讲,大数据的大,首先,体现在容量上,大数据不是样本,而是事件发生时积累的全部数据。其次,体现在速度上,大数据一般都意味着实施连续的数据采集。最后,大数据体现在多样性上,包括文本,图像,视频声音等多种类型。

大量连续的数据集,为更全面深入地认识各种问题提供了丰富的素材,也对原有的数据处理和挖掘方法提出了挑战。大数据的机遇和挑战在互联网等相关领域表现的最为突出,尤其是新兴的移动互联网领域。无论是网络访问数据,还是诸如基于移动互联网的叫车、导航和餐饮服务,其本身就是大数据来源,为企业和研究人员研究消费者行为提供了重要资料。在非信息技术领域,比如公共交通行业,大数据也逐渐成为政府决策和交通模型研究的重要资源。典型的如北京地铁交通智能卡数据,日刷卡量达600万人,长年的数据积累可以被用来研究交通行为、交通政策乃至城市结构的演变。因此,目前在就业市场上基于大数据的分析技能受到越来越多的用人单位的重视,相关科研机构也越来越需要具备大数据相关分析方法或编程技能的本科生或研究生。

然而目前的课程大纲中,对于大数据相关的理论与方法并没有给予应有的重视。笔者调研了海淀区大部分高校,就本科教学而言,有关数据统计分析与挖掘的教学,主要放在大学三年级的数据基础模块,代表性课程为概率论,开课教师多为理学院老师,带有通识性教育的特点。就研究生阶段而言,大数据分析所涉及的基础理论主要通过数理统计和数值分析相关课程来讲授。这些教学模块并没有对大数据及其相关的理论分析与应用技术做充分的强调。对此,该文在分析大数据教学必要性的基础上,提出大数据教学的要点,为工科专业培养具备大数据思维和技术处理能力的人才提供参考。

1 工科专业大数据教学的必要性

随着信息技术在各个行业的应用,海量数据逐渐被采集和积累,面向大数据的统计分析技能需求越来越大。以培养人才为主要目标的高校需要跟上产业的发展,因而有必要结合各个专业的实际需求开设大数据相关课程。

1.1 大数据已经成为各个行业的重要资源

随着信息化、自动化程度的提高,各个行业都开始积累大量连续且多种形式的数据。数据的量级是前所未有的。以交通行业为例,传统的数据采集方法往往采用抽样调查的方法,利用问卷获取居民的出行信息。不仅成本较高,获取的数据量也有限,准确性难以保证。随着信息技术的进步,尤其是GPS导航的普及,以及公共交通系统自动售检票设备的应用,为交通行业提供了大量实时连续的数据。再加上监控系统、图像识别等设备与技术的应用,可以说目前交通行业已进入大数据时代。以北京为例,目前公共交通领域都采用自动售检票系统,日地铁刷卡量达600万人,路面公交刷卡量达1 000万人。公交系统内部监控视频系统每日产生万T视频数据。同时路面交通6.7万辆出租车GPS数据,以及地图搜索引擎积累的导航数据,共同构成了北京城市交通的大数据。

这些数据占用了大量的存储空间,也为我们全面地分析问题提供了宝贵的资源。怎么从如此大规模的数据中挖掘有用信息,引起了行业人员越来越大的重视。这点从谷歌大数据搜索趋势可以看出。如图1所示,从2011年开始,大数据搜索量开始飞速增长。这说明大数据已经成为信息化社会数据统计和数据挖掘的新形式。作为培养创新型人才的基地,高校在这种社会潮流中不能落后。这点不仅要体现在科研上,更要体现在教学上。因此,开设大数据教学是大势所趋。

1.2 企业需要具备大数据处理能力的技术人才

企业是大数据的拥有者。海量的数据为各类企业监测设备运行状态、识别目标客户、提升效率和增加利润提供了潜在途径[2]。多项研究表明,深入挖掘企业积累的大数据,可以优化企业的仓储、供应链管理等环节,降低成本,提高效益,提升顾客的满意程度[3]。

一旦大数据带来的实际效益为企业所充分认识,以追求利益最大化为存在目的的企业就会成为大数据挖掘的第一推动力。随着近几年大数据技术在经济效益转化上取得的成果越来越大,更多的企业开始着手挖掘大数据,尤其一些互联网巨头,都纷纷成立了大数据实验室。随着企业大数据相关业务的拓展,其对大数据方面的人才需求就越来越大。根据华盛顿邮报[4],McKinsey环球研究所估计截止2018年仅美国经济和商业领域的大数据高级分析人才的市场需求就达4.4~4.9万,其他大数据分析人才需求量达400万。

如此大规模的市场需求,如果高校不能及时调整培养方案,增加大数据相关的教学模块,就不能满足社会对这方面人才的需求。所以,从人才市场需求的角度,国内大学有必要尽快开展大数据教学。

1.3 科学研究需要大数据人才

大数据挖掘在各个领域的需求,最终会反馈到科研领域。这点从近十年SCI论文检索数据库Web of Science收录的大数据主题相关论文数量可以看出来。笔者检索了近些年SCI数据库大数据主题相关论文的年收录量,如图2所示,以大数据为主题的论文在2006年的年收入量是1 000篇左右,而到2014年,年收入量已突破4 500篇。SCI论文数据库代表着高水平的科研成果。以大数据为主题的高水平科研成果从2011年开始飞速增长,这点与图1谷歌搜索服务提供的大数据相关热度基本一致。说明全社会对大数据的关注,很快反应到了科学研究领域。

与科研领域大数据相关研究需求与研究成果快速增加的情形相悖的是,国内高校在本科和研究生培养过程中对大数据挖掘理论与方法的教学没有给予足够重视,缺乏相关的教学模块。以交通运输专业为例,新入学的硕士生或博士生,在大数据处理方面既缺乏课程培训,也缺乏研究经验,需要团队从零开始传授交通大数据挖掘相关方法。这种现象在多个专业都是普遍存在的。因此,从培养科研后备人才的角度,高校有必要开设大数据相关课程。

2 大数据教学的要点

充分认识了大数据教学在工程专业人才配上上的必要性,下一步就是如何开展好大数据教学,使学生通过大数据课程的学习,掌握大数据挖掘相关的理论与方法,满足就业市场与继续深造的需求。对此作者走访旁听了部分英国大学大数据相关的课程,也调研了国内部分高校开展的数据挖掘方面的课程,总结了大数据教学的两个要点,以期为大数据教学的推进提供参考。

2.1 数学基础课与专业案例相结合

大数据处理对机器学习相关的数学方法,特别是统计分析理论要求较高。目前大多数高校都在本科及研究生培养的过程中开设了概率论及数理统计相关课程,然而这些课程一般由理学院数学系的相关老师讲授,具有工科专业通识教育的特点。这会造成一些突出问题。最主要的是这种模式会弱化案例教学的作用,过于强调理论,而理论的应用,尤其是理论在各自专业上的应用,不能被很好地强调。即使包含了案例教学,但是案例往往是抽象的,或者与各个工科专业没有关联,学生不能意识到教授的理论知识能否能在本专业应用,应用在什么地方,以及如何应用。这会从根本上影响学生的学习兴趣,进而影响到学习效果。

因此,有必要借鉴国外先进的教学理念,在大数据理论教学中采用本专业老师教授大数据挖掘以及机器学习相关理论。笔者在英国University College London交通中心旁听了数据采集与分析相关的研究生课程,发现该课程即由交通中心的老教授主讲。其授课内容与国内研究生数学基础课的数理统计类似,不过适度弱化了理论部分,增加了大量的交通工程数据分析案例。从学生的课程参与情况,以及参与科研项目过程中对相关理论的应用效果来看,这种教学模式不仅能让学生意识到理论方法在本专业的价值,还能让学生快速掌握应用的方法。甚至部分教授采用半节课理论讲解,另外半节课邀请企业或政府部门相关从业者针对所讲理论在实际中的应用进行演讲。这些教学模式都值得在大数据教学中加以借鉴。

2.2 着重编程能力的培养

大数据对自主编程能力的要求很高。这主要由两方面决定。其一是数据的预处理,由于大数据一般涉及繁芜丛杂的原始数据。这些数据存储格式,字段意义,数据类型种类较多,使用现成的统计软件已不能满足原始数据预处理要求,而手工处理也不现实,因此一般需要自主编程,针对数据的具体问题设计对应的预处理算法。比如公共汽车网络一般包含很多线路和车站,线路和车站的名称、编码也存在不尽统一之处。体现在公共汽车刷卡大数据上就是字段编码存在混乱,与GIS数据上车站的地理位置不能一一对应。对于这种情况,要可视化公交车网络客流,必须对刷卡数据预处理。如北京庞大的公交网络,手工处理不现实,这就需要研究人员自主开发对应模块完成该工作。其二,海量数据对计算复杂度提出了新的要求。很多情况下不是传统算法不可行的问题,而是不能在适合的时间内处理完大规模数据的问题。以地铁网络客流实时显示系统为例,如果路径选择算法不能在较短的时间内给出结果,从实时的角度就其结果就没有意义。大数据处理需要复杂度更低的可行算法,甚至在有些情况下需要设计并行算法,使用多个计算设备同时计算[5]。

所以,培养具备大数据思维和能力的人才,必须强调编程能力的培养。把编程相关课程作为大数据培养模块的基础课程,并体现大数据编程的特色。英国纽卡斯尔大学的Big Data Analytics模块就是由计算机相关专业的老师开设。课程大纲中强调编程能力和算法设计,并专门教授了并行计算相关内容。

3 结语

随着数据采集和存储技术的进步,大数据逐渐成为各个行业尤其是工程相关专业的热点。在这种形势下,本文研究了工科专业大数据教学的问题。首先分析了大数据在实践和科研领域的发展现状和未来趋势,认为无论是生产企业,还是科研相关单位,对大数据人才的需求都是迫切和巨大的。因而,从满足未来人才市场需求的角度,大数据教学的问题必须引起国内高校的重视。工科相关专业有必要增设大数据培养模块。基于必要性,总结国内外目前在数据处理方面的教学经验和问题,提出了开展大数据教学的要点。其一,大数据理论教学必须与本工科专业相结合,侧重案例的相关性。其二,自主编程能力是大数据能力的重要体现,因而必须予以重视。目前大数据教学在国内还处于起步阶段,需要各个专业的同仁结合本专业的特点展开积极的探索,构建合适的大数据培养模块,成为本科及研究生培养课程体系的重要一环。

参考文献

[1] Snijders,C.,Matzat,U.;Reips,U.-D.“Big Data”:Big gaps of knowledge in the field of Internet[J].International Journal of Internet Science,2012(7):1-5.

[2] Stefanovic,Nenad.Collaborative Predictive Business Intelligence Model for Spare Parts Inventory Replenishment[J].Computer science and information systems,2015,12(3):911-930.

[3] Hahn,G.J.;Packowski,J.A perspective on applications of in-memory analytics in supply chain management[J].Decision support systems, 2015(76):45-52.

[4] Steven Overly.As demand for big data analysts grows,schools rush to graduate students with necessary skills[N].Washington Post,2013-09-15.

[5] Bussaban K.,Waraporn P.Preparing Undergraduate Students Majoring in Computer Science and Mathematics with Data Science: Perspectives and Awareness in the Age of Big Data[J].Procedia-Social and Behavioral Sciences,2015,197(25):1443-1446.

猜你喜欢

工科专业数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
武陵山片区教授工科专业制图课程的思考及改革建议
基于大数据背景下的智慧城市建设研究
地方院校工科毕业论文存在的问题与新的解决模式
高校工科青年教师备好第一堂课的一些思考
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究