刍议Python在数据科学与大数据技术专业中的地位和作用
2020-10-09黄晓燕刘文昊
黄晓燕 刘文昊
摘 要 在最新的2019TIOBE排行榜中,Python语言赶超C++语言稳居排行榜第三位,Python语言以崇尚优美、清晰、简单的特性,使得其应用者越来越广泛并且也逐渐得到业内的普遍认可。Python语言尤其在解决数据科学任务与挑战方面持续处于领先地位。本文首先阐述了Python语言的发展历史与热门应用领域,然后详细分析了其在数据科学与大数据技术专业内的应用与作用,最后研究了Python语言在数据科学方面的重要意义。
关键词 Python;数据分析;人工智能
1Python语言的发展历史
Python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言[1],是由Guido van Rossum在80年代末至90年代初,于Netherlands National Institute of Mathematics and Computer Science设计出来的。这门语言本身也吸收了很多不同编程语言的精华,包括ABC、Modula-3、C、C++、Algol-68、SmallTalk、Unix shell和其他的脚本语言等等,发展到现在,Python以其优美、清晰、简单的特性在全世界内广泛流行,成为最主流的编程语言之一。截至2019年6月,Python在TIOBE流行编程语言排行榜中的排名已经上升到第三名,创下了新纪录,并且其使用率达到8.530%,超过C++的7.384%。TIOBE表示,Python之所以排名快速上升,是因为软件工程正在蓬勃发展,而Python作为一门简洁而有效的编程语言吸引了很多新手进入开发领域。它在过去5年中被选择率增长最多,达到了17.6%,并且还在呈增长趋势。
2Python语言的特点与应用
其主要特点如下:第一,Python语言的关键词比较简洁,因此其框架基础、语法规则等十分清晰,使用时十分方便。第二,Python语言程序行注释很明了,因此能够被轻松阅读。第三,Python语言的广泛传播的主要原因是后台数据是易于调用且根据具体需要修改的。第四,Python语言支持引入部分C/C++语言,因此用户可以方便调用。第五,Python语言的具备多种内库,并且支持连接外库,在UNIX、Windows和Macintosh等系统都有其适配的版本。第六,易于调试,支持放入设定好的条件并给出程序结果,同时支持多次性能试验和运行部分程序模块。第七,因为Python语言有开放的github等平台,可以在其他相似的项目中直接下载引用。第八,在Python程序中可以直接调用C或C++完成编程,从而可以保证关键算法的私密性。第九,Python可以直接接入许多主流商业DB,使用其数据。第十,Python可以进行GUI编程,能够在许多版本直接写入和引调。
3Python在数据分析与大数据领域的作用
Python语言是数据科学与大数据技术领域主要应用语言之一,因为Python在处理大量数据时具有高效率、自动化、可运用算法建立数据模型等特点。传统的数据分析中使用最广泛的软件为Excel,但在大数据方面,Execl、SPSS等传统分析软件无法处理海量数据的降维。在计算量有限时,Excel表格的数据处理和Python的计算维度相似,在当计算量较大或者引入较多复杂公式时,Excel表格的数据处理速度就会变得很慢,而Python对于复杂计算的运行时间或迭代次数会明显少于Excel表格的数据处理时间。Python具备程序编写所需要的所有条件,因此,对于大数据也十分适用,数据分析编程包含的引入数据库、构建图表、建立算法模型等,在Python中都有相应的部分与之对应,可以直接调用。此外,Python语言在大数据处理的应用也不可忽视,Python与R相比速度要更快,Python可以直接处理上G的数据;R分析数据时则需要先通过数据库把大数据转化为小数据才能交给R做分析,在某些分析领域,Python代替R的趋势逐渐显现。
4Python语言的发展趋势
随着科技产业发展持续简洁化、高科技化,其依赖的底层设计必然越来越完整化、细化,同时基础程序的高性能、高兼容、低崩溃就成了对每一个合格程序脚本的新要求。因此Python语言的第三方库与开源代码都会更为简洁、快速,丰富性也会更高。首先,在未来小工具小程序指数增加的前提下,无论是大体量的网站架构还是小体量的脚本都可以使用Python,这样在前后端接口的融洽性上会十分有效。一定会同时酝酿新技术的革新,从而激发创造力的喷发;其次,人工智能、深度学习的井喷式热度会越来越高,Python的相关第三方库的丰富度会更上一层楼,其应用人群也会逐渐扩大到绝大多数研发工程师、算法工程师、数据分析师等职业,成为计算机行业就业的必备技能;最后,强大的生态结构决定了其良性循环的能力,越多的程序员共同开发,行业的整体效率就越高,因此引入更多的程序员加入,生生不息。
5结束语
Python由于具有丰富的第三方库、开发高效等优点,已成为数据科学、智能科学等应用领域最流行的编程语言之一,Python强调了对科学与工程计算的支持,目前已积累了丰富的科学与工程计算库和工具。综上所述,Python编程语言作为基础语言对从个人到国家都深有益处,进而切实落实科技强国的方针政策。在当今社会,人工智能和深度学习盛行,为了不落后于行业平均水平,将数据化变革引入企业已经成為新的热门趋势,这给很多软件创新带来新的机遇,程序员必须具备与之相匹配的能力,如可以建立行业专用数据库和运算库等专属编程框架,将至引入github平台,使其他行业从业者也可方便调用,从而以一点带动整个行业进步与发展。这支持了许多行业的改革换代与加速发展,这些行业的发展会加速社会市场经济的发展,从而对数据分析行业带来正反馈,加速整体社会结构的高科技化转型。
参考文献
[1] 杨张海,郑亚卿,王超,等.ArcGIS下基于Python的矢量点在线上拓扑方法[J].信息技术与信息化,2019(5):136-138.