APP下载

新文科背景下的大数据课程数据可视化能力培养*
——以FineBI 平台为例

2023-10-14

教育传播与技术 2023年4期
关键词:可视化案例课程

丁 屹 金 莹 张 洁

南京大学仙林校区计算机科学与技术系 江苏南京 210023

一、引言

随着人工智能、大数据等现代信息技术的快速发展,培养各个领域的创新人才,以扩大新技术的影响,顺应时代的发展,已成为我国教育事业的重中之重。2020 年,教育部新文科建设工作组主办的新文科建设工作会议发布《新文科建设宣言》,其中明确指出要“积极推动人工智能、大数据等现代信息技术与文科专业深入融合[1]”。由此可见,人工智能、大数据等现代信息技术的教学、应用与影响并非仅限于传统的计算机相关专业,而是应扩散到以往信息技术应用程度不深的文科与相关专业中,为文科领域的问题提供全新解决方案,为交叉学科问题提供合作解决路径,实现文科的革故鼎新。

然而,在实际教学中,传统文科课程一般较少要求文科学生运用抽象思维与数理逻辑进行思考。从计算机基础教学的经验来看,对文科学生在计算机科学技术和数学知识储备方面的要求相较于理科学生也不同[2]。此外,文科学生在数据科学领域并不需要了解全部的技术细节,这是由于实际应用中往往只需要少部分精通数据科学者担任团队中的技术骨干,但也需要团队成员均有一定的数据科学素养,以便建立可靠的协作网络,发挥集体的智慧。因此,考虑到文科学生的知识背景与应用场景,如何在相关课程中更好地培养文科学生的数据思维与实操能力,尤其是可视化技术,成为亟须解决的问题。

本文探索以培育大数据可视化素养为核心,以新文科建设背景下利用信息技术创新解决专业问题能力培养为导向,构建适合文科学生的、面向应用的教学模式。

二、数据可视化及其应用

关于“数据科学”的概念,不同学者给出了不同的回答。一般认为,在现代信息技术提供的数据量与算力高速增长的前提下,如何产生创新的思考,从而更好地利用新数据与新方法,是数据科学需要解决的核心问题。作为中间环节,数据可视化使数据科学家能够识别数据中的模式和趋势,而这些模式和趋势在查看原始数据时可能不易被察觉。这一点在大数据背景下尤为重要,因为它可以帮助人们有效地理解和分析大型复杂的数据集,且可视化是目前面对大数据可发挥人脑主观能动性参与分析的唯一手段[3]。在此基础上,它还可以帮助突出数据中值得进一步调查或分析的领域。比如,CiteSpace 常用于发现研究脉络与热点[4]。

作为最终环节,数据可视化使数据使用者能够高效地将他们的发现和见解传达给其他人(包括那些可能不熟悉统计概念或编程的非技术利益相关者),即最终的“讲故事”。比如,杜毅贤等[5]的研究构建了疫情期间网络舆情多维分析模型,探索了武汉市、湖北省及全国尺度下的网络舆情态势时空演变及语义特征,以诠释疫情期间网络舆情本体与客体在不同载体和时空环境下相互作用的动态关系。其中使用了柱状折线复合图、热力图、扇形统计图、词云图等,即使阅读者并不了解数据方面的知识,也可以抓住重点并轻松地理解他们的观点。

数据可视化技术在各行各业——包括人文社科领域——发挥了巨大作用。在文学领域,唐(Don)等[6]利用文本挖掘工具FeatureLens对两本书和演讲集进行了模式挖掘和可视化研究,其交互式可视化旨在使得他们提出的文本挖掘概念可以帮助用户分析文本,并创造洞察力和新假设。在历史学领域,王加胜等[7]通过从文字材料中收集争端事件,利用统计图表、社会网络和GIS 技术对南沙群岛历史事件演化的时空特征进行可视化表达,清晰地反映了南沙争端演化的各个阶段。在教育学领域,郑娅峰等[8]对文本数据可视化等五种主流的教育大数据可视化呈现方法进行特征描述,认为教育大数据技术有助于学生元认知发展、辅助教师监督学习过程,以及提升管理者科学决策水平,并对教育大数据可视化未来研究方向进行了展望。

此外,人文社科的学生在数据科学有关工作方面亦有其独特的优势。比如,他们在数据有关的人文软实力方面,尤其是“领域知识、创造力和求知欲、讲故事能力、简短而有效地沟通”[9]等方面往往有更好的表现,同时可能会在与他人合作的问题解决中提供不一样的视角,最终形成集体智慧。因此,无论是出于响应新文科建设号召的考虑,还是从现实应用出发,开展适合新文科学生的数据可视化技术教学都有其特殊性与必要性。

然而,在数据科学及数据可视化应用与教学领域,目前仍存在诸多困难和挑战:

一是中国数据可视化应用与教学尚处于起步阶段[10]。相较于数据库、数据分析等技术,数据可视化技术对应的应用和教学理论研究并不完善。前者表现在国外数据可视化应用起步较早,但相应的适合中文母语者使用的帮助文档或更普遍意义上的学习资料较少,且在设计之初可能存在中文兼容或中文文本数据处理效率的问题。

二是数据可视化应用用户门槛高。数据可视化不仅要求使用者掌握编程语言、统计概念和数据操作技术等基础知识,还要求使用者具有较强的数据思维,以保证设计出合理的图表,或者要求使用者灵活运用各种可视化手段并能为此进行相应的数据预处理。此外,数据可视化工具为了适应多样的应用场景,往往有复杂的功能和选项,这也导致其学习曲线陡峭,为不熟悉它们的用户快速上手带来挑战。因此,要求在相关课程设计中采用多个典型的教学案例,循序渐进地穿插思维层面的数据素养培育与操作层面的软件应用教学。

三是数据可视化难以兼顾中允性。数据在实现数据可视化过程中采取何种具体策略(比如,针对特定数据是用柱状图还是折线图),此前的数据分析阶段采取怎样的处理手段(比如,以何种标准判定异常数据及其处理),最终的呈现目标是想要讲述怎样的故事,很大程度上依赖主观判断。相较于期待一系列中允、有效、可落地的可视化标准或者“一刀切”的解决方案,更常见的做法是实现多个版本,或者是在可快速修改与迭代的应用上实现。

三、数据可视化能力培养的课程实践

(一)“大数据概论与Python 实现”课程建设

“大数据概论与Python 实现”是南京大学校级创新创业课程,是学校推进创新创业教育的主渠道之一,面向全体学生培养创新意识、创新创业思维和实践能力。本课程旨在培养学生的数据思维能力,使其理解大数据,增强利用数据推进各领域工作的本领,为其成为数据驱动型创新人才打好基础[11],其中一个重要的教学目标就是培养学生的数据可视化能力。

课程内容包括大数据基本概念、大数据分析过程、大数据相关算法基础、大数据可视化平台、大数据基础设施等。但是课程面向全校非计算机专业学生,选课学生中不仅有电子学院、信息管理学院、物理学院等理工科专业的学生,还有新闻传播学院、外国语学院、商学院等文科专业的学生,他们一般不具备大数据相关基础的课程知识积累。

在教学中设计案例教学,于一定程度上提升了给非专业学生讲解专业知识的效率和效果。案例教学要求学生上手实践,有利于他们快速建立数据可视化工作流程的整体概览与实现能力[12]。同时,联系课堂与现实应用场景,能在一定程度上解决数据可视化应用用户门槛高的问题。案例教学鼓励学生讨论与展示,能加深学生对“如何兼顾中允性”问题的理解,也有助于教师了解教学效果。而设计合理的教学案例本身,则为数据可视化应用的设计提供反馈,也为数据可视化的教学探索提供经验。

(二)课程教学案例设计

由此,本课程通过设计合适的教学案例,使学生从实际应用中迅速了解大数据分析过程中最易于入门的数据可视化部分。案例设计应当充分考虑现有可视化工具的特性、与课程整体的协调关系,以及对学生能力的培养目标,因而在案例教学和实现工具的选择上既要关注文科学生的背景与要求,又要兼顾理工科学生能力提高的需要。教学案例实现了无代码FineBI 版本和全代码Python 版本,在照顾各类学生不同需求的同时,对比不同实现方式的利弊。

在具体案例上,我们选取了某企业资产负债分析案例。该案例结构清晰,背景简单,能够让不同背景的学生都快速了解数据可视化的大体流程且在课堂讲解时专注于这一点。同时,该案例可扩展性好,有许多值得讨论与引申之处。比如,原始数据是面板数据,而课堂案例较少涉及往年数据,实面上也只展示了FineBI 与pyecharts 方案,图表类型也事先限定,平衡了讲解内容安排与可讨论的灵活程度。

1.实践平台

针对文科学生的知识背景与应用场景,大数据分析BI 工具FineBI 是实现该案例的工具之一。在进行课程设计之初,我们研究了Power BI、PandaBI、Tableau 等商业智能工具,最终选择了FineBI。这是一款国产软件,具有相对完善的中文帮助文档和案例,非常适合中文母语者的学习和应用场景,有助于学生快速上手。此外,FineBI 的操作界面相当友好,相对于编程,用户可以在无代码或低代码的环境下实现所见即所得的可视化任务。FineBI 的性能也非常出色,能够解决传统的数据分析和管理软件(如Excel、Access)难以处理大数据的问题。

2.教学目标

该数据可视化课程案例设定以下两点目标:第一,在数据可视化素养方面,参考霍朝光等[13]的数据可视化素养框架要素,重点培养需求洞察能力、数据分析能力、可视化表现形式的运用能力、可视化图形符号,以及图形变量的运用能力,力求当学生遇到数据可视化问题时能有一套基本的分析框架与思考体系,形成基本的自主创新意识;第二,在数据可视化技术方面,掌握FineBI 基本操作和pyecharts使用方法,包括但不限于数据类型的理解、数据准备、数据预处理、组件设置与调整、仪表盘设置与调整,根据反馈修改等技能。

3.案例设计

(1)案例介绍与实验素材

通过调研专业需求,初始案例选取了某公司一段时期的资产负债表作为源数据(表1)。目前企业的资产及负债数据分析主要存在以下问题:资产负债信息不透明,不能及时了解到风险所在;数据反馈不及时,存在大量的重复性线下工作量,同时会产生手工统计上的偏差。针对这种情况,本案例计划通过对企业资产负债进行可视化分析,为企业资产负债数据分析提供比较科学的解决方案。

表1 资产负债表案例部分数据展示

(2)任务设计与预期成果

通过对资产负债表数据的可视化分析,可以更直观地了解企业的财务状况和运营情况,包括资产、负债和所有者权益的总量、结构和比例等。这样的分析有助于发现潜在的风险和机会,制定更科学的财务策略,提高企业的经济效益和竞争力。基于此,可针对资产负债表案例进行可视化任务设计(表2)。对于教学目的而言,任务中所要分析的问题和图表类型简单易懂,对于初学者来说更容易上手。

表2 资产负债表案例任务设计

出于美观和简洁的考虑,仪表盘设计如图1 所示。在入门案例中,我们并未设计过于复杂的仪表盘元素,目的是让学生快速掌握数据可视化的基本原理和方法。在今后进一步探索和应用数据可视化技术时,可以考虑更复杂的设计,如加入文本框、调整整体风格等。

图1 资产负债表案例仪表盘

(3)教学实践

初始案例中,明确需求为通过对企业资产负债情况的分析,可视化地展现企业经营状况。而所给数据包含当期、上日与上月的相关数据,为了更透明地展现经营状况及其变动情况,增加计算“比上日”“比上月”字段。此处还可以增加讨论环节,引导学生思考可以进行的其他计算,如纳入前一到四年的数据,观察同比变化等。更进一步,需要思考纳入多少信息展示是合适的。比如,思考纳入几年的数据对比能更好地反映公司发展状况且不会让观察者感到“信息过载”,以及若需要引入多年数据进行宏观层面的对比展示则可能要进行的数据合并;如果要做微观层面的比较,那么应选择哪些内容,以及它们在时间或空间背景中的相似度;比较的结果通过何种可视化形态展现更能让人一目了然。

对于资产简表,出于同负债及所有者权益对比的考虑,呈现形式选择表格,主要操作为使用分组表和使用结果过滤器仅展示资产项;与之形成对比的为负债及所有者权益分析图,堆积柱形图更能在视觉上直观展现与对比,此外在纵轴处需先后设置过滤属性与相同值为一组资产项,以达成所有者权益与负债分开展示的效果。在结构占比上,饼图与矩形块都采用了映射面积的思想。对于资产结构分析,采用饼图,由于默认设置下标签处于环上且仅在鼠标指向时显示,不便展示,出于美观的考虑,设置了不同资产项的颜色属性、标签常驻且居于环形外侧(图2)。

图2 资产结构分析组件设置

设置为“求和—占比”,以与“角度”信息一致。对于负债与所有者权益,选取矩形块,通过操作纵轴的方式实现分组。以上固定展示形式仅仅为了叙述的方便,事实上,在课堂上可以展示多种图表并进行对比选择。比如,负债及所有者权益指标柱形图,可以在图表类型处选择分区柱形图与多系列柱形图,并比较展示结果。

最后,在图表的基础上进行仪表盘的调整和设置,使其能够在横向和纵向上实现对比效果。在仪表盘界面中,组件之间还可以进行互动,从而提高了交互可视化部署的能力。

此外,以上图表均采用了Python 实现,并公布了实现代码供学生参考。相比之下,虽然Python 实现方式和FineBI 实现方式在美观性和功能性方面都比较完善,但为了达到等价的视觉效果,Python 实现需要更多的背景知识和学习成本,包括基础语法、对编程语言内部变量类型的理解,以及第三方数据可视化框架的特定用法等。然而,在短时间内掌握基本的数据可视化思想是该案例的首要目标,因而FineBI 可以将学生从复杂的语法中解脱出来,使其得以专注于数据可视化思想的培养、问题的分析与求解。当然,采用编程语言实现数据可视化具有系统集成度高、更为灵活且易于维护的特点,同时也可以更方便地嵌入机器学习等数据挖掘算法。在课程中,我们通过案例对比两种方法的优缺点,并鼓励学生通过课堂讲解认知,自主拓展Python 中的其他第三方数据可视化库和其他低代码或无代码的BI 工具,以扩展学习内容,强化自主学习能力,从而使其在实际应用中能根据自身的条件和问题的需要灵活选择高效实现。

(三)课程教学实践结果

1.课程评价

课程考核形式采用小组合作的方式,自选主题进行数据分析与可视化展示。教学中发现学生提出问题的积极性强,富有创造力。学生来自不同院系(图3),分组共提交的25 份作业主题涵盖经济学、环境科学、交通、医疗保健、林业和教育等各个领域,且不乏交叉学科的项目。分组后组员的合作得到加强;答辩式的考核锻炼了学生整理、总结和汇报材料的能力,同时强化了学生之间的学习交流。

图3 学生院系比例

笔者挑选了部分作业展示(图4)。提交者分别来自工程管理学院、外国语学院与商学院,有一定的代表性。文科学生也展现出了较高的数据可视化素养与可视化技术水平。

图4 部分项目成果展示

2.课程拓展成果

从课程的实践成果中挑选出优秀作品,参加了2022 年“帆软杯”全国高校数据分析与应用联赛,在数据可视化赛道获一等奖1 个、二等奖1 个。还有一组学生参加2023 年中国大学生计算机设计大赛大数据主题赛,获得省赛一等奖,拟参加国赛决赛。以上成果一定程度上证明了课程设计的合理性与案例教学的启发性。以项目促实践、以比赛促学习的设计也有效地推动了课程建设和学生能力的发展。

四、结语

基于培养学生创新意识、创新创业思维和实践能力的教学目标,基于培养学生数据思维能力、理解大数据、增强利用数据推进各领域工作的本领的课程目标,以及基于产学研融合、以赛促学、以赛促教的新文科建设人才培养的导向,“大数据概论与Python 实现”作为面向非计算机专业学生开设的大数据课程,不仅从理论知识的教学上充分考虑了各科学生的知识结构和能力基础,更为重要的是还通过实践案例的设计和教学,使学生迅速地了解数据处理分析的过程并获得启发。本文通过数据可视化阶段的一个教学案例的设计,包括实践平台的选择、案例设计教学目标、任务设计、预期成果等实验步骤,给出了在数据可视化教学中案例设计的一个模板。同时,学生通过课程学习,不仅完成课程要求的数据可视化项目作业,还择优选出优秀作品参加学科竞赛,包括以赛促学、以赛促教、以赛促创的全国普通高校大学生竞赛排行榜榜单赛事,以及响应教育部产学合作、协同育人的号召,挖掘广大学子的数据分析潜能的专业赛事,学生均获得了不俗成绩。

实践证明,课程的建设和教学案例的设计很好地符合了新文科建设人才培养的需要,考虑了文科学生的知识结构和能力要求,有力保障了数据可视化素养与数据可视化能力教学的质量,对于今后的数据可视化教学案例设计起到了抛砖引玉的作用。在未来,应当建立针对可视化呈现设计的标准规范和评价体系,客观评估其对观察者信息传递与启发思考的作用,以及是否真正成为智能决策工具。在此基础上更加科学合理地设计教学方法,形成可靠的可视化教学理论与资源库,为人才培养与解决实际问题提供支撑。

猜你喜欢

可视化案例课程
基于CiteSpace的足三里穴研究可视化分析
《无机化学》课程教学改革
基于Power BI的油田注水运行动态分析与可视化展示
案例4 奔跑吧,少年!
数字图像处理课程混合式教学改革与探索
软件设计与开发实践课程探索与实践
基于CGAL和OpenGL的海底地形三维可视化
为什么要学习HAA课程?
“融评”:党媒评论的可视化创新
随机变量分布及统计案例拔高卷