APP下载

数据科学环境搭建实验管理平台设计

2023-03-02鲁世清刘浩男王磊郭洪亮康建华

关键词:短信服务器实验室

鲁世清,刘浩男,王磊,郭洪亮,康建华

数据科学环境搭建实验管理平台设计

鲁世清,刘浩男,王磊,郭洪亮,康建华

(天津仁爱学院 智算工程学院,天津 301636)

智慧实验室是智慧校园建设的重要组成部分,是解决当前高校因实验设备更新快,设备使用率高而带来的管理难度加大、管理人员紧缺的主要途径。结合本校招生规模扩大,实验设备种类繁多、数量庞大,实验室使用率高、实验室管理人员不足的实际情况,搭载智慧校园建设的快车,利用大数据技术,从基础数据、业务数据、设计数据三个层面对高校实验室开展数据抽取、清洗、转换、挖掘和加载等工作。以此为数据输入端,基于客户机/服务器模式分布式存储服务,对平台底层存储设备进行统一的管理,设计面向实验室资产管理、运维管理、教学管理、实验管理等全要素的智慧实验管理平台,技术实现阿里云服务器API短信接口,设置短信签名与短信模板实现实验室资产的全生命期管理和对实验教学资源的科学调配。

数据科学;实践应用;实验管理平台

高校计算机教学在信创行业的引领下,逐步适应信息化技术的快速发展,行业对高校毕业人才培养提出的需求,高质量的应用型人才需求量日益增大。计算机类实验室是学生开展应用型培养人才的主要场所,是高校有效开展实践教学的重要实训场景,是高质量培养应用型人才的关键环节。为顺应信息化社会发展趋势,培养符合企业、行业和社会需求的应用型人才,高校在不断更新教学体系,梳理新的教学理念,改进教学方法,提升教学质量的同时,还大力投入实验室建设,搭建与之配套的软硬件实验室。以高校现有实验室大数据为基础,构建可全过程监督教学动态、可随时反馈学习效果、可循环优化的、真正意义上开放共享的高校实验室管理平台,推进其在实验教学中的有效应用,在高校实验室建设过程中尤为重要[1]。

1 数据科学环境高校实验室特征

1.1 数据科学

数据科学领域包含所有与结构化和非结构化数据相关的教学内容,主要从数据准备、数据清理、数据筛选、数据分析等角度展开。本文以数据科学环境下高校实验室大数据为研究对象,以数学、统计学为理论基础,协同数据抽取转换加载技术、联机分析处理技术、数据挖掘技术、数据清理技术、数据存储与管理技术等大数据技术的支持,开展数据采集、数据预处理、数据分析、数据建模等活动[2],以此为输入构建开放共享、循环交互的高校实验室管理平台。

1.2 高校实验课程的数据特征

随着高校信息化建设的不断深入和移动互联网的高速发展,高校实验室管理系统整合资产管理、教学活动资源、人才培养规划、评价反馈等各个环节均产生大量数据。在数字时代,“数据即是资产”的观点已经深入人心。但是在实际应用中,需建立科学有效的高校实验室数据资产管理平台,降低管理成本,提高管理效率,发挥实验室管理的价值[3]。

目前,高校实验室管理所面临的问题主要有以下三个方面:①数据多源融合。从管理层面来说,实验教学资源体量庞大,实验室种类多且复杂,实验器材设备繁多,实验数据来源丰富,数据格式多样化,统一管理比较困难,管理效率低。②数据类型异构。从实验室用户层面来说,各学科之间相对独立,多种结构化数据与非结构化数据并存,实验教学学科融合度低,数据孤岛现象严重。③数据具有时效性和周期性。从实验室数据层面来说,实验教学数据是依据教学计划产生的,实验室数据逐年累积,数据重复性高,集成度低,连接性差,缺乏有效的科学管理,数据利用度低[4]。

1.3 高校实验课程的数据特征

在大量的实验教学数据和实验室管理数据中筛选出有用的数据,让数据资源真正转化成数据资产是业界关注的核心和重点,数据治理技术应运而生。数据治理是指对数据组成的资产进行使用和管理,是让数据资源转变成数据资产最有效的手段[5]。

高校实验室数据治理过程涉及资产管理、运维管理、教学管理等多方面数据,借助ETL、数据挖掘、联机分析处理等多种大数据技术,按照数据治理评估、标准数据体系建设、数据分布与整合设计三个步骤,从基础数据、业务数据、设计数据三个层面展开实验室数据的抽取、清洗、转换、挖掘和加载工作,形成RDBMS,以此作为高校实验管理平台的数据输入端。其治理框架如图1所示。

图1 高校实验数据治理框架

1.3.1 数据治理评估

数据治理评估主要发生在基础数据层,是数据治理的底层设计,其任务是通过资料收集、调查问卷、调研访谈、数据筛选等方式对高校实验室软、硬件资源和数据资源使用现状进行调查,了解其管理模式、组织架构、数据质量等;从运维管理部门获取实验室管理制度、运行网络、维修维护与安全保障机制等数据;与教务管理系统对接,获取教学和实验教学管理过程中的相关数据;与实验实践教学活动主体关联,获取高校实验室管理数据以及运行数据;利用ETL技术将分布数据、异构数据源中相应文件抽取后,实现数据的清洗、标引、转换,形成有标注的数据挖掘和联机分析处理的数据分析实践。

1.3.2 标准数据体系建设

标准数据体系建设在业务数据层实现,其实质就是数据挖掘的过程。首先,对数据治理评估系统中取得的基础数据进行规范化处理,制定统一接口标准,规范问题数据,人工解决如数据缺失、数据不一致等情况。然后对基础数据层产生的资产数据、运维数据、教学数据和实验数据进行分类、聚类和归档,制作数据标签,确定各类数据的存储格式、仓储类型、组织方式等。最后,根据数据源之间的关联关系和关联规则,选择数据挖掘工具或数据库工具,如利用KNIME完成常规的数据分析、利用SPSS进行文本分析、利用Orange进行可视化数据分析等,编写算法开展数据挖掘,制定符合本校实验室管理特点的组织架构和标准数据体系,促进数据从数据源转化目标数据仓库,实现数据仓储,按照统一的标准与规则集成和共享数据。

1.3.3 数据分布与整合设计

分布式设计的主要任务是明确这些数据源在数据仓储系统中的位置,以及其在系统中与其他数据源之间是如何关联的,解决数据源的执行列和表的级别、主-外键的关系、数据查询模式、数据源之间的关系及如何转换等;数据整合设计的主要任务是利用多种分析方法如联机分析处理(OLAP),从分布在业务数据层各模块中将数据提取出来,经过必要的处理采用新的并行处理结构、新的数据组织,利用查询策略和索引技术,转换统一模式的数据,整合标准数据体系中的数据源之间的逻辑关系,明确各基础架构模块如何满足实验室管理和实践教学等业务需要,促进数据治理成果向实验室管理平台转换固化和落地。

2 数据科学环境下高校实验室管理平台设计

数据治理的最终目的是形成数据资产,构建数据仓储,以此为产出端,设计高校实验室管理平台,固化实验室数据资产。本文以数据仓储为产出,基于客户机/服务器模式,依托智慧校园网络,以学校实验室事物管理和核心业务为目的,设计智慧实验室管理平台过程如下。

2.1 业务架构

实验室管理平台由四级用户组成,即超级管理员、实验室管理员、教师用户和学生用户,平台业务架构如图2所示。

2.1.1 超级管理员

超级管理员为校级实验中心管理员,主要负责学校实验室资产管理,包括实验设备采购、入库登记、运行保障、安全保障,并对下一级实验室管理员权限操作等,是智慧实验室管理平台的基础数据。资产管理数据包括不动型实验室资产和消耗型实验室资产。不动型实验室资产如实验室、桌椅等,资产数据相对固定,可重复利用率高,采集容易,数据获取和存储技术都比较简单。消耗型实验室资产随着实验教学需要、学生人数等常发生较大变化,数据生命期短,数据格式多样、类型丰富,数据获取与存储技术较为复杂。因此,本文利用回归、分类和聚集算法,数据统计后展示可视化汇总,创建模型表单,逐渐利用现有数据构建无监督模型和监督模型,以图形方式呈现模型性能,并对新数据集进行评分,以提高管理能力。

图2 平台业务架构

2.1.2 实验室管理员

实验室管理员由两级单位实验室管理员组成,负责本部门实验室基础信息的后台管理、实验课程管理、学生自主实验开放预约管理以及实验环境维护等工作。向上,对接教务系统,为本部门实验教师安排实验课程表,根据教师实验课程需要动态调配和使用实验室,向下,审核教师和学生的自主预约,获取动态的预约数据,为预约师生做好实验准备。由于实验室环境较为复杂,各学科实验相对独立,实验参与者呈动态变化状态,加之实验室数据类型异构,多且复杂,数据连接性差,所以数据获取与存储难度都比较大,本文利用多种数据挖掘工具完成自动化处理、强化算法、建模、数据可视化和勘探等工作。

2.1.3 教师用户

教师用户通过在可视化操作界面输入用户名和密码登录平台,向上链接实验室管理员,按照实验课表开展教学,并依据课程计划安排自主预约实验室包括实验室使用时间、地点、所需要的实验设备等,当预约时间有变化时,取消或修改预约;向下链接学生用户,课前发布实验任务,上传预习资料包括课件、视频、预习报告等,并在答疑区解答学生预习过程中遇到的难题,确保实验课有序展开。课后开展实验报告查重,批改实验报告,成绩统计分析,并对学生发送必要的反馈信息。

2.1.4 学生用户

学生用户与教师用户一样,基于校园网络,通过手机、电脑等终端登录平台,根据需要进行有效处理,进行可交互与可视化数据存储。课前接收教师发布的实验任务进行预习,如自主观看课件、微课、视频等学习资源;课后查看个人实验操作情况,包括平台反馈数据和教师评价等数据,还可以根据个人学习需要,直接链接实验室管理员用户,预约开放实验室,开展自主实验。

2.2 技术架构

平台运行中积累大量的影像数据和业务数据,含资产数据、课程数据、教师信息、学生信息、实验数据等。本文以实验室基础设施和校园网为依托,由校实验中心为责任主体部门,管理员用户负责对平台业务数据进行分析,分析结果导入数据决策系统中,根据客户需求进行有效的数据处理。平台的技术架构如图3所示。

2.2.1 平台搭建

平台基于客户机/服务器模式开发,采用国产高斯数据库和Unix操作系统,部署并行服务器引入bootstrap和WebStorm开发CSS/HTML框架,方便定制自己的框架代码构建前端;基于阿里云服务器、视频敏感信息检测、腾讯短信系统、智能识别Python语言构建实验报告查重系统,实现大数据分析及机器学习功能,实时追踪数据科学技术引入到平台之中[6]。

2.2.2 硬件布置

本系统采用星型拓扑结构进行配置,根据系统开发过程中所需服务器功能,将服务端划分为影像、移动信息、数据库、管理、应用程序的服务器。教师用户终端和学生用户终端为普通可接入校园网络的PC终端,移动终端采用可接入4G或5G信号的可移动设备。

图3 平台技术架构图

数据库服务器采用2台16核CPU,64G内存2TB硬盘。超级管理员终端和管理员终端运行在应用程序服务器上,通过Web服务器将管理员数据存储在数据库服务器上。影像数据和移动数据分别存储在影像服务器和移动信息服务器上,服务器基本配置为8核32G内存1TB硬盘1台。

2.3 云端短信技术实现

由于平台基于阿里云服务器,短信系统可直接借助阿里云API短信接口实现。在阿里云开通短信服务后设置短信签名与短信模板,获取ACCESS_KEY_ID与ACCESS_KEY_SECRET,完成阿里云短信接口,测试的准备工作项目pom.xml文件中添加阿里云短信接口依赖核心代码如图4所示。

图4 短信技术实现部分代码展示图

从阿里云官方API文档中下载Demo数据,经过修改后可以进行测试,如图4所示图中ACCESS_KEY_ID、ACCESS_KEY_SECRET、电话号码、短信签名和短信模板均使用“*”代替,实际使用中根据申请的KEY及号码等替换即可。修改相应位置,运行main函数获取验证码。

图5中ACCESS_KEY_ID、ACCESS_KEY_SECRET、电话号码可自行替换,通过调用阿里云的短信API接口成功发送阿里云测试短信,如图6所示短信验证码为“1314”。

网络安全设置访问控制时,从预防未授权访问与越权访问两个方面考虑。攻击者没有获取到登录权限或未授权,不需要输入密码,即可通过输入网站主页面地址或者不允许查看的链接便于访问,加入用户身份认证机制或token验证。采用Java过滤器技术,对/pages下所有的URL进行登录状态检查,通过session.getAttribute()方法从session中获取登录成功时存入的session中的身份标识,判断客户端传递过来的身份标识是否与session中保存的一致,不一致则跳转到登录页面,对系统的功能点增加权限控制如图7所示。

图6 调用阿里云短信API接口获取验证码实例图

图7 实现 session身份标识部分代码展示图

越权访问漏洞产生的主要原因是没有对用户的身份做判断和控制,防护这种漏洞时,通过session来控制。例如在用户登录成功之后,将username或uid写入到session中,当用户查看个人信息时,从session中取出username,而不是从GET或POST取username,那么此时取到username就是没有被篡改。

服务端请求伪造SSRF攻击的目标是外网无法访问的内部系统,由服务端发起请求,为此服务端能请求到与自身相连而与外网隔离的内部系统。经过SSRF漏洞代码分析,在页面SSRF.php中,程序获取GET参数URL,通过curl_init()初始化curl组件后,参数URL带入curl_setopt($ch,CURLOPT_URL,$url),然后调用curl-exec请求该URL。调整后服务端会将banner信息返回客户端,随后根据banner判断主机存在的某些服务。

3 结束语

本文以数据科学环境为背景,从组织战略目标出发,规划、指导和监督实验室建设和管理,从分析实验室大数据特征入手,建立高校实验室数据治理框架、数据仓储,为保护数据库安全,可以构建数据库安全系统修改默认数据库密码,避免出现弱口令撞库,通过修改配置文件更改数据库默认端口,以提高数据库安全性能。以MySQL数据库为例,修改my.ini文件中的port参数即可;对数据库数据做加密加盐处理,防止数据库明文信息泄露;为防止SQL注入采用预编译语句集,内置处理SQL注入的能力,使其setXXX方法传值即可。使用正则表达式过滤传入的参数,针对SSRF攻击限制请求的Web端口,只允许访问HTTP和HTTPS的请求,限制不能访问内网的IP,以防止对内网攻击,屏蔽返回的详细信息。以此为输入端设计并开发可循环优化、安全、开放共享的高校智慧实验室管理平台,以期学生在实验教学过程中,能够更加全面、直观地改善现有实验环境,提高实验教学学习效果。

[1] 姜文凤,张永策,宿艳.“双一流”建设中实验教学平台构建及应用研究[J]. 实验技术与管理,2019, 36(06): 16-20.

[2] 贺文武,刘国买. 数据科学与大数据技术专业核心课程建设的探索与研究[J]. 教育评论,2017(11): 31-35.

[3] 胡国强,杨彦荣. 智慧教育背景下高校智慧实验室的构建与研究[J]. 实验技术与管理,2021, 38(03): 283-287.

[4] 于方,刘延申. 大数据画像——实现高等教育“依数治理”的有效路径[J]. 江苏高教,2019(03): 50-57.

[5] 谢添德,徐守萍. 大数据促实验教学智慧管理服务研究与实践[J]. 实验室研究与探索,2020, 39(06): 138-143, 165.

[6] 孙志敏,王政嘉,周志军,等. 数据决策功能在实验室管理系统的应用研究[J]. 实验技术与管理,2019, 36(02): 272-276.

Design of management platform in data science environment

LU Shi-qing,LIU Hao-nan,WANG Lei,GUO Hong-liang,KANG Jian-hua

(School of Intelligent Computing Engineering, Tianjin Renai College, Tianjin 301636, China)

Intelligence laboratory is an important part of the construction of smart campus. It is the main way to solve the management difficulty and shortage of management personnel caused by the rapid updating of experimental equipment with high utilization rate of equipment in colleges and universities. With the fact that the enrollment scale of our university has increased, the experimental equipment number is various and large , the laboratory utilization rate is high, and the laboratory management personnel are insufficient, with the express of smart campus construction is carried out, this paper uses big data technology , from three levels of basic data, business data and design data, to carry out data extraction, cleaning, conversion, mining and loading of university laboratories from three levels of basic data, business data, and design data, taking this as the data input terminal. As data input, distributed storage service based on client/server mode, the underlying storage equipment for unified management platform, designed for laboratory asset management, operations management, teaching management, laboratory management of the wisdom of the total factor experiment management platform, technical implementation Ali-cloud server API message interface, short message signature and short message template are set to realize the whole life management of laboratory assets and the scientific allocation of experimental teaching resources.

data science;practice application;lab management platform

2022-06-20

2021年教育部产学研项目“构建数据科学实践环境产学合作培养实训模式研究”(202102459030);2022年全国高等院校计算机基础教育研究会计算机基础教育教学研究项目“基于线上线下混合式‘金课’的《软件测试》课程教学模式创新与应用研究”(2022-AFCEC-509)

鲁世清(1981-),女,黑龙江鹤岗人,讲师,硕士,主要从事基于网络的远程教学,shuxinfriend@126.com。

TP399

A

1007-984X(2023)01-0059-06

猜你喜欢

短信服务器实验室
通信控制服务器(CCS)维护终端的设计与实现
道歉短信
电竞实验室
电竞实验室
电竞实验室
电竞实验室
代发短信
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御