基于大数据技术的大型仪器设备共享平台探究
2021-12-14卓荣庆
孙 歆,卓荣庆
(浙江传媒学院网络数据中心,杭州 310018)
0 引言
仪器设备是高校开展教学和科研的物质基础,随着近年来中央、省市加大经费投入,高校大型仪器设备数量呈逐年上升趋势。2015 年教育部办公厅发布了《关于加强高等学校科研基础设施和科研仪器开放共享的指导意见》[1],在意见中明确指出,单台50 万元以上设备列入大型仪器管理办法,建设科研设施与仪器开放共享在线服务平台,将符合开放条件的科研设施与仪器的有关信息按照统一标准及要求报送至国家网络管理平台,对拟新建设施和新购置仪器开展查重评议工作,避免资源重复建设。建立大型仪器设备共享平台可以让设备管理者的管理工作从粗放式向精细化、安全化、智能化管理转变[2],从而提高整个仪器设备的管理水平。但是平台在实际使用中经常会存在以下问题:①平台基础数据需要人工进行导入导出,造成设备仪器管理平台数据与科研、财务、资产等业务系统经常无法准确对应。如新建或报废的设备信息在资产系统中维护,而大型仪器设备平台中的数据无法及时更新,可能会出现设备已报废但系统中还是可预约状态的情况。②随着设备数量的增加和用户使用频率的加深,系统报表分析处理速度大大减慢,传统的系统架构已逐渐不能满足用户需求。③平台只是单单从设备使用角度来进行建设,无法对后续设备采购及决策提供数据支撑。
本文从统一数据标准、数据整合的角度出发,运用当前先进的大数据技术,探索基于大数据技术的大型仪器共享决策平台建设,对于提高师生满意度,增强实验室服务人员的管理压力和降低管理人员的决策难度具有较为重要的意义。
1 研究现状及启示
ETL(Extract Transform Load)从字面上看就是将业务系统数据经过抽取、清洗、转换之后加载到数据仓库的过程。将ETL技术运用于高校的信息系统中,其主要目的是将校内分散、零乱、标准不统一的数据整合为统一的数据标准平台。大数据技术中最为经典的是其4 V特征,即数据巨大(Huge Volume)、数据类型繁多(Variety)、信息处理速度快(Velocity)、价值密度低(Value),4 V特征很好地描述了整个大数据的数据层次特征。本文认为这两种技术对于高校的真正价值在于其促进了信息技术产业与高校业务的深度融合,有利于打破部门之间的“信息孤岛”,实现全校部门信息的数据链共享,为各个部门的规划、协同发展提供数据上的支持和前瞻性的预测[3]。
围绕仪器设备系统以及大数据技术应用,国内外研究人员做了一系列的相关研究。在仪器设备系统建设方面,贺锦等[4]设计了一套B/S 架构的大型仪器管理系统;王文君等[5]对大型仪器设备共享平台使用现状进行了分析;胡鹏飞等[6]设计了高校分析测试中心的大型仪器共享平台。在大数据应用方面,Gu等[7]提出了以物联网和大数据技术实现废旧电气设备管理的技术框架;陆琳睿等[8]分析了运用大数据思维对高校设备仪器创新管理的支持;Lu等[9]提出了基于云的大数据分析制造设备通用系统架构;陈京[10]提出用大数据技术来促进教育装备信息化建设。
上述研究人员主要是从系统平台的功能或技术角度阐述如何构建大型仪器设备平台,而对大型仪器共享平台中的业务数据如何与其他系统整合共享,以此来提高仪器设备使用效率提及较少。而大型仪器共享平台建设应该是整个校园信息化建设的重要一环,大型仪器共享平台与其他部门的业务系统之间应该是紧密联系,数据应该是互联互通。所以,从实际的数据处理角度出发,提出了大型仪器共享平台数据处理模型,以此来提高整个平台的使用效率。
2 基于大数据技术的大型仪器设备共享平台数据处理模型
为了解决上述提出的问题,本文从数据共享融合的角度出发,提出了基于大数据技术的大型仪器设备共享平台数据处理模型。如图1 所示,整个数据处理过程可以分为数据整合、数据标准化管理、数据存储与调取3 个部分。
图1 大型仪器设备共享平台数据处理模型
2.1 数据整合
我院从2007 起开始进行校内数据中心建设,2012年起,根据教育部发布的高校管理信息标准[11],结合学校的自身情况,形成了一套自主的校内数据标准。在进行数据整合时,首先从制度上遵循“谁生产数据,谁负责数据”的原则,对大型仪器共享平台中用到的数据进行权威源界定,比如平台中的实验室管理人员工号、姓名字段在人事、教务、科研、财务、一卡通系统中都会存在,但人事系统是全校教职工的源头系统,所以工号、姓名数据的唯一来源应由人事系统产生,权威源的界定保证了数据的唯一性。将数据字段定义完成以后,使用ETL工具(如ODI,KETTLE等)将数据抽取到标准库中,准备进行数据的预处理[12]。
2.2 数据标准化管理
源数据抽取到标准库以后,首先将数据进行质量检查,检查的内容主要包括:①数据的完整性。数据属性完整性、数量完整性、字段完整性。②数据的准确性。枚举正确性、格式准确性、取值范围准确性。③数据的唯一性。主键唯一性、其他属性字段唯一性。④数据的一致性。数据类别一致性、数据标识一致性、内容描述一致性。⑤数据的及时性。数据插入及时性、数据更新及时性、数据删除及时性。对源数据质量检查无误以后,将源头数据字段与标准库表中的字段进行标准化映射,形成标准表,这些标准表构成了数据中心标准库。以大型仪器设备共享平台中的资产设备数据为例:相关的标准表包括GXZC0501(仪器设备基本数据子类)、GXZC0502(仪器设备附件子类)、GXZC0503(仪器设备管理子类)、GXZC0504(精密贵重仪器设备使用子类)、GXZC0505(仪器设备维修子类)、GXZC0506(仪器设备报损、报废子类)。
2.3 数据存储与调用
在模型存储结构方面,采用了Hadoop 技术的HDFS分布式文件系统[13],该系统采用典型的主/从系统架构,HDFS服务器集群架构中包含名称节点(Name Node)和多个数据节点(Name Node)[14]。名称节点作为核心处理服务器,负责管理文件系统的命名空间以及客户端对文件的访问,服务器集群中的数据节点负责处理客户端的读/写请求以及数据块的创建、删除等操作,HDFS架构在设计时充分考虑了数据的可靠性和安全性以及高可用性。当数据源生成标准化数据以后,就被复制分发到不同的存储节点中。模型中采用了Apache 的Sqoop 来进行传统关系型数据库和Hadoop之间的数据传输工作,其可以将关系型数据库如(Mysql,Oracle等)导入Hadoop 的HDFS 中,也可以将HDFS数据导回关系型数据库。Apache Flume同样是一个分布式、可靠和高可用性的海量日志采集、聚合和传输系统,其可以采集文件,socket 数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、HBASE、HIVE、KAFKA等众多外部存储系统中。在该模型中通过Hadoop 的API 和Flume 将非结构化数据(如视频、音频、图像、网络日志等)传输到HDFS 中存储,大型仪器设备共享平台可直接接入大数据存储平台对平台基础数据进行调取。依托大数据Hadoop 的海量数据存储和快速计算能力,在数据呈现方面,实验设备管理人员可以快速查看仪器设备使用及预约情况,实现仪器设备的集中管理。除此之外,还可以对平台产生的仪器管理数据进行科学分析,对重复购置的仪器设备以及设备利用率低下的设备实现预警,推送给管理层相关人员,为今后的设备采购提供数据决策依据。大型仪器设备共享平台还可以根据用户的使用偏好和行为习惯,基于聚类算法或者主题模型[15]等,形成相同类型的用户画像,为使用平台的教师学生进行个性化推荐服务。
3 基于大数据技术的大型仪器设备共享平台建设
3.1 建设原则
大型仪器共享平台在建设时,应该遵循以下原则:①解决独立分散的仪器共享的难题,改善当前仪器利用率低的情况。②设备平台基础数据自动从其他相关业务系统同步,减轻高校实验管理人员的工作量,避免手工导入导出而产生的误操作。③最大程度满足实验室使用者和管理者的需求,实现实验室相关工作的全过程管理,实时监控仪器运行状态和生成统计信息,并将仪器设备信息定期上报国家网络平台。
3.2 功能实现
如图2 所示,平台系统整个功能模块分为数据中心对接、大型仪器管理、数据分析统计、国家网络平台上报4 个部分。
图2 大型仪器设备共享平台功能模块图
3.2.1 数据中心对接模块
系统平台必须遵循校内统一的数据标准,开发统一的数据接口,实现数据的交换与共享,同步资产设备、一卡通、科研、财务、教职工以及学生基本数据信息,以保证数据的权威性和准确性。基本信息在平台中无需再次注册,以降低实验室系统管理人员的维护复杂度。平台系统还接入统一身份认证服务,认证服务采用OAuth2.0、CAS、RestFul API 等多种认证方式以提高应用系统的安全性。
3.2.2 大型仪器管理模块
(1)人员授权管理。人员管理符合高校科研管理特点,同步科研系统中的科研人员数据到大型仪器管理平台,人员授权与科研经费、培训、预约信息等多方面进行关联,对不满足条件的人员进行权限控制。
(2)仪器设备管理。从国有资产系统中同步仪器设备的基本信息,避免二次人工录入,同时进行数据的联动,当设备仪器状态发生改变时(如新建、位置变更、维修、报废等),系统进行同步更新。系统还应支持按照功能、学院归属等多种分类标签查看,以满足使用者的多样化需求。
(3)预约管理。预约管理包括自主预约和送样预约管理[16]。自主预约可以让用户方便快捷了解当前仪器的预约状态,合理选择空闲时间进行设备预约。送样预约是根据每台仪器设备技术特点,根据不同用户设定不同的送样时间,并且用户可以实时了解自己的样品测试状态进度,测试结果可通过在线传输方式,师生不必再次线下取样。用户在预约使用仪器设备时,可选择应用于哪一类项目,方便后期对实验成果和仪器设备运行状态进行整体的分析和汇总。
(4)财务报销管理。报销管理与数据中心财务标准库数据进行对接,仪器使用完成产生收费数据以后,仪器负责人通过经费代码对收费信息进行确认和锁定,系统自动生成对应的报销信息并推送至财务系统,财务系统定期处理完成后向仪器管理系统返回成功状态,即可完成整个报销工作。该流程实现了在仪器管理平台中自动完成仪器设备使用的报销工作,大大简化线下报销单报销的方式,也减轻了实验人员与财务人员的工作量。
(5)服务评价管理。系统提供用户对设备及管理人员进行打分评价的功能,用户可直接对管理人员的综合服务、仪器状态等多方面进行打分评价,打分评价也是后期进行用户数据挖掘的重要数据来源之一。
(6)门禁管理。系统与校数据中心一卡通标准库进行数据整合,数据对接后可以将用户进入实验室的权限与一卡通状态以及仪器预约情况进行关联,实现了只有预约或者授权的用户才可通过门禁进入所在实验室,以此来保护贵重仪器的正常运转。
(7)视频监控管理。系统与校数据中心视频监控数据进行对接,可实时查看实验室内的视频监控信息,系统管理人员可以掌握实验室动态,管控实验全过程,保障仪器设备开放安全性。
3.2.3 数据分析统计模块
为让实验设备管理人员直观方便了解仪器设备使用情况,系统生成折线图,柱状图和饼状图等多种表现类型,用户可根据仪器设备的使用机时、次数、测样数、使用收费等多指标多时段进行统计查询分析比对,为绩效考核提供数据基础。此外,系统还增加设备使用分析指标,与资产、采购系统进行整合,为科学购买仪器设备,避免设备的重复购置提供数据参考。
3.2.4 国家网络平台对接
系统还与国家科技部网络管理平台和省大型仪器管理平台进行对接,根据其数据标准规范,开发相应的对接接口,获取国家平台的用户注册、预约请求信息,并向其推送仪器的服务成效等数据。
4 结语
本文运用大数据技术设计的大型仪器设备共享平台在校内进行了应用实践。实践证明该系统可以最大限度满足实验室使用者和管理者的需求,实现仪器设备数据的全生命周期管理,提高设备仪器的共享效率,让管理工作从粗放式向精准化、安全化、智能化转变,为领导管理者提供数据决策服务,平台的建设为学校建设国内一流、国际知名高水平传媒大学目标提供有力的技术支撑。