基于信息链理论的高校智能实验室数据治理策略研究
2023-11-09刘秀凤张新亚
苏 昕, 刘秀凤, 张新亚
(中国矿业大学a.信息化建设与管理处;b.公共管理学院,江苏徐州 221116)
0 引 言
实验室是现代化大学的心脏[1],对于推动应用型高校的发展具有显著意义。2021 年教育部等六部门印发的《关于推进教育新型基础设施建设构建高质量教育支撑体系的指导意见》指出,要“推动智能实验室建设,利用信息技术辅助开展科学实验、记录实验数据、模拟实验过程,创新科研实验范式。探索实验室安全智能监管和科研诚信大数据监管应用。促进重大科研基础设施、高性能计算平台和大型仪器设备开放共享”。智能实验室已先进的管理理念为指导、以实验室智能管理系统为基础、以构建一体化智能实验室生态圈为目标,旨在通过传统实验室与信息化技术的协同发展,促进环境数据检测、固定资产数据化管理、实验教育数据统计等环节的智慧化[2]。这一过程是以数据作为底层支撑来推进,因此数据治理便成为实现数据在各层级系统间流转与共享的关键因素和未来治理模式的发展方向[3]。经由数据治理,将实验各环节产生的庞大数据采集、清洗、管理、分析、应用,支撑高校实验室工作,驱动高校实验室快速、迭代发展。
国内外针对数据治理及应用的研究均限于教学、科研和行政管理,而关于实验室的数据治理及应用的研究较少;且尚未有将组织论中的信息链理论引入该领域的系统分析。高校智能实验室的数据治理是一个基于信息传递、信息共享和信息分担等信息操作的链式协同工作机制[4],而信息链理论在此机制中揭示了数据经由采集和处理形成可供统一管理的信息,进而变为可应用的知识,经系统分析升华至辅助决策的智慧转化过程[5]。在此基础上,本文基于信息链理论从数据采集、管理、应用及价值挖掘4 个方面对高校传统实验室数据治理问题进行系统分析,同时对当前高校智能实验室的建设进行总结,最后提出高校智能实验室数据治理的具体策略,以实验室智能发展支撑高校学科发展、成果产出及人才培养。
1 高校传统实验室数据治理面临的共性难题
实验室数据是高校数据资产的重要组成部分,而数据治理是高校实验室进行数据资产沉淀的基础,直接决定高校实验室数据资产能否得到有效沉淀,以及在数据应用过程中能否充分地发挥价值。但目前我国高校传统实验室数据治理在采集、管理、应用及价值发掘过程中仍存在较多问题。
1.1 数据采集基础薄弱
(1)数据来源缺乏规范,采集数据项目、形式及类型不一,缺口较大。当需要对某些数据进行汇总、统计和分析时,相关单位难以在短时间内获取所需数据,并且所获取数据的权威性及准确性也难以确认。
(2)数据采集效率低下,难以准确反映实验室各方面情况。部分高校实验设备使用、仪器维修、环境安全监测、实验室预约等情况由手工填写登记信息,然后人为通过表格或软件工具汇总。这导致数据延时性、信息错误、数据丢失率高等问题,且需要耗费大量时间、人力和纸质资源。随着高校实验室设备仪器、实验项目的增多,这一问题日益凸显。
(3)数据采集缺少校级信息化汇总平台,数据呈割裂状态、无法进行统一管理。目前高校各实验室所产生的数据多由所属学院、研究所进行汇总,少有学校层面的信息化汇总平台,这使高校难以对所属实验室进行宏观总览和管理,无法根据具体数据调动学校资源,优化和深化实验室建设。
1.2 数据管理难以满足运行需求
(1)数据管理缺乏统一的规范体系和标准。高校实验室数量众多、仪器设备及实验项目数目庞杂,导致大量采集数据来源不明、格式混乱、标准不一、自建管理工具接口繁杂等问题凸显,难以被数据中台进行汇总利用,或需通过大量人工处理才能够汇总。
(2)采集数据碎片化、质量低,难以被有效汇总和利用。在没有完善的数据质量监控体系情况下,人工采集的数据误差和错误导致实验室采集数据重复低效,且数据完整性、有效性和规范性均无法得到保障。
(3)数据传输过程烦琐,各层间数据难以互通,数据权威性无法确认。各实验室相关系统、仪器设备、环境监测等数据仅能线性单向汇集,即使最终由上级管理平台汇集,这些标准、形式不一的数据也需通过大量人工处理才作为基础数据提供给其他系统使用,繁杂的处理步骤导致这些数据的利用率较低、难以共享使用,催生“数据孤岛”现象的产生。
1.3 数据应用体系建设不足
(1)实验室数据只集中于采集阶段,缺乏深度应用。以实验室教学数据为例,①教学相关数据大部分由学生以及实验仪器收集,仅反映本次实验结果,在缺乏有效汇总及分析的情况下无法详细展现学生在实验过程中的薄弱环节。②传统实验室的数据无法体现每个学生的学习特色和性格习惯,教师难以合理且有针对性地设置教学方案和教学进度。
(2)缺乏基于学科发展方向的数据沉淀与分析。目前大部分高校实验室建设完成后,对于实验室学科发展支撑数据缺乏分析,尤其是缺乏关于学生实验教学效果、老师实验教学成果、科研实验相关成果等基于学科发展方向的数据沉淀,这使学科实验室发展方向难以明确,容易造成资源浪费,同时也增加了跨学科综合性实验开展和实现学校培育混合型人才目标的难度。
(3)难以直观了解全校实验室运行状况及隐患。目前高校各实验室收集的数据多在学院内甚至实验室内流转,全校实验室数据无法直观呈现,决策人员难以了解目前全校实验室资源运行情况和实验开展情况,在收到新建实验室申请时难以判断其是否必要、是否符合学科发展方向以及是否已有同类项目可供重复利用。同时各项物理环境数据也仅有各实验室管理人员掌握了解,没有得以共享分析,致使部分实验室潜在安全及管理隐患难以被及时发现和排除。
1.4 数据价值有待释放
(1)实验室运转数据缺乏导致学科资源的空置与浪费。部分高校实验室资源闲置现象严重,很多系所、教授都建设了自己的专属实验室,部分实验室是为了应对评奖或上级要求而建,建完便长期空置。因缺乏实验室使用状况的实际数据,需要此类资源的其他校内单位只能重复建设,浪费学科资源。
(2)数据利用率低导致学科发展未得到有效支撑。高校每年投入大量经费进行实验室建设,但其投入产出比无法明确计量。数据支撑的缺乏使得实验室建设难以结合各学科与行业发展状况得到精确指导,这导致部分高校实验室建设方向分散、难以聚力,无法有效支撑专业学科及交叉学科发展。
2 高校智能实验室数据治理的建设基础
随着以互联网和智能设备为代表的信息化技术水平的上升,高校在教学、科研、管理等方面发生一系列改革[6]。智能实验室管理系统通过信息手段和网络技术建立,对提升实验室仪器设备的使用效益、减轻管理部门和实验人员的工作负担、促进实验室资源共享和开放具有重要意义。基于高校传统实验室数据治理在采集、管理、应用及价值挖掘过程中存在的一系列问题,实验室智能化与数字化的发展迫在眉睫。而目前新技术的成熟、高校智慧化转型与政府、企业及高校的数字化与智能化发展则为我国高校智能实验室的建设打下了坚实的基础。
2.1 新技术的成熟提供发展动力
近几年,专家学者通过对高新科技的大量开发研究促进了科技与人类生活的融合,并使之成为引领高校智能实验室数据治理发展的第一动力。如人脸识别技术在智慧实验室可与门禁系统、预约系统相关联,以此加强实验室管理力度,提高实验效率;基于物联网的动环系统不仅可以对实验室温度、湿度、用电量、烟雾等环境信息进行实时监控,并且能够对数据进行采集管理,以实现实验室的自动化管理,加强安防力度[7];自然语言识别技术通过问题查询以及数据信息记录解决了实验数据记录不及时准确等问题;区块链技术则可以使实验室甚至整个学校的区块存储数据的每个节点按照时间顺序相连,并通过共识机制实现数据存储的一致性[8],很大程度上保障了实验室数据和用户隐私的安全;数据挖掘技术则可对收集到的实验室数据进行高效率的查询使用,以节约大量时间来进行深入研究;机器学习算法能够从现有的数据分析和挖掘中获取准则,从而获取有价值信息;应用机器学习技术可以促使实验室安全评价实现从定性评价到定量分析的转换[9],精确地找出实验室存在的安全隐患,并总结出科学的解决策略;人工智能技术即研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术[10],其与实验室的结合对智慧实验室数据治理的智能化与数字化发展具有重要意义。
2.2 高校智慧化转型提供支撑环境
在高新技术飞速发展以及数据挖掘、人工智能、物联网等新变量层出不穷的情形下,诸多高校充分发挥科技的力量,顺应时代的潮流,向着智慧化前进。如密涅瓦大学通过线上授课、小班探讨、倡导学生全球游学的教学模式,充分利用高新技术增加学生上课便捷程度,使其有更多时间游学以增长阅历经验;上海交通大学在2020 年初步建成了“交我算”计算平台集群,为科研人员提供了严谨的代码服务以及高质量的信息存储能力,以此充分发挥科研人员的创新能力[11];华东师范大学从2016 年开始研发全链路的在线学习平台——水杉在线[12],融合了在线学习、实训演练、在线编程自动评测等全链路的教学过程,并且能够收集学习过程中的数据,对其进行全方位分析,为学生推送合适的资源。各高校的实践成果不断投射到教育领域,通过网络进行传播发酵,使智慧化成果不断累积最终形成质变、高校智慧化逐渐呈现。每所高校的智慧化转型都将汇聚成庞大的数据流,通过互联网的交互、融合成高校智慧化转型的大环境,为高校智慧实验室的数据治理提供交流发展的空间和良好支撑环境。
2.3 政府、企业及高校协同推进的数字化社会建设
随着“互联网+数据”的不断推进,数字政府、数字企业和智慧校园逐渐取代了传统模式,成为新时代的主角。当前国家积极推进数据资产的利用,政府部门的政务处理、政府服务、政务监督趋于数字化和智能化。数字政府的建设也颇见成效,有些政府已经构建了“规划—政策—平台—机制”四位一体的政务数据治理体系,达到了数据便民的效果。高校在数字化转型方面也具有重大进展,如广州大学建立了“一表通”系统,可线上填报各种表格,免去了线下的繁琐手续。数字政府、数字企业、智慧校园的突飞猛进式发展,推进了数字化社会建设进程,将数字技术广泛应用于生活的方方面面,为高校智慧实验室的数据治理流程再造和模式优化提供经验借鉴。
3 基于信息链理论的高校智能实验室数据治理策略
基于信息链理论,结合当前高校传统实验室面临的共性难题以及智能实验室数据治理的建设基础,从数据采集、管理、应用及价值挖掘4 个方面进一步提出高校智能实验室的数据治理策略(见图1)。
图1 高校智能实验室数据治理策略
3.1 推进数字基础设施建设,优化数据采集流程
(1)完善硬件支持,实现数据的有效采集与管理[13]。①完善实验室日常数据采集硬件,将实验室物理空间及实验过程数据化,以便进一步分析和应用;②完善实验教学设施,通过录播设备及高清摄像头对实验过程及实验人员产生的数据进行跟踪采集,以便师生在云端对实验过程进行复盘或供他人学习;③建立实验教学在线学习和虚拟实验平台,采集使用者平台使用的相关数据,以便更好地提供教学指导及知识点盲区分析。
(2)建立校级实验室数据汇总平台,实现分散数据的整合分析。在这一过程中,校级实验室数据汇总平台应先行收集和保存原生结构化数据,在只增不减的情况下积累学校历史数据情况,维护单一系统全量数据表,并为数据打上相关标示(时间戳、状态位等),对update、delete 操作留下记录,防止由于后续集成过程或者数据丢失而导致数据缺乏数据恢复源头。需要注意的是,在采集过程中不应对数据进行多余操作,以保证对源头系统的影响降至最小。
(3)明确数据采集业务覆盖范围,优化数据采集流程。①充分了解高校当前各学院、部门的数据采集现状及用数需求,理解各项数据相关业务的含义及业务规则,对需采集数据进行全面概括;②梳理实验室各信息采集系统或人工数据采集工作的结构及流程,明确数据分布情况,以便后续进行数据认责以及明确数据关联的关系;③梳理实验室数据流向,充分了解数据从产生、采集、存储、加工、应用的各部分环节,以建立较为完善的数据全生命周期管理体系[14]。
3.2 建立数据能力体系与实施架构,提升管理水平
(1)建立数据校标体系,助力数据共享的使用。①基于高校已有数据标准、利用数据视图或最新的数据字典对照结果差异进行标准转换,保证原有标准的可落地性;②对实验室数据治理范围内、原标准未覆盖的数据进行重新调研,结合国标或行标进行数据梳理确权与标准建立,且跟已校对过的旧标准进行组合,形成在实施时期的新数据标准[15];③将现阶段的数据标准与学校真实数据进行关联匹配和数据项校验,促使校级平台常态化识别出实施标准与现阶段学校实验室物理数据的差距,实现标准的落地性检测。
(2)对数据进行清洗转换,提升数据质量。在数据清洗转换过程中,由于高校实验室众多并相对独立,所以应采用自动对比方式,清除完全重复的数据记录,并采用时间对比方法,去除过期数据。当程序不能正确判断数据是否正确时,则需要人工加以判断,制定去重规则。除此之外,需对数据错误、缺失的情况进行分析,排查需要纳入管理的数据,放弃没有价值或不影响实验室业务的数据。数据清洗完毕后,便可开始进行主题库数据集成。在这一过程中会对数据进行归并和校正,通过区间限定法和历史数据近似值等方法,修复低质量数据。对于缺失数据,则根据对应实验室系统特点,建立补入规则及流程进行补入,使后续缺失数据可自动补入。
(3)建立数据资源目录,实现校级实验室数据平台的共享交换。在平台使用过程中,数据提供者负责数据的编目、注册,保证编目数据的正确性和实时性;数据使用者通过平台查询数据资源目录发现所需数据;目录数据管理者负责数据资源目录的建立和管理,并保证目录信息的安全和运维。之后,便可基于校级实验室数据平台建立或重构实验室数据共享流程,提供数据共享服务。
3.3 搭建大数据分析平台,拓展数据应用领域
(1)建设教学精准干预能力用于教学辅助。①在完善的数据采集基础设施支撑下,收集学生实验过程中的操作数据和结果数据,形成教学专题库;②通过对接学校教学系统的知识树体系,利用数据挖掘技术对学生实验成绩及历史相关科目成绩进行量化比较分析,并将学生学习过程中的强弱项、兴趣点、教学效果进行可视化呈现,方便教师全面了解其教学质量及学生学习效果[16],并以此为基础构建更贴合学生学习重点的教学方案;③通过实验教学各环节数据流的产生与运转,辅助教师在实验室环境下进行更精准的“教”、指导学生进行更精益的“学”,构建一条具有正向反馈机制的教学链条,形成数据驱动教学的范式[17]。
(2)在海量实验数据基础上建立大数据分析平台进行量化分析。①通过对学生成绩、学生行为、学习指数、潜力预测、教学效果、科研成果产出率等数据的多维度横向和纵向量化对比分析,从数据的变化趋势中发现实验室建设及教学可能存在的薄弱环节或盲区;②基于实验室资源建设历史数据与对应专业、学科及学院的教学、科研发展数据进行关联性分析,根据学生实验教学效果、老师实验教学成果、科研实验相关成果等具体情况对不同专业、学科及学院实验室使用效果进行量化评分,以评促建。
(3)建立校级实验室资源管理平台,实现资源分配及运转情况的实时展示。高校应根据自身需求设计管理界面的可视化呈现方式,使用者只需按照系统提示,在维度和度量列表中选择需要的字段,平台即可直观地展示全部、部分或单个实验室的整体运行状态、资源分布现状和分配情况;各学院及部门的管理人员则可通过资源管理平台查询实验室现有资源、空缺资源,寻求实验室共享需求;学生以及教职工也可通过实验室资源管理平台查询闲置实验室并预约,以此形成基于数据的扁平化管理模式。
3.4 深层次挖掘数据价值,助力实验室高水平发展
(1)提升资源利用效率和管理效率。①高校通过实验室资源管理平台汇集全校实验室建设及仪器设备购置申请信息,结合校级实验室数据汇总平台中采集的实验室及仪器设备的数据标签及空置率,过滤重复建设申请,并为申请者在线对接其所需的空置实验室资源。②结合与各实验室相关教学效果、科研成果产出提升效果数据,分析已有实验室与各学科发展间的正向及逆向关系,对已有实验室建设效果进行小颗粒度量化,以此为基础对申请方案进行评估,结合专业实际情况给出优化建议,过滤申请中的无效建设内容。
(2)实现空置资源的有效利用。学院教职工需要实验资源时,可在数据资源目录中查询全校实验资源及预计空置时间等信息,根据需求在资源管理平台发起借用申请,经校级管理部门、实验资源所属单位及管理人数据流转审批后,即可在申请时间段借用相应实验资源。同时,高校应基于实验资源价格、折旧率等相关数据,对跨学院、跨学校的实验资源使用建立明确的收费标准,量化实验室管理人员额外工作内容,由校级实验室资源管理平台根据实验室运转数据,按年度自动计算管理人员工作量并折算为绩效发送至各学院,纳入年终考核。校级实验资源管理平台可对接财务系统,根据实验资源借用人员的历史借用数据,计算其应缴纳费用,进行自动扣费。
(3)对实验室建设方案进行量化评估和优化。在这一过程中,高校可为不同专业制定针对性方案,通过量化评估得出最优解,同时结合交叉学科发展需求、各学科实际情况及行业发展趋势,最终制定出本校的实验室发展方案。另外,因此类实验室发展方案的建设周期较长,在建设过程中还应以数据化方式监督方案建设过程,及时发现执行过程中的问题,以迭代的方式周期性评估优化发展方案。
4 结 语
高校实验室的发展已经进入瓶颈期,简单的增量建设已无法满足国家、社会和高校本身对实验室发展的需求,因此高校应打造一套系统的数据治理和应用模型,结合智能实验室建设,重构实验室管理体系。通过按需详尽地采集和汇总高校实验室数据,以此为基础打造高校实验室数据汇总平台,完成对全校实验室数据的整合及标准化。利用这些数据,完成高校实验室数据管理平台的建设。通过管理平台进一步实现基于数据的高校实验室管理及发展决策。籍这一过程,高校实验室的数据质量得以提高,数据管理模式得以改进,数据和资源共享机制得以创新,高校各级管理人员能够合理地配置和管理实验室资源,从而推进高校学科建设加速发展,助推高校教学及科研再攀高峰。