APP下载

医学高校学科建设数据信息平台研究

2016-03-25

中华医学图书情报杂志 2016年11期
关键词:数据仓库数据库学科

国家层面从高等教育发展的战略高度认为,现代大学的功能已拓展到人才培养、科学研究、社会服务和文化传承创新4个方面。落实好提高质量的战略任务,必须以人才培养为核心,四大功能有机互动、相互支撑,为内涵式发展打开更大空间。要加强科学研究,推进协同创新[1]。

美国伯顿·克拉克在《高等教育新论》中认为,学科包括两种涵义:一是作为一门知识的“学科”,二是围绕这些“学科”而建立起来的组织。虽然学者对学科的论述有所不同,但在本质上是一致的。“教学的科目”“学问的分支”“学界或学术的组织”是学科的3个基本内涵,只是在不同的场合和时间体现不同的内涵而已[2]。从学科的定义与内涵可以看出,学科是大学的基本组成单位,包括大学的知识与知识组织,因此高校学科的质量决定了高校的质量,学科的好坏直接影响了高校四大功能的发挥,学科的工作也是学校所有部门的工作。为了提高学科的质量,高校必须大力进行学科建设。

1 高校学科建设数据库及管理现状

目前,高校的信息化工作进展迅速,学校范围内有办公系统、一卡通系统等,各个部门有自己的数据库平台,信息化覆盖了很多部门的主要业务流程。例如,首都医科大学的研究生院有导师数据库和硕士博士数据库,人事处有职称数据库,教务处有教学管理系统、教务管理系统,科研处有科研项目数据库,图书馆有学位论文数据库、数据库出版商的数据库等,但是各个数据库之间没有关联,数据格式不一致,未能实现充分的数据共享。当学校的管理者为了决策的需要,利用学科建设的相关数据时,临时从各个部门收集数据,需要大量的人力来收集和整理数据,过程繁琐,数据的准确性不够高。在此基础上,把各个部门的学科建设数据信息收集整理到一个信息平台的工作是很重要且关键的。国内许多高校都认识到该项任务的重要性,进行了相关的研究,如上海财经大学的学科信息平台[3]、北京市学位办委托北京工业大学搭建的“北京市重点学科信息平台”等[4]。虽然教育部的学科评估有建设学科系统和平台的要求,但是各个学校如何从各个学院、学系、附属医院收集学科信息,并进行全面地分析和数据挖掘等,尚没有长期有效的推动机制,也缺乏长期的数据采集与维护机制。有些学科信息平台建设的目的只是为了迎合教育部学科评估,当学科评估结束后,没有人继续维护这些平台。

2 高校学科建设数据信息平台研究目标

学科建设数据信息平台是为制定学校的学科建设政策服务,为高校的学科建设发展指明方向,为学科建设的活动提供指南,为学科资源的配置提供指导。因此,高校学科建设数据信息平台的研究目标是通过综合利用多学科的知识和方法,确定高校学科建设数据信息平台的框架,制定收集、保存、集成、评价、分析学科建设数据的政策与方案,进行可行性论证后严密执行学科建设数据政策的各项程序,对这些政策系统进行评价后总结反馈,最终对这些政策进行改进。

3 高校学科建设数据收集的范围与分类

为了学科评价的全面性和准确性,在收集之前必须确立学科建设数据收集的范围。专家认为,学科由学者、知识、资料和场所4个要素构成。学者是学科组织的主体,知识是学者活动的对象,资料是学者进行学术活动的物质基础,场所是学者开展学术活动的空间[5]。在此基础上,得到学科建设的基本要素是学科方向、学科梯队、研究基地、科学研究、学术环境、人才培养等[6],因此数据收集主要围绕这几方面进行全面收集,具体数据的范围见图1。

图1 高校学科建设与数据范围

从图1可以看出,学科建设的数据范围非常广,有各学院的学科简介与社会服务的文字介绍,有人事处的专任教师与骨干教师、科研团队的数据,有科技处的支撑平台、转化或应用的发明专利、科研获奖数据,研究生院的学生国际交流、优秀毕业生、在校生等数据,教务处的教学成果、精品课程数据,图书馆的ESI高被引论文数据等。这些部门已经有相关数据库,因此,数据可以直接从这些部门的数据库采集,没有的数据要通过相关的负责人来收集。其中,学术环境-科研人员的研究数据是一类特殊的数据。科研数据(Research Data)是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机的任何数据,也包括能转换成数字形式的非数字形式数据[7]。目前,国内外科研管理者越来越关注科研数据,相继成立了科研数据管理联盟,出台了一些科研数据管理的政策。要收集全学科建设的数据,也必须把科研人员的研究数据包括进来。科研数据只能来自从事研究的科研人员,因此这一类的数据要单独收集与管理。医学高校的学科数据里包括很多医学和生物医学实验性的数据,必须通过专门的设计来收集齐这些研究数据。

一般高校学科建设的主要责任部门是研究生院,他们进行学科建设的方式是落实到研究生教育体系中,通过加强研究生教育的各个方面来提高学科水平。鉴于学科建设要落实到研究生教育体系工作范围,高校填报教育部学科评估系统时都是按照教育部的学科分类,所以高校学科建设数据的分类按照国务院学位委员会、教育部颁布的《学位授予和人才培养学科目录(2011年)》分类体系中的一级学科、二级学科来收集、存储和整理。学校可以根据自己学科的情况,选取其中的学科类别。

4 医学高校学科建设数据信息平台体系结构

“商业智能”这一术语是1989年由Gartner Group的Howard Dresner首次提出,它描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能系统可以说是一个智能决策支持系统,它以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助领导者针对多变的环境,做出快速、准确的决策。它的核心技术有数据仓库技术、数据挖掘技术和联机分析处理(简称OLAP)[8]。

由于医学教育有自己的特点,与其他高校相比,医学高校有自己独特的结构与特征。例如有附属医院和教学医院,学科建设也与医院密切相关,收集学科数据时必须把附属医院和教学医院的数据收集齐全。创建医学高校学科建设数据信息平台,就是搭建一个智能管理系统,辅助支持学科建设决策,需要运用数据仓库技术、数据挖掘技术和OLAP 3种关键技术[9]。包含了附属医院学科建设数据的医学高校学科建设数据平台的体系架构如图2所示。

图2 医学高校学科建设数据信息平台的体系结构

从图2可以看出,这个体系结构是基于业务流程创建的,包括源数据到数据仓库管理、业务层管理、应用层,每一步都包含了大量的工作。其中第一步是源数据的管理,因为数据来源有很多,有来源于各个职能部处业务系统的数据,有来源于各个学院学系、附属医院、科研人员的数据;同时数据库的类型很多,有关系数据库、文件系统、多媒体系统等;数据库管理系统很多,如Oracle、SQL Server、MS SQL、ACCESS等。这些数据分布在多种数据库硬件平台上,纷繁复杂,能否全面、准确地收集数据直接关系到学科建设数据信息平台的质量。因此,一定要有强有力的领导政策支持学科检索数据的收集,有专业的学科建设团队来研究学科建设数据的来源、特征和分布,从而保证学科建设数据的质量。

数据仓库就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合[10],其最主要的特征是面向主题。我们要研究学科建设数据的多个主题,进行数据的抽取、清洗、转换与装载,把数据存储在数据仓库里。整个数据仓库的结构由元数据来组织,因此元数据的研究也很重要。

业务管理由业务层与核心业务层组成。学科建设数据平台的功能是数据管理、学科介绍、统计汇总和学科比较。它的核心业务层如身份认证、数据处理、第三方应用程序接口、日志生成、数据挖掘等由数据库管理人员管理,保障学科建设数据的安全。

应用层是通过可视化工具、多维分析工具、挖掘工具等一系列的分析工具集,把数据展现给管理者。展示的方式有多种,如OLAP前端、门户网站、统计图表和数据模型等。学科建设的数据可以定期或者不定期地统计输出,还可以根据需要来定制输出。

5 医学高校学科建设数据平台设计路线图

高校学科建设数据信息平台的设计路线图,即研究如何把不同来源、格式、特点性质的学科数据在逻辑上或物理上(数据仓库中)有机地收集、集中存储,从挖掘学科建设数据应用的角度划分任务,注重数据挖掘模型的质量和学科建设的业务工作相结合,从而确立高校学科建设数据信息平台的建立模式。学科建设数据平台设计路线图分为7步(图3)。把这7步归到3个步骤中,从业务理解开始到扩展业务等过程是循环的。因此,要建立好一个数据平台,必须要经过多次设计与考虑,才能达到最佳效果。

图3 学科建设数据平台设计路线图

5.1 数据源管理

数据源管理包含业务理解和数据理解2个步骤。业务理解是从业务的角度理解学科建设数据平台项目的目标和要求,首先确定学科建设的业务背景、平台建设的目标,进行高校业务环境评估,列出学科的资源清单,学科平台的需求、假设和限制、风险与对策和其他考虑的因素,为下一步数据理解和项目计划提供支持。

数据理解是对学科建设数据的全面调查,具体方法为全面梳理学校所有部门、学院的学科数据信息与数据库的内容(包括教师、学生、科研项目、论文、专利、奖励、会议、课程、活动等),检查数据是否存在噪声、缺失值、冗余、数据错误等情况,根据全校业务特征分析部门之间和系统之间的学科数据信息共享范围。目前教育部已经颁布了《教育管理信息化标准》,可参照国家标准格式,建立全校学科数据信息统一编码与标准(包含数据命名的原则等);建立各部门数据获取与收集的机制,建立关系数据库与非关系数据库的数据收集解决方案(如ODBC读取、文本文件导入、年度申报制度等),保证数据的全面与准确;根据数据收集的机制,制定数据维护、更新的机制;构建学科数据信息平台的系统框架;明确各个部门和人员的任务分工等。

5.2 数据仓库管理

数据仓库管理阶段实质为数据处理,包括数据选择、数据清洗、数据构建、数据集成和数据格式化等操作。首先需要按照原则选择学科建设分析的数据,选择标准包括与最终的建设目标相关程度,范围包括表中的字段,也包括数据的记录。经过研究相关的智能系统,可以选定Pentaho BI这个集成工具来收集、存储、分析来自各部门的系统数据,选定Dataverse Network平台来收集与管理科研人员的研究数据[11]。设计数据仓库的主题有专任教师与骨干教师、科研团队、支撑平台、课程教学质量、学生国际交流、优秀在校生、论文、发明专利、国家级规划教材、科研获奖等,设计好这些之后,再确定元数据的管理模式。

5.3 数据应用管理

学科建设的数据应用管理包括建模、评价和扩展3个步骤。从平台可以选取较多的数据构建数学模型,预测学科的发展等。除了数学模型之外,还可以构建统计报表,用可视化的工具对学科建设的数据进行可视化,更清晰直观地显示学科建设的成果。

例如,分析近10年学校各个学科发表高影响力论文数量的数据,构建一元线性回归模型,可以对比分析多个学校的学科数据,进行聚类分析与主成分分析等。学科建设的数据挖掘可以构建综合决策支持系统,从数据管理走向知识管理。

6 结语

国务院2015年11月5日对外发布《统筹推进世界一流大学和一流学科建设总体方案》,自2016年起针对大学以及学科建设明确提出了“双一流”的任务要求,并分3个阶段制定了时间表,为我国建成高等教育强国明确了任务路径。搭建学科建设数据平台将为学校创建一流学科的工作提供大力的支持,但是建设好学科建设的数据平台是一个非常艰苦的工作,需要举全校之力,需要校领导从学校的战略高度来整合设计,需要研究生管理部门的牵头设计与管理,需要多个部门的全力配合。

猜你喜欢

数据仓库数据库学科
【学科新书导览】
土木工程学科简介
基于数据仓库的住房城乡建设信息系统整合研究
“超学科”来啦
数据库
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
数据库
论新形势下统一战线学学科在统战工作实践中的创新
数据库