科研管理信息系统的数据挖掘应用探讨
2013-04-11王鸣
王 鸣
(华南师范大学经济与管理学院,广东 广州 510006)
数据挖掘应该更准确地被命名为“从数据中挖掘知识”,在产业界、媒体和研究界,“数据挖掘”通常被用来表示整个知识发现过程。可以视为另外一个流行术语数据中的知识发现(KDD)的同义词,因此,广义的数据挖掘的定义是:从大量数据中发掘有趣模式和知识的过程,数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。
一、科研管理信息系统的数据特征
(一)标准性。数据多为标准字段,而不是文字描述。比如人员信息中,姓名、单位名称、单位属性、职称、学历、毕业院校等;成果中论文作者、论文名称、发表时间、发表刊物等;项目成果里的项目名称、立项时间、项目起止时间、经费等。标准数据有利于数据的收集、比对和整理。
(二)延续性。连续的科研过程很重要。比如一般的系统,都是记录该人员已发表或立项了的成果,这类信息不够全面。特别是对于项目申报、课题立项,到课题完成这些时间点的记录比较零散。如果数据能记录时间上的属性,则可以挖掘出很多有用的信息。随着科研管理信息系统的使用,院校每年在各类科研申报中都能产生大量具备时间属性的数据。
(三)周期性。数据产生有一定的周期性。比如各类型科研项目的申报、立项、管理在每年不同时段都有较固定的时间。以科研项目为例,国家社会科学基金项目申请时间一般为每年的2-3月,国家自然科学基金项目 (管理科学)一般为3月,全国教育科学规划项目一般为3-5月,等等,这些数据随着年份的推进,其产生具有一定的周期性。
(四)实时性。科研管理信息系统能提供数据的实时录入和实时查询。系统是以人员、管理单位为用户。教师个人、各级管理单位都通过账户登录系统填报或查询。由此产生实时性、标准化的数据。同时各级管理用户都能查看到这些实时数据,包括用户的操作记录,比如用户登录、查询和点击记录等。
(五)关联性。科研管理信息系统的数据由于具有人员、成果、活动、时间四个维度的多种组合,具有高度的关联性。特定的人员与特定的成果、活动、时间相关联,同理两两相关,共可衍生出16类数据,如人员-成果、人员-活动、人员-时间、人员-人员;等等。以人员-成果为例,用于分析特定人员范围的成果,而成果-人员则用于分析特定成果的人员组成。其他潜在的关联性可通过数据挖掘来揭示。
二、科研数据挖掘的主题目的
(一)以科研成果汇总为主题。这是利用科研数据的首要主题,也是目前最为普遍应用的主题。科研成果的汇总主要以三个维度为基础:(1)时间范围;(2)人员范围;(3)成果范围。这些汇总可提供各类统计数据。首先是常规性的科研业绩考核,需要将每年度每个单位的科研成果汇总。其次是项目性的整体绩效反馈,比如211三期验收、第九轮省重点学科建设总结等,需要提供整体绩效数据。
(二)以学科建设支持为主题。在各高等院校、科研院所越来越重视学科建设的背景下,这一主题越来越得到关注。通过收集单位内外科研活动、科研成果等信息,包括人才引进、团队组建、沙龙活动、信息平台(QQ群、微博、其他学习型社区)等,结合科研单位的学科发展情况,可以得出一些学科发展规律,为单位的学科建设提供决策支持,有意识地引导单位的学科发展,从而更好地指导未来的学科建设。
(三)以科研人员培养为主题。科研人员的成才成长规律一直是高等教育学、人才学等学科关注的主题,然而以往难以找到合适的定量技术加以研究。数据挖掘技术的出现和成熟,为这一主题提供了工具。以人员活动为主题的挖掘也有一些有用的应用,比如:记录教师的一些重要的科研活动信息,包括学术交流(内容、日期)、发表论文的日期、创建科研团队等,再结合一些成果信息或学界对其评价肯定[1],也可得出一些规律。
三、科研数据的挖掘
(一)挖掘的内容。科研数据中可供挖掘的各类相关、关联关系:
(1)人员信息与科研成果关系
(2)本单位发表的期刊偏好,这里指发表单位与期刊之间的双向选择
(3)个人与单位整体的科研成果关系
(4)科研成果与科研活动的关系
(5)学科发展与各类科研活动关系
(6)各类成果之间的关系,包括时间先后关系、相关相似关系、紧密或松散关系
(7)人员操作习惯隐含的科研导向性,比如通过点击频率或查询词频,可揭示某类主题的受关注度,从而更好地为科研人员提供该方面的管理服务
(8)每个科研信息在发布过程中被关注的过程,比如响应的快慢等,依此完善系统
以申报国家基金为例,如果能记录申报项目和该项目最后是否立项,再匹配上人员的各种背景信息(比如学历、学位、毕业院校类型、研究基础等等),则能挖掘出很多具有指导性的信息。比如国家自然科学基金的立项偏好,每个教师的科研成长规律。等等。
(二)挖掘的方法。数据挖掘是使用智能的方法提取数据的模式。一般来说,数据挖掘采用以下几种方法:描述统计、分类和聚类、关联和相关、预测、优化、结构方程模型。此外,挖掘方法还需考虑诸如数据的噪声、不确定性和不完全性等问题。
(三)挖掘的准备。(1)数据清理,主要是消除噪声和删除不一致数据。比如教师在填报过程中的漏登漏报或错等错报的数据。
(2)数据集成,这里指把不同来源、格式、特点、性质的数据有机地集中,从而为科研院所提供全面的数据共享。
(3)数据选择,主要是指从数据库中提取与分析任务相关的数据。比如选择所有广东省哲学社会科学项目获资助者的情况等。
(4)数据变换,主要是通过汇总或聚焦操作,把数据变换和统一成适合挖掘的形式。[2]
(四)挖掘的评估。模式评估是指根据某种兴趣度度量,识别代表知识的真正有趣的模式。指示有趣的模式联系,常见的有全置信度、最大置信度、Kulczynski、余弦、提升度和χ2这几种度量方法。在这些方法中,只有后四种具有零不变性。值得推荐的度量是Kluz与不平衡配合使用。[3]
(五)挖掘的可视化展现。知识表示,这里主要指使用可视化和知识表示技术,向系统用户提供挖掘的知识。数据可视化最直观的形式就是图形,有些甚至是动态图形。最简单的应用,比如科研院所最近10年发表的CSSCI学术论文数可用坐标曲线展现出来,由此反映科研总体实力在各年间的变化;而最近10年国家社会科学基金申请数和立项数也可用两条曲线表示出来,以反映本单位该项目的立项申报比,从一个侧面反映申报的质量。后者如果加进第三维数据如这10年间的科研活动,则可探寻科研活动与立项申报比的关系。
此外,科研数据可视化展现还有以下几个方面的应用:
(1)科研成果的关联性展示
各类成果之间的关联,比如立项项目的关键词,与当期教师发表论文的主题关键词一致性,或滞后性,相关性等。由此有意识地指导项目申报或论文发表。
(2)基于地理位置的标注
直观地展示成果的地理环境关联,是可视化技术的一大应用。比如可将近5年本单位教师的横向项目签约单位的辐射区域在地图上标注出来。颜色表示年度,大小表示每个项目的经费数,可直观地展示有关社会服务的某些规律。
(3)基于上下文的内容推荐
在系统用户查询特定内容时,能将“用户可能关心的内容”展现出来。采用基于上下文的查询扩展方法,解决用户信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果的问题。
(4)最新信息的实时显示
在科研交流信息,可实时显示更新的“最新最热门关键词或主题”等。这将有助于教师及时、实时了解科研动态。
(六)挖掘的优化。在大数据的情况下,保证科研数据查询、处理等的效率不会显著降低,是必须要考虑和解决的重要问题,也是影响架构设计的重要因素。特别是随着时间累积,系统产生越来越大量数据的情况下,还应该针对大数据的查询、处理等可能导致系统瓶颈的问题进行分析,提出优化解决方案。因此,需保证系统能够满足硬件条件(包括主机系统、存储系统、网络配置等)的约束,在目前的基础设施上流畅运行,并且能适应未来若干年科研发展的要求。
四、结语
科研管理信息系统已越来越在各大科研院所普及,然而传统的科研成果数据汇总已不能满足为学科建设提供决策依据的需要。对系统产生的大量科研数据进行数据挖掘,具有重要的应用前景。数据自身的标准性、延续性、周期性、实时性、关联性为数据挖掘提供基础,通过应用数据挖掘技术对科研数据进一步分析,有益于更科学地了解科研规律,指导科研活动,促进学科建设。
[1]吴小妹,陈敏玲,缪仁炳.基于科技创新人才信息平台数据挖掘的科研能力评价模型研究.科技通报,2011(1):154-160
[2]胡佳.数据挖掘技术在高校科研管理系统中的应用研究.华东师范大学硕士学位论文,2011:36-39.
[3]Jiawei Han,Micheline Kamber,Jian Pei著.范明,孟小峰译.数据挖掘概念与技术(原书第3版).北京:机械工业出版社,2012.173-175.