APP下载

基于复旦大学ERU数据的学科交叉程度与研究热点分析

2015-09-08张春梅张计龙殷沈琴汪东伟郭耀东

现代情报 2015年3期
关键词:动态数据学科交叉聚类分析

张春梅 张计龙 殷沈琴 汪东伟 郭耀东

[摘要]本文利用复旦大学ERU数据采集平台,从底层网络数据中获取用户访问图书馆电子资源时检索行为的动态数据,运用Sesson ID关系、因子分析和聚类分析等方法,分析我国高校学术研究的学科交叉程度及研究热点。结果表明,学科交叉研究采用动态数据源进行分析,可以拓展学科交叉研究的深度和宽度,弥补以往研究中仅针对静态数据分析研究的不足,促进学术研究和科学创新上获得新的生长点。

[关键词]学科交叉;动态数据;Session ID;因子分析;聚类分析

DOI:10.3969/j.issn.1008-0821.2015.03.013

[中图分类号]G250.73 [文献标识码]A [文章编号]1008-0821(2015)03-0068-09

当前学科交叉研究已成为科学技术发展的一个重要趋势。自20世纪初学科交叉研究的萌芽在美国出现后,人们便开始认识到学科交叉产生的新兴学科,因为其能够打破传统学科研究束缚,为学科发展创造新的生长点,为科技进步提供新动力的特点,引起世界各国的广泛关注。学科交叉借助其研究领域的独特优势在新技术开发、新兴产业应用研究等领域产生极大的影响力,其科学技术创新的能力也被置于极其重要的地位。

发现学科研究的交叉点,无异于找到学科研究的新起点,许多科研人员、学者都希望获得本学科与其他学科的交叉点、学科研究新的增长点和研究热点的信息,那么如何从海量文献数据中发现这样的信息,为科学发展、研究创新提供动力呢?从目前已有的文献可以看出几种研究思路:第一种是以期刊引文关系为基础研究学科交叉关系;第二种是通过关联规则挖掘、文本挖掘等现代数据挖掘技术手段研究学科间的相关性和交叉知识;第三种是以期刊关键词为基础研究学科交叉的热点;第四种是以不同的研究对象为基础,从不同的视角研究学科之间的交叉关系。以上文献多以静态数据为基础切入不同的分析角度探讨学科之间的交叉关系,但是对学科交叉的程度以及研究热点缺少量化分析。

本文将以复旦大学ERU数据采集平台所获得的用户使用电子文献行为的动态数据为基础进行数据分析。ERU全称为“图书馆电子资源使用统计分析软件”,一般部署在高校核心网络交换机的镜像口,从旁路出发,基于网络底层采集用户信息行为的数据,ERU软件可以对图书馆实现电子资源知识库定制管理,对图书馆所使用的数据库和数据库中的文献内容进行用户使用行为的数据采集,并以此为基础实现电子资源使用情况的多维统计和用户访问行为的统计分析。通过ERU数据采集平台获取的动态数据,实现挖掘学科之间可能存在的交叉关系,为更好地揭示学科交叉关系提供一种新思路,不仅通过网络用户使用电子文献资源的行为研究探讨学科之间的交叉程度,而且深入挖掘数据的潜在关系对学科交叉的研究热点也进行分析,为师生、学者和科研人员的研究提供数据参考,帮助其找到学科研究上新的创新点和突破口。

1.研究方法

学科交叉程度的研究分析运用Session ID关系,通过将SessionID中出现的文献之间的关系转换为学科之间的关系。以此建立起学科之间交叉关系的基础,以学科之间交叉出现的频次作为学科交叉关系程度的反映。学科交叉热点的研究分析则是利用因子分析,将学科交叉出现的高频关键词提取出具有代表性的因子,以这些因子为类,分析得出学科交叉的热点区域,再结合聚类分析,将结果进行比较,获得较为满意的学科交叉研究热点的分析结果。

1.1Session ID关系运用分析

本文学科之间的交叉关系是建立在Session ID关系的基础之上获得的。在Web中Session是指用户在浏览某个网站时,从进入网站到浏览器关闭所经过的一段时间,也就是用户浏览这个网站所花费的时间。Session在用户第一次访问服务器的时候自动创建,其生成后,只要用户继续访问,服务器就会更新Session的最后访问时间,并维护该Session。服务器会把长时间没有活动的Session从服务器内存中清除,此时Session便失效。服务器会分配SessionⅢ给不同的用户,每个Session ID都是惟一的。文中设Session ID为一个分析对象,在这个分析对象中,所有出现的文献被认为是存在关联关系的,它们之间的关联关系将作为学科之间建立交叉关系的基础。

(1)明确一个Session ID中包含的每篇文献的学科分类。文献学科分类确定好之后,Session ID中出现的文献之间的关系转换为学科之间的关系。

(2)再以Session ID为基础,交叉运算每一个Session ID当中存在的两学科、三学科甚至多学科之间的相互交叉关系。假设一个Session ID当中有若干篇文献,每篇文献都有学科归属。文献1学科分类为A,文献2学科分类为C,文献3学科分类既属于学科A又属于学科B,此时认为A和B学科之间存在交叉关系,A和C学科,B和C学科,A、B和c学科之间都存在学科交叉关系。在同一篇文献中出现的交叉关系定义为内在关系,同一个Session ID中出现的交叉关系定义为外在关系。学科之间每出现1次交叉计算1次出现频次,以学科之间交叉出现的频次作为学科交叉关系程度的反映。

(3)学科交叉的研究的热点分析,也同样引入Session ID关系影响因素,扩大文献中出现的关键词关联关系,同一个Session ID的用户使用文献的学科关键词,关键词的共现频次不仅需要计算在同一篇文献中两两共现的次数,‘而且还要计算同一个Session ID中关键词的两两共现次数。同一篇文献中出现的关键词的共现关系定义为内在关系,同一Session ID出现的关键词的共现关系定义为外在关系。

1.2因子分析

因子分析最早是由英国心理学家斯皮尔曼提出的,是一种从变量群中提取共性因子的数据简化统计技术。因子分析通过研究众多变量间的内部依赖关系,探求观测数据中的基本结构,找出变量中隐藏的具有代表性的因子,将相同本质的变量归入一个因子中,减少变量的数目,同时检验变量间的假设关系,用假想的变量能够反映出原来众多变量的主要信息。换句话说,因子分析是寻找潜在的、起支配作用因子的方法。通过因子分析,将学科交叉出现的高频关键词提取出具有代表性的因子,以这些因子为类,分析得出学科交叉的热点区域。

1.3聚类分析

聚类分析又称群分析,起源于分类学,是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。它特别适用于没有先验知识的分类。如果没有这些事先的经验或一些标准,分类便会显得随意和主观,这时只要设定比较完善的分类变量,就可以通过聚类分析法得到较为科学合理的类别。学科之间交叉后会产生怎样的知识分类,事先是无法得知的,通过聚类分析,可以分类得出,这样就可以与因子分析的结果进行比较,获得较为满意的学科交叉研究热点的分析结果。

2.数据采集与分析

本文以复旦大学ERU数据采集平台所获得的用户使用电子文献行为的动态数据为基础,从底层网络数据中获取用户对学校订购的所有中文数据库的检索、浏览、下载等信息行为的日志数据,及对应数据库文献信息,如关键字、作者、引用、发表时间等数据。数据采集时间为2013年8月到2014年2月的有效数据共241 464条,有48 000多个Session ID,平均每个Session ID有5条左右记录。

2.1学科交叉程度分析

在数据分析中学科分类采用的是《中国图书馆分类法》,以此为基础揭示学科之间的交叉情况。将采集到的有效数据与Session ID结合,按照上文介绍的运算规则分析,并且对于同一篇文献中学科交叉频次,赋值为0.6,同一Session ID出现的学科交叉频次,赋值为0.4,获得的学科交叉程度结果如下(见表1):endprint

猜你喜欢

动态数据学科交叉聚类分析
云计算环境下动态数据聚集算法研究
颞下颌关节三维动态数据测量的初步研究
《机电传动控制》课程教学改革的探索
基于动态数据驱动的突发水污染事故仿真方法