APP下载

数据挖掘工具在教育技术学文献研究中的应用

2012-12-03匡慧姝

中国教育技术装备 2012年33期
关键词:共词主题词数据挖掘

匡慧姝

湖南科技学院信息技术与教育系 湖南永州 425100

随着传统文献转换成数字文献后,文献的数量呈几何数增长。对于科研人员来讲,要在浩瀚的文献中快速找到所需的文献资料,并且提取文献中有用的价值信息,相对困难。同时国内外的一些数据库(如CNKI、SCI等)的检索功能虽然强大,但是基于关键词匹配的检索算法逻辑性言语的表达,使其检索的结果不能令人满意(往往会检索到冗余文献)。因此,利用EndNote和RefViz数据挖掘工具,可以方便快捷地将检索的文献信息转换成可视化的信息,并且根据自动分类功能,分析同组环境下文献信息的关联性。此外,根据RefViz中的主题词信息,分析学科领域中的热点信息及学科发展趋势。因此,基于文献数据挖掘(Data Mining)技术在任何一个学科领域都具有强大的生命力,对学科的发展具有深远的意义。

1 数据挖掘的概念

数据挖掘(Data Mining)具有关联、聚类、分类、异常、特异群组和演变分析的功能,与文献研究的目的相同。数据挖掘是从大量的、不完整的数据中,提取隐含在浩瀚数据中的具有规律性和潜在价值的信息的过程[1]。

1.1 数据挖掘技术对文献研究的作用

1)减轻研究人员负担,提高研究效率。传统文献研究需要研究人员阅读大量的文献材料,然后人工进行文献的整理与分类,同时对所要研究的问题做系统性分析。当文献数据的量非常大时,传统的文献研究法便有些力不从心,即使花费大量的人力和时间,也有可能无法完成。将数据挖掘技术引入文献研究领域,代替人工进行数据检索、筛选、统计、聚类分析等,可以大大减轻研究人员的负担,提高研究效率。

2)弥补传统文献研究的不足。文献研究法中既有非结构式定性分析,又有结构式定量分析,它们从不同的侧面对文献中所包含的信息进行加工和整理。传统的文献研究法多为结构式定性分析,使用数据挖掘技术对文献进行定量分析具有明显性、客观性、系统性等特点,因而可弥补定性研究缺乏直观性和系统性的不足。

1.2 数据挖掘工具的类型

数据挖掘技术用于文献研究主要是对文献进行聚类、预测、关联和相关性分析等,因此,根据数据挖掘的功能将其分为共引分析、共著分析、著者分析、共词分析和共篇分析等[1]。下面简要介绍共词分析和共篇分析。

1)共词分析。共词分析是一种内容分析方法,通过分析同一个文本的主体内容,统计对单词或短语出现的频度,从而确认文本所代表的学科领域中各个研究热点的相互关系,进而探索学科的发展趋势[1]。共词分析首先从文献数据库中抽取出现频次超过一定阈值的高频主题词,两两统计这些主题词在同一篇文章中同时出现的次数,形成共词矩阵,然后围绕这个共词矩阵进行分析。

2)共篇分析。共篇分析是指两篇或者两篇以上的文献具有一个或多个相互联系的关键词,这类关键词连结多篇文献的纽带,这种纽带的关系可称之为文献关键词链。用途主要包括:①从内容上了解文献之间的内在联系,了解该领域在研究方向上的类同和相关联程度;②分别统计具有相同主题词的文献作者群,能了解该主题研究领域在世界范围内的分布和发展趋势。

2 EndNote和Refivz工作原理简介

2.1 EndNote工作原理简介

EndNote是一款功能强大的科技文献管理软件,其友好的界面风格受到广大科研人员的好评,并得到广泛应用。EndNote的最新版本提供了3200多种期刊的参考文献的格式。此外,其开放的过滤器和期刊样式编辑方式为用户提供了个性化的选择。

2.2 RefViz工作原理

RefViz是Thomson ISI Research Soft和OmniViz公司共同推出的一款可视化的文本分析工具,能对大量文献数据进行归类和分析,是典型的共篇分析软件。

RefViz功能非常强大:

1)该软件能将参考文献库中参考文献的主题内容进行组织排列,并以直观的图形方式将其呈现在一个可视化的交互窗口中;

2)提供在线搜索工具,用户可以随意指定软件内置的各类数据库,为用户进行跨库检索提供了方便;

3)能实现与文献管理软件(如EndNote、Reference Manager等)的无缝连接,即可以随意将EndNote的数据与RefViz直接进行数据的导入导出操作[2]。

RefViz工作的原理是一种“reading-finding-dividing”的过程。RefViz首先通过阅读文章内容(包括标题和摘要),发现词的范式及词与词之间的联系。与其他软件不同,RefViz通过一种复杂的数学统计模型找出词的重要程度,将其分为三个等级;然后利用这些最重要的词和次重要的词对每篇文章进行标识;再通过标准的聚类方法将这批文献分成基于主题内容的若干组(group),每一组文献都通过三个不同重要性词和描述词予以标识,用以描述文献间的联系和主要概念[3]。

3 RefViz的应用案例

图1 检索结果在EndNote中

利用ISI Web Science数据,检索国外教育技术学1994—2012年发表的文献资料,运用RefViz数据分析软件,探讨教育技术学目前的研究热点和未来趋势。以下是RefViz的具体分析过程。

3.1 数据检索

首先打开ISI Web of Knowledge数据库(http://www.isiknowledge.com/)。在该数据库中输入主题词“education technology”,选择年限跨度为18年(1994—2012年),然后进行相关内容的检索。其检索结果为:共检索1834条信息。然后将检索到的数据信息通过web of science页面中自带的EndNote功能,将数据保存至EndNote中,如图1所示。

3.2 数据导入

将检索到的1834篇文献以“education technology”(主题词)的格式导入RefViz中进行分析,如图2所示。

3.3 对结果进行干预处理

在主题/检索窗口可以看到:意义相同或相近的词没有区分开来,主要是主题词过多,并包含了一些无实质意义的词或与分析主题无关且范围过宽的词,因此需要重新调整主题词进行分析。一般有两种处理方法:

1)将主要主题词中的次要概念与专指度较低的词降级(demote),如field、range等,同时将主要概念与专指度较低的词进行升级,如instructional、instructions等为其同义词;

2)利用此表工具,为指定目标词添加同义词,对同义词进行控制,如指定instruction为目标词,instructional和instructions等为其同义词。

图2 数据导入后的界面

图3 干预后的结果

图4 Galaxy显示结果

表1 运算结果分组情况及各组主题词

3.4 RefViz运算及显示结果

RefViz通过数学聚类算法,将已经检索的1834篇文章按照干预后的主题词的相关性分成若干个组,其结果如图3所示。

4 文献数据结果分析

该研究的过程主要是对RefViz生成的两个图形进行分析,分别是Galaxy图和Matrix图。这两个图虽然表示的内容是一样的,但是根据不同的内容和图形的分布,会有些区别。下面分别就两个图形的内容进行分析。

4.1 Galaxy的结果分析

由图Galaxy(图4,文献组大小可以代表文献的多少)得出:将检索的文献分为41组,每组均有不同数量的文献。本文在41组文献中,选取篇数在100以上的文献,共7组文献数量较大,如表1所示。

通过对图4中各个文献组的相似性分析可知:第18组、23组和32组相似度极高,其主题词为“education,technology”;第7组和第5组相似度高,其主题词为“education,computer”。此外,针对具体文献数的分析与阅读,认为教育技术的研究热点比较多,其重点表现在:对教育技术定义的研究;通过计算机网络的形式开展教育技术研究;从设计、运用、开发和评价四个维度开展研究。

4.2 Matrix显示结果分析

图5 Matrix显示结果

如图5所示,在Matrix显示的结果可以看出,“student”与“education”为正相关关系,因此根据相关度的筛选标准(relevant)≥0.5[1],通过Matrix分析文献组与主题词、主题词与主题词之间的关系,其主题词student与37组文献(education、engineer、instruction)密切相关。

4.3 结论

1)根据RefViz对教育技术学外语文献的数据分析,结合相应的文献阅读,可以清晰地看到国外对教育技术学的研究大多数依据94定义而展开,形成许多研究热点,如对教育技术概念的界定与阐释、计算机网络在教育技术中发挥的作用,同时从设计、开发、运用和评价四个维度进行详细阐述,在课程教学中注重教学设计、行动研究和运用教育技术手段解决现实生活中的各种问题。

2)通过Matrix图可以分析不同主题词与研究热点的关系,如“student”与“education”就构成相似性关系,并通过这种关系阅读相关文献内容,得出具体的研究结果。

3)RefViz是一个可视化的文献分析软件,可以帮助人们在大量文献资料整理与分析中,提炼出需要的内容和当前的研究热点。此外,RefViz与EndNote软件可实现无缝连接与数据交换,极大地方便人们对数据的处理。因此,在课题的研究中,值得进行探索性尝试。

5 结束语

数据挖掘技术应用于文献研究领域中,能从数据的汪洋大海中及时发现有用的信息,提高信息利用率,极大地提高文献研究工作的效率和水平,有力地支持各领域研究工作的开展,从而促进各学科的繁荣和科学技术的良好发展。随着文献数据库技术的不断丰富和完善,各种可视化的数据挖掘工具的升级与进步,数据挖掘技术将会广泛应用于文献研究领域,其功能也将会越来越强大,数据挖掘工具必将成为广大研究人员的研究利器。

[1]罗式胜.篇名关键词链特征的统计分析和应用[J].中国图书馆学报,1995(1):27-29.

[2]王颖,戎文慧.可视化文本分析和数据挖掘工具RefViz[J].中华医学图书情报杂志,2006,15(6):61-64.

[3]RefViz Frequently Asked Questions[EB/OL].[2010-4-29].http://refvis.com/support/rvsupport.asp.

[4]王保成.联合应用EndNote和RefViz探索课题情报分析[J].图书情报工作,2008(增刊):248-251.

[5]杨振恒.国外页岩气研究热点:基于可视化文献分析软件RefViz的研究[J].石油工业计算机应用,2010(2):30-32.

猜你喜欢

共词主题词数据挖掘
探讨人工智能与数据挖掘发展趋势
基于突变检测与共词分析的深阅读新兴趋势分析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于共词知识图谱技术的国内VLC可视化研究
基于关键词共词分析的我国亲子关系热点研究
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引