知识图谱:教育文献内容可视化研究新技术*
2017-01-05郭文斌
郭 文 斌
(陕西师范大学教育学院,西安 710062)
知识图谱:教育文献内容可视化研究新技术*
郭 文 斌
(陕西师范大学教育学院,西安 710062)
如何对数字时代产生的海量信息进行客观、高效和科学的整理,产生出新的知识为教育研究者所用,已经成为当前教育研究者必备的素养。本文旨在促进教育研究者通过使用计算机,将抽象数据信息转化为可视化信息,增强他们快速识别抽象信息的认知过程。论文对知识图谱进行教育文献内容可视化的原理、绘制流程及注意事项进行了较为详细的介绍和实例说明。结果发现,作为教育文献内容可视化的知识图谱属于较新的科学计量分析方法,它能够通过图像直观展现出教育研究最前沿领域和学科知识的信息会聚点,从宏观、中观、微观等不同层面来揭示教育研究发展的概貌,便于研究者全面审视教育研究领域的结构和研究热点、重点等信息。结果表明,知识图谱通过信息可视化对教育文献内容进行定量研究和定性研究的结合,极大提升了教育文献内容研究的质量,为海量教育文献内容的深度解读提供了可行性的技术支持。
知识图谱;教育文献;信息可视化;内容可视化
一、引言
过去,在互联网和数字化时代没有到来之前,研究者为了解教育领域发展的整体状况,首先,通过人工方法查阅教育领域的几乎所有文献;其次,从大量文献中筛选出相对重要的文献(郭文斌,2015);最后,研究者依据自己的专业特长对文献资料进行综合加工,撰写文献综述。这样的文献研究方法,不仅因为研究者站立角度和主观判断的差异,造成选取的文献材料有较大的出入,文献研究结论难以得到重复验证,而且,还可能会因为文献资料搜集的人为遗漏,产生错误或者不当的归类和总结(郭文斌,陈秋珠,2012)。如今,随着知识大爆炸和全球数字化时代的到来,教育文献不仅以海量方式呈现,而且其呈现的内容和主题也在快速发生变化。要对如此海量、多变的教育文献进行研究,客观地捕捉出它们发展变化的特点,传统的文献处理方法难以胜任。在数字化时代背景下,凭借数据挖掘和信息可视化技术,对已有海量信息进行客观、高效和科学的整理,产生新的知识的科学计量学逐渐发展并且成熟起来(郭文斌,方俊明,陈秋珠,2012)。1989年,罗伯逊等人提出了信息可视化概念。信息可视化主要指通过使用计算机,将抽象数据信息转化为可视化信息,增强人们快速识别抽象信息的认知过程(Bederson & Shneiderman,2003)。信息可视化技术可以自动生成可视化内容地图,这些地图不仅可以抽取和定义信息模型、种类和作者、概念以及其它信息实体之间的关系,而且,它还支持多种多样的交互功能,用于用户探索概念关系和隐含的信息(林夏,2004)。也就是说,内容信息可视化可以显示出专业领域中出现的交叉学科的复杂现象,从而获得详尽的前沿科学信息分析结果,它不仅有助于科学家在最短时间里了解和预测前沿科技研究动态,而且还有助于在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据(郭文斌,2015)。知识图谱作为文献内容可视化的科学计量方法之一,近年越来越受到研究者的重视和青睐。2003年美国科学院组织的“mapping knowledge domains”讨论会,预示着世界科学计量学中知识图谱和可视化研究的春天已经到来。知识图谱已成为科学共同体结构与发展实证研究的主流方法,广泛用于很多学科领域的可视化研究。但是,国内教育研究方法方面还比较落后(郭文斌,方俊明,2015),许多现代科学研究方法较少在教育科研中应用,现代数学迟迟未被引进到教育科学中来(郑日昌,崔丽霞,2001)。为促进教育研究者认识和准确把握信息可视化,将知识图谱方法运用于教育研究中,本文对知识图谱的概念、应用原理、绘制流程以及注意事项进行较为全面的介绍和说明。
二、知识图谱进行教育文献内容可视化的基本原理和绘制流程
知识图谱也被称为科学知识图谱、知识域可视化或知识域映射地图,是可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术知识的合作和深入(刘则渊, 陈悦, 侯海燕,2010)。知识图谱以科学学为基础,涉及应用数学、信息科学及计算机科学诸学科交叉的领域,是科学计量学和信息计量学的新发展。知识图谱能够用直观图像展现出最前沿领域和学科知识的信息会聚点,从宏观、中观、微观等不同层面来揭示一个领域或学科的发展的概貌,使人们便于全面审视一个学科的结构和研究热点、重点等信息(郭文斌,陈秋珠,2012),生成新的知识。在教育学领域使用知识图谱的目的在于:将教育领域的知识和引人瞩目的信息以可视化的图像直观地展现出来,挖掘、分析和显示教育领域知识及其联系,判定教育领域的研究前沿及历史演进路径,为后续科研选题和研究走向提供合理性的意见和建议。
(一)知识图谱的基本原理
知识图谱的基本原理是科学文献、科学家、关键词等分析单位的相似性分析及测度。根据不同的方法和技术可以绘制不同类型的科学知识图谱。首先,通过计算机和互联网搜索引擎强大的自动查询功能,在极短的时间里面完成对海量信息的准确查询;其次,通过计算机对已查询到海量零散信息进行文献计量统计分析,不仅可以通过量化模型将其以科学的、可视化的形式直观的呈现出来,而且还可以发现它们之间的深层次关系和趋势,为今后在该领域的研究提供更有力的客观数据和科学支持(任红娟,张志强,2009)。
(二)知识图谱的绘制流程
知识图谱的绘制流程主要有五个步骤(胡泽文,孙建军,武夷山,2013):首先,确定并选取合适的数据源;其次,数据源数据采集;第三,选取合适的知识图谱绘制工具;第四,绘制知识图谱;第五,知识图谱解读和分析。
1.确定并选取合适的数据源
为了确保绘制知识图谱文献的准确性和全面性,绘制知识图谱初期查询文献时,一定要选取较为权威的文献数据库作为数据源。现在较为公认的权威文献数据库有:中文社会科学引文索引数据库(Chinese Social Sciences Citation Index,CSSCI,网址为http://cssci.nju.edu.cn)、中国知识基础设施工程数据库(China National Knowledge Infrastructure,CNKI,网址为http://www.cnki.net)、万方数据库(wan fang data,WFD,网址为http://www.wanfangdata.com.cn)、大型综合性以及多学科的Web of Science(WOS)核心期刊引文索引数据库(包括SCI、SSCI、A&HCI,网址为http://www.isiknowledge.com)、全球最大的文摘和索引数据库Scopus(网址为http://www.elsevier.com/solutions/scopus)等。
2.数据源数据采集
在找到合适的数据库后,研究者可以根据自己需要,选择主题、作者、出版物名称、关键词或者时间等多个标准作为检索条件。查找到符合检索要求的文献后,一般将其按照包含作者、题目、摘要和文献的引文等字段的固定格式加以采集和保存。对数字信息进行保存时,研究者可以直接选用数据源数据格式保存,也可以根据绘制知识图谱软件需要,选用特定软件或者自己编程来对查询到的信息资料格式进行加工。对于无法通过数字化查询的重要数据,研究者可以通过手工录入的方式来实现信息保存。
3.选取合适的知识图谱绘制工具
知识图谱绘制的工具有:Citespace、Bibexcel、Wordsmith Tools、Pajek、Ucinet、BICOMB、Histcite 、Sci2等软件。
(1)Citespace由美国德雷赛尔大学(费城)信息科学与技术学院的陈超美开发,可获取地址为http://cluster.ischool.drexel.edu/~cchen/citespace/download.html。
(2)Bibexcel由瑞典科学家Olle Persson开发,可获取地址为http://homepage.univie.ac.at/juan.gorraiz/bibexcel/index.html。
(3)Wordsmith Tools由英国词法分析软件公司和牛津大学出版社(Lexical Analysis Software and Oxford University Press)联合研发,可获取地址为http://www.lexically.net/publications/copyright_permission_for_screenshots.htm。
(4)Pajek 由斯洛文尼亚卢布尔雅那大学社会科学学院(University of Ljubljana,Faculty of Social Sciences)的Vladimir Batagelj和Andrej Mrvar共同开发,可获取网址为http://vlado.fmf.uni-lj.si/pub/networks/pajek/。使用Pajek时,数据格式为.net格式。
(5)Ucinet(University of California at Irvine NETwork)最初由加州大学尔湾分校社会网研究的权威学者Linton Freeman 编写。后来Stephen Borgatti、Martin Everett和Linton Freeman扩展了该软件功能。可获取地址为http://www.analytictech.com/ucinet/download.htm。
(6)BICOMB是书目共现分析系统(Bibliographic Item Co-Occurrence Matrix Builder)的英文缩写,它受到我国卫生政策支持项目(HPSP)资助,由中国医科大学医学信息学系崔雷教授和沈阳市弘盛计算机技术有限公司协作研发。可获取地址为http://www.cmu.edu.cn/bc/menu1.html。
(7)Histcite(history of cite,引文历史)由美国Eugene Garfield和其科研团队研发。可获取地址为http://interest.science.thomsonreuters.com/forms/HistCite/。
(8) Sci2(Science of Science)由美国印第安纳大学的Katy Börner及其团队研发。可获取地址为http://sci2.wiki.cns.iu.edu/display/SCI2TUTORIAL/Science+of+Science+%28Sci2%29+Tool+Manual;jsessionid=FCEAD9B9DE117DCD8F3FE4F68848B3B7。
值得注意的是,上述的(2)和(6)虽然可以对数据源下载数据进行处理获得相关的共现分析数据,但是,要想获得可视化的知识图谱,还需要进一步与SPSS、Pajek 或者Ucinet相互配合使用。
4.绘制可视化知识图谱
一般绘制可视化的知识图谱常用方法有:引文分析法、共被引分析法、词频分析法、社会网络分析法。
(1)引文分析法
就是利用各种数学、统计学的方法,以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用和被引用现象进行分析,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的一种信息计量研究方法(邱均平,2007)。采用引文分析形成的网络结构,可以发现,最近几年教育研究领域引用较为集中的文献。这些文献的研究领域便构成了教育研究领域的热点和前沿。
(2)共被引分析法
采用聚类分析、多维尺度分析等多元统计分析方法,以教育领域有代表性的文章、词汇、作者或者刊物作为分析对象,将它们间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系,并直观地表示出来,使分析对象之间相互关系的格局清晰可辨(陈定权,2005)。采用共被引分析法可以发现教育研究的领域分布、权威期刊、权威作者以及热点词汇构成。
(3)词频分析法
词频分析法主要通过分析某一研究领域中,文献中的词出现的频次高低,可以确定该领域发展动向和研究热点发展动向(马费成,张勤,2006)。词频分析法属于定性分析方法,但它与传统文献定性分析的最大不同之处在于,较好地摒弃了研究者的个人喜好,通过对文献中关键词、主题词以及篇名的词频准确、客观的分析,有助于得出深入并且共识性的结论。采用词频分析法,可以较好的直观展示出教育研究领域的新的发展及变化。
(4)社会网络分析法
社会网络分析法是测量与调查社会系统中各部分(点)的特征与相互间的关系(连接),将其用网络的形式加以表示,进而分析其关系的模式与特征的理论、方法和技术(汤汇道,2009)。社会网络分析法以图形或者矩阵方式,直观呈现出教育研究领域文献间链接的强弱关系,较好地揭示某一研究领域在整个教育研究中所处的位置。
5.知识图谱解读和分析
为了避免绘制知识图谱结果出现偏差,在绘制出教育研究领域知识图谱后,最好能够请本领域的专家对结果进行把关验证。对知识图谱解读和分析时,首先,要汇报统计效度;其次,要与专家进行商讨;第三,要对知识图谱结果进行解读,藉此预测教育研究领域的进展和趋势,探寻教育研究热点与前沿。
三、知识图谱进行教育文献内容可视化的一个实例
为了解国内学者在远程教育领域的具体研究,我们选取了中国博士及优秀硕士全文数据库收录的3170篇学位论文的关键词作为分析材料,尝试通过内容可视化呈现我国远程教育研究的热点和现状。首先,以中国知识基础设施工程数据库中的硕博士论文库为研究主要数据源。其次,设定检索条件,将主题词设定为“远程教育”,将时间设定为截至2013年6月9日。共检索到3179篇文献,剔除不符合要求的学位论文9篇,共得到有效文献3170篇。对获取的不同单位来源的学位论文的关键词进行格式和内容标准化。第三,选取Bicomb2.0和SPSS20作为知识图谱绘制工具。第四,对查询到文献的关键词进行词频分析:从关键词总频次14307次中确定19.51% 的前50位关键词为高频关键词、建立高频关键词共词频矩阵、高频关键词聚类分析、高频关键词多维尺度分析,绘制出高频关键词知识图谱(见图1)。第五,对知识图谱(图1)进行相应的内容解释和分析,可以发现,远程教育研究热点主要围绕八个领域展开,分别为:远程教育支持系统及其应用技术研究、远程教育中的个性化设计研究、远程考试系统设计研究、网络教学平台的设计与实现研究、远程教育的学习支持服务系统研究、远程教育中的网络课程的教学设计研究、远程教育中的流媒体教育平台研究与开发、远程教育中的虚拟现实技术研究与开发。对可视化战略坐标进行内容分析,不仅可以发现,远程考试系统设计研究和网络教学平台的设计与实现研究2类主题自身的内部联系紧密,且其研究成果处于有关远程教育学位论文中心地位;远程教育中的网络课程的教学设计研究,流媒体教育平台研究与开发2类主题自身内部联系较为松散,它们未来在远程教育研究中具有较重要价值,可以加大对它们的研究力度;远程教育中的虚拟现实技术研究中,落在第三象限的网络教育、网络交互、VRML等内容之间的联系较为紧密,而落在第四象限的虚拟实验、虚拟实验室、虚拟现实等内容的相关研究成果与其他领域的相关成果比较而言还较少;远程教育支持系统及其应用技术横跨第一和第四象限,其处于第一象限的支持系统研究间联系较为紧密,相应的研究也较多,而处于第四象限的远程教育的应用技术则研究人员少,相应的成果也较少。而且,还可以发现,远程教育中的个性化设计研究和远程教育的学习支持服务系统研究分别处于战略坐标的纵轴和横轴,将最后为远程教育研究关注的两大中心点(郭文斌,俞树文,2014)。
图1 远程教育研究热点知识图谱(郭文斌,俞树文,2014)
四、知识图谱进行教育文献内容可视化的注意事项
采用知识图谱对教育文献内容可视化呈现时,应该注意以下三方面的内容:
(一)关键词的选取和标准化
知识图谱分析的单词多是以文本形式保存的词汇清单,绘制工具可以找到该词汇或词组在文本所处的全部位置,对其进行自动统计。绘制知识图谱时,为了使研究更加深入,大多数研究者会选取关键词作为单词词频分析对象。此时,需要注意:第一,关键词的标准化。因为数据源文献采集到的关键词来源多样,关键词的标识可能存在差异,所以进行高频关键词提取前,要对词义接近或者相同的关键词进行合并,比如:将“自闭症”、“孤独症”、“自闭症谱系障碍”等含义相同的关键词合并为“自闭症谱系障碍”。随后再进行关键词词频统计。如若不然,会影响到关键词的排序,致使结果发生偏差。第二,无意义关键词的删除。有的词汇虽然以关键词呈现,但是,它们并非实质的关键词,比如展望、政策等词汇,需要研究者对此类词汇进行甄别并予以手工删除。
(二)判断高频关键词阈限的适当性
(三)知识图谱结构分析
结构分析也称单词语义网络分析,主要应用因子分析和空间图将词语间的关系直观的展示出来(诺曼,伊冯娜,风笑天,2007),揭示事物关系中显现出来的性质。知识图谱结构分析时,需要呈现四方面的内容:高频关键词系数矩阵、高频关键词聚类分析、多维尺度分析以及社会网络分析。高频关键词系数矩阵中,研究者要交代清楚系数产生的统计原则,生成的矩阵为相同系数矩阵还是相异系数矩阵(知识图谱论文中常采用相异系数矩阵),并对系数矩阵之间的关系进行简单的解读。高频关键词聚类分析时,为更客观的对单词进行归类,研究者可以先采用因子分析法,依据因子分析得分值,将研究对象因子分析所构成的空间的变量点画出来,以此对聚类分析结果进行完善(马费成,望俊成,陈金霞,胡超,2007)。呈现高频关键词聚类分析图后,研究者对聚类分析结果进行解读时,要对呈现有关单词的原始文献进行综合分析,挑选出最重要的文献,并组织好它们之间的衔接关系,以类似综述的形式将其呈现出来。此处涉及到大量原始文献的精读和取舍,是知识图谱论文写作时研究者花费时间较多的地方。在进行多维尺度分析时,一般要汇报生成的Stress和RSQ系数,交代清楚生成战略坐标的知识领域的分布情况。此外,还需要求教育研究领域的相关专家对生成结果把关,进一步验证划分领域和命名的合理性。值得一提的是,根据多维尺度结果对各单词对应的领域进行划分时,应该允许少数单词对应的领域和聚类分析结果有所出入。对知识图谱内容进行详细的解读,首先,需要将聚类分析和多维尺度分析结果结合在一起,对生成的知识领域进行解读;其次,需要根据战略坐标的象限分布,解读各个领域的重要性;最后,需要根据纵横坐标分布,从较为宏观趋势上对已有研究结果进行概括总结。
综上所述,知识图谱通过信息可视化对教育文献内容进行定量研究和定性研究的结合,极大提升了教育文献内容研究的质量,为海量教育文献内容的深度解读提供了可行性的技术支持。笔者期待更多的教育研究者投身到对教育文献内容可视化技术的讨论和实际应用中来。
陈定权. (2005). 同引分析与可视化技术.情报科学, 23(4), 532-537.
郭文斌. (2015).知识图谱理论在教育与心理研究中的应用.杭州:浙江大学出版社.4-6.
郭文斌,陈秋珠.(2012).特殊教育研究热点知识图谱.华东师范大学学报(教育科学版),30(3), 49-54.
郭文斌, 方俊明. (2015). 关键词共词分析法: 高等教育研究的新方法.高教探索,(9), 15-21.
郭文斌, 方俊明, 陈秋珠.(2012).基于关键词共词分析的我国自闭症热点研究.西北师大学报(社会科学版), 49(1), 128-132.
郭文斌, 俞树文. (2014). 我国远程教育研究热点知识图谱——基于 3170 篇硕士及博士学位论文的关键词共词分析.电化教育研究,(2), 163-171.
胡泽文, 孙建军, 武夷山. (2013). 国内知识图谱应用研究综述.图书情报工作,57(3),131-137.
林夏. (2004). 信息可视化与内容描述.现代图书情报技术,(10), 3-13.
刘则渊, 陈悦, 侯海燕. (2010).科学知识图谱: 方法与应用.. 北京:人民出版社.5.
马费成, 望俊成, 陈金霞, 胡超. (2007). 我国数字信息资源研究的热点领域: 共词分析透视.情报理论与实践,30(4), 438-443.
马费成, 张勤. (2006). 国内外知识管理研究热点——基于词频的统计分析.情报学报, 25(2), 163-171.
(美国)诺曼·K·邓津,伊冯娜·S·林主编,风笑天等译.(2007).肯定性研究:经验资料收集与分析方法(第3卷). 重庆:重庆大学出版社.837.
邱均平. (2007).信息计量学.武汉:武汉大学出版社.315.
任红娟,张志强. (2009). 基于文献计量的科学知识图谱发展研究.情报杂志,(12), 86-90.
汤汇道. (2009). 社会网络分析法述评.学术界,(3), 205-208.
张勤,马费成. (2007). 国外知识管理研究范式.管理科学学报,(6),65-74.
郑日昌,崔丽霞. (2001). 二十年来我国教育研究方法的回顾与反思.教育研究,(6), 17-21.
钟文娟. (2012). 基于普赖斯定律与综合指数法的核心作者测评——以《图书馆建设》为例.科技管理研究,32(2),57-60.
Bederson, B. B., & Shneiderman, B. (2003). The craft of information visualization: readings and reflections. San Francisco:Morgan Kaufmann./.
(责任编辑 陈振华)
陕西省田家炳项目“学校发展及改进计划”。
10.16382/j.cnki.1000-5560.2016.01.007