APP下载

?基于LDA的国内图书馆学研究主题发现及演化研究

2019-09-04吴查科王树义

新世纪图书馆 2019年7期
关键词:图书馆学

吴查科 王树义

摘 要 为掌握我国图书馆学研究热点及变化趋势,本文以2008—2017年图书馆学领域11种核心期刊文献作为语料库,利用LDA方法建立主题提取模型,挖掘图书馆学领域主题及其演变情况。实验发现十年间图书馆学领域研究主题有13个,对这些主题进行主题强度计算后发现热门主题有图书馆管理、图书馆理论、图书馆服务、用户研究和资源建设。在不同时间窗口下对各个主题的强度进行计算,发现热度上升的主题有阅读推广、检索技术、开放获取,热度衰减的主题有图书馆服务、资源建设。

关键词 图书馆学 主题发现 主题演化 LDA

分类号 G250

DOI 10.16810/j.cnki.1672-514X.2019.07.017

AbstractTo identify the research topics and research trends of domestic library, this paper chooses the research papers which had been published on 11 corejournals of library science from 2008 to 2017 as corpus and uses LDA method to establish theme extraction model to mine the themes and their evolution in library science. Experimental results show that all the research in library science between 2008 and 2017 can be divided into 13 topics. After the calculation of subject intensity, this paper finds the most popular topics are the library management, library theory, library service, user research and sources construction. After the calculation of subject intensity on different time windows, this paper finds that the rising topics include reading promotion, retrieval technology and open access, while topics like library service and sources construction are becoming less popular.

Keywords Library. Theme discovery. Theme evolution. LDA.

1 文獻回顾

图书馆学主要是采用科学方法探讨与图书馆相关的内容,涵盖图书馆的发展与运营所需的各种知识[1],图书馆学的重点研究对象与热点研究主题代表了学界的关注点与前进方向。近年来,国内学者发表了许多关于图书馆学主题分析的文献,研究成果对我国图书馆学的发展及学科建设起到了积极推动和促进作用。杨利超基于文献计量法,采用可视化工具CiteSpace分析了2007—2016年我国图书馆学领域的学术论文分布状况,并通过热门关键词揭示了领域的主要研究热点和领域[2];李娜以2014年度图书馆学领域14种核心期刊的文献为数据样本,采用共词分析和社会网络分析相结合的方法对图书馆学研究领域的热点进行了分析,并绘制了研究领域的可视化知识图谱[3];马海群基于数据定量,对2015年度的13种期刊的全部有效文献的关键词进行了词频统计和主题聚类,并进行了主题定性判断与选择,对国内图书馆学研究核心领域进行了展示介绍[4];丁洋等人以《图书馆》1983—2012年发表的论文为研究样本,利用文章题名结合关键词和摘要等信息,对论文所涉及的图书馆学研究主题进行了梳理和归纳分析[5];向剑勤等人利用CNKI引文检索功能进行了作者共被引研究,通过绘制国内外图书情报学研究主题知识图谱,从学科结构组成、分支主题之间关系与最具影响的学术群体等三个方面对国内外图书情报学进行比较分析[6]。

从上述研究中可以看出,目前学界对于图书馆学领域的主题研究方法主要采取词频分析、共词分词、共被引分析、社会网络等传统的科学计量法,而其中利用关键词作为核心数据进行研究主题揭示的文献尤为普遍。然而,传统方法常以高频关键词或文本中出现词语为文本主题,由于未涉及到文本或词语所包含的语义信息,使得研究结果显得较为粗略,且关键词是对文章内容的高度浓缩和概括,能够大体反映出文章的研究方向,但难以全面地揭示文章的研究内容[7]。同时,关键词还容易存在“共生”现象,即多个高频关键词同属于一个研究主题,使用词频法则会出现词频较低的主题被忽略的情况[8]。因此,有许多学者利用主题模型构建的方法对学科主题进行研究。Latent Dirichlet Allocation(LDA)就属于主题模型的一种。

LDA能够直接对词汇进行分解,模拟大规模语料的语义信息,实现粒度更小、层次更深、更全面的分析,自提出之后就被引入到了文献主题的分析应用当中。Hao W等人基于LDA算法构建生物信息学的主题模型,分析生物信息学的热点主题及未来研究趋势[9];关鹏等人基于LDA主题模型,结合生命周期理论对国内新能源领域的科学文献主题进行了挖掘[10]。LDA主题模型还可引入时间因素,对研究主题进行演化分析。由于主题演化不局限于静态的主题结构分析,而是对主题的动态变化特征进行分析,所以对研究者把握研究脉络、预测未来研究趋势具有一定的指导作用。Sugimoto等对期刊Library Information Science 1930—2009年的文献进行了主题建模,将计算结果中各时间段的主题-词汇概率表进行了主题排名,并基于相似度衡量比较了不同阶段主题交叉情况[11];朱茂然等基于LDA主题模型对情报学领域6种期刊于2000—2015年刊载的文献进行了主题挖掘与分析,并以年为单位进行时间窗口划分,通过计算得出了各个主题的演化趋势。

本文在文献梳理过程中,尚未发现有学者利用LDA方法对图书馆学领域期刊论文进行主题提取分析。鉴于此,本文将采取LDA主题模型的构建方法,揭示近十年图书馆学的研究主题内容,找到领域中的研究热点,并进一步计算出研究主题的演化情况,针对图书馆学的主题发展情况进行分析。

2 研究设计

本文采用LDA主题建模的方法对图书馆学领域研究进行主题分析,研究设计如图1所示。

2.1 文本收集及预处理

关于国内图书馆学领域的研究主题可在期刊文献数据库中获取。根据研究目的对数据进行选择,保留题目、作者、关键词、摘要、时间等字段信息。其中,摘要是实现主题发现的基本数据来源,关鹏等发现不同语料下基于LDA主题模型的主题抽取效果具有明显差异性,利用摘要构建语料库产生的结果比关键词等更具广泛性、全面性,语义信息更加清晰[10],时间是指文献的刊出时间,将会被用来实现演化过程的时间序列。

在将数据输入到主题模型之前,需对数据进行预处理,主要包括数据清洗、分词处理、去停用词及向量化等。本文对中文期刊进行主题发现与演化研究,根据研究目的,去除文本数据中的会议通知、杂志通知、投稿指南等无效数据。与英文文本有空格将单词划分开来不同,中文文本必须借助分析工具将文本划分成有意义的词组。去停用词即是将不能为文本分析提供有效信息的词语去除,如助词、语气词等。最后按照主题模型要求进行输入文档生成,本文利用Python中的文本向量化函数将实验语料进行向量化处理,形成输入文档。

2.2 LDA主题模型

Latent Dirichlet Allocation(LDA) 模型由Blei等人于2003年提出[12],属于主题模型(Topic Models) 的一种,是一种完全产生式模型[13]。它是一个关于词汇、主题、文档的三层贝叶斯概率生成模型,其核心思想是把文档看成隐含主题的一个概率分布,主题看成词汇的一个概率分布。文档到主题服从多项式分布,主题到词服从多项式分布。LDA采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。其中,主题是对文档内容的汇集,因此模型可以很好地模拟大规模语料的语义信息。LDA生成过程如图2所示。

图2中空心节点表示隐含变量、参数,实心节点代表可观测值(词语),箭头代表依赖关系,方框表示对方框里面的内容进行迭代。图2中所使用的字符含义见表1。

2.3 LDA模型建立

本研究实验是在Python环境下直接利用机器学习工具包scikit-learn中的Latent Dirichlet Allocation函数进行主题建模。在参数设定方面,模型中的超参数α、β等都已被設定为默认值。在使用LDA进行主题模型训练时,需要对主题数目K进行设置,数目大小直接决定了结果的优劣。确定主题数目的方法多种多样,其中困惑度(Perplexity)作为确定主题数目的标准被Blei等人在研究中使用。困惑度属于信息理论测量方法,对于一篇文档,LDA模型对其属于哪个主题的不确定性程度则为困惑度。不同主题数下的模型困惑度越小,模型的拟合程度越好,因此本文通过该方法来确定最优主题数目,其计算公式为:

其中p(Wd)表示生成文档d的概率,其计算公式为:

主题模型的实验完成后,训练结果将根据设置进行不同方式的呈现。本实验在Python环境下进行,计算完成后输出文档-主题文件,并进行下一步的热门主题发现及演化分析。

2.4 主题发现及演化分析

主题发现及主题演化需要用主题强度值进行度量,该概念主要描述主题的热门程度,即某一时间窗口下包含某一主题的文档数量越多,主题的强度越高。假设Dt表示时间窗口t下的文档数目,     为文档d中主题z的后验概率分布,则在时间窗口t下主题z的强度      的计算公式为:

对于学者来说,发现所处领域热门主题,熟知研究热点是必要之事,因此本文使用主题强度阈值的方法筛选出热门主题。由于文档库中存在多个主题,分别按照公式将z个主题的强度值计算后,设定一个阈值T来对热门主题进行筛选。当     大于阈值T时,说明该主题z属于热门主题。阈值的计算公式为:

在演化分析上,本研究采用后离散方式进行分析。在对整个文档库进行建模运算的基础上,读取自身的时间数据,接着将模型得到的文档-主题文件离散到不同时间窗口,用     代表当前时间窗口的主题强度值,可以根据不同时间的数据绘制主题z的强度变化曲线图,从而对研究主题的演化发展情况进行分析。

3 实验过程

3.1 数据来源

本文将CSSCI来源期刊(2017—2018) 收录的11种图书馆、情报和文献学期刊作为文献数据来源,包括《中国图书馆学报》 《大学图书馆学报》 《国家图书馆学刊》 《图书馆》 《图书馆建设》 《图书馆论坛》 《图书馆学研究》 《图书馆杂志》  《图书情报工作》 《图书情报知识》《图书与情报》。选取上述期刊于2008—2017年发表的文献32 688篇。去除会议通知、杂志通知、投稿指南等无效文献后,最终获得29 535篇有效文献。本实验仅将每篇文献的摘要字段提取出来,并建立语料库。

3.2 文本预处理

结巴分词是目前主流的分词系统,对汉语语料有着很好的分词效果,本文利用Python中的结巴分词(jieba) 对实验文本进行分词处理。文献摘要还包含大量对主题识别无意义的词汇,本文对其进行停用词处理,得到的数据将作为主体模型实验的训练语料库。接着利用scikit-learn向量化工具CounterVectorizer,将训练语料库进行了集合向量化处理,完成输入文档生成。

3.3 主题模型

本文利用困惑度作为确定最佳主题数的指标,首先调用LDA函数,对不同z值情况下的困惑度进行计算,计算结果如图3所示。可以明显看出,随着主题数的增加,困惑度开始呈现平稳状态。在主题数为13的时候,困惑度最小,继续增加主题数会让困惑度增大。因此,实验确定最佳主题数为13。

将主题数设置为13,经过最大50轮次的迭代过程,模型经过训练后获得了初步的主题训练结果,结果中有两个重要概率矩阵,分别是主题-词项概率矩阵和文献-主题概率矩阵。首先提取出主题-词项概率矩阵,结果如表2所示(因篇幅所限,仅展示概率词项Top10)。从主题中的词项可以看出高度关联性,例如从主题2中的“阅读、推广、素养、活动”推出该主题有关“阅读推广”,说明本研究所建LDA模型在图书馆学潜在研究主题提取上是有效的。据此,本文对13个主题的概率词项均进行了推理,分别用主题内容进行了标记。

3.4 热门主题发现

主题的热门程度需要利用公式(3)(4)分别对主题强度与主题强度阈值进行计算与度量,图4展示了主题强度值柱形图,柱形高度代表主题强度值,虚线为主题强度阈值(0.077)。

其中Topic1、Topic4、Topic5、Topic11、Topic12,均高于主题强度阈值,是目前该领域的热门主题,即图书馆管理、图书馆理论、用户研究、图书馆服务、资源建设。

(1) 图书馆管理的目的是合理地配置和充分利用图书馆的资源,更好地履行图书馆的职能,其在图书馆学中的重要程度不言而喻;又由于日益增长的数字文献资源及读者更高的服务诉求,图书馆管理系统面临着整合升级的迫切需求,因此从各方面加强图书馆管理水平仍然是学者们所关心的问题[14-15]。

(2) 理论研究是一门学科的基础,对于正在蓬勃发展的图书馆學尤其如此。尽管目前图书馆学已经建立了相对稳定的理论体系,但信息技术的快速发展给图书馆带来了巨大影响,使得传统的理论范式在指导当下学科发展上显得相对乏力,因此学者们开始探索建立适应现代图书馆发展理论体系[16],这也让图书馆学理论研究成为了经久不衰的热点。

(3) 用户作为图书馆一切实践和研究的出发点,在图书馆事业中的地位是不可动摇的[17],只有对用户的心理、行为及个性化需求等进行研究,才能为其提供满意的服务,完成好图书馆的职能。该主题热度的不断上升,表明了当前学界对用户的关注程度,突出了图书馆以人为本的宗旨,也顺应了当下趋于个性化的信息服务潮流。

(4) 图书馆的中心职能就是为读者提供服务,因此,图书馆服务是图书馆永恒的命题之一。近年来,随着Web2.0、移动图书馆、大数据、互联网+等概念的相继提出,图书馆服务也应与之同步发展,因此图书馆服务是学界持续热门主题之一。

(5)资源是图书馆业务工作的基础,需要得到足够的保障才能满足用户的需求,因此图书馆资源建设历来都是图书馆学领域的研究重点[18]。同时,随着“数字图书馆”“移动图书馆”等概念的兴起,数字资源也逐渐引起了学界的关注与讨论。

此外,Topic2、Topic3、Topic6、Topic8、Topic9、Topic13主题强度值适中,为常规的研究主题;Topic7、Topic10的主题强度值偏低,可能由于该主题是一个新兴的研究主题或是一个正在消亡的主题,需进一步分析。

3.5 主题演化分析

基于LDA的主题演化研究主要分为将时间作为变量集合模型演化分析、按时间先离散分析和后离散分析等3种分析方法[19]。根据研究内容,本实验采用后离散方式,利用全部文本进行LDA建模,读取自身的时间数据,将13个主题分别离散到各自的时间窗,并根据主题不同时间的受关注程度即主题强度分别进行主题演化分析。利用实验结果中的文献-主题概率矩阵,按照时间窗口对主题强度值分别进行计算,得到了各个主题的强度分布值。以横轴为时间变化,纵轴为主题强度值,本研究绘制了主题强度演化图,如图5所示。

从图5中可以看出,每个主题随着时间的变化,研究热度也呈现着不同变化。一些主题的研究热度初始值较低,但随着时间的推移,研究热点开始呈现上升的趋势,这类主题可称之为上升主题;另一些主题的研究热度初始强度值较高,但随着时间的推移,研究热度呈现下降趋势,这类主题可称之为衰减主题;还有一类主题随着时间的推移,研究热度未出现明显的上升或下降,本文将其称之为平稳主题。将13个主题划分为上述三类主题,具体分布情况如表3所示。

从表3可以看出,上升主题有阅读推广、检索技术和开放获取三个主题。

阅读推广逐渐受到重视并成为图书馆学领域的主题,首要因素是现代社会对阅读的关注度上升[20]。由图5可以看出,该主题的上升趋势可以分为2008—2012年和2013—2017年两个阶段,后一阶段较前一阶段的上升幅度增大,这与2014年“倡导全民阅读”和2015年“倡导全民阅读,建设书香社会”被写入政府工作报告不无关系。十年间学者们对阅读推广给予了充分的关注与研究,该主题已逐渐成为图书馆最引人注目的服务。近几年的阅读推广呈现出活动日常化、地区缩小化、推广部门边界消失化和信息技术广泛化等趋势[21],随着未来信息技术的进一步发展,阅读推广还将得到更多的关注与研究。

开放获取是在网络环境下发展起来的一种新的出版模式和学术交流理念,本研究中主题“开放获取”的十年间的研究热度总体上处于上升状态。2004年,《柏林宣言》签署之后,开放获取便开始受到国内研究学者的热议,围绕开放获取展开的讨论和研究日益深入,这一方面的研究成果也逐步增加。近几年,开放存储整合趋势增强、转向开放数据存储,开放获取从试验走向政策支持,开放资源的组织和利用得到了不断深化[22]。

主题“检索技术”在过去十年间的研究热度的不断上升说明了学界越来越重视信息检索及检索技术。究其原因,随着信息技术的不断发展,信息存储方式发生了翻天覆地的变化,而以往的检索手段已不能再满足人们对于海量信息的检索要求,造成了学界对于信息检索手段的不断探索。从该主题的概率词项来看,语义、本体等技术内容是目前所关注的重点,这些技术不仅可以提高检索效率,还可以利用其对信息资源进行整合[23]及提出新的知识服务方案等[24]。

尽管本研究中的两个衰减主题“图书馆服务”和“资源建设”在主题强度均有较为明显的下降趋势,但总体的研究强度均超过阈值,属于图书馆学领域近十年的热门主题,说明了主题热点下降并非是该主题不再受到学界的关注,而是随着新的研究问题的出现,亦或是该主题的研究已相对成熟,故研究热度有所消减[8]。

主题“图书馆服务”的研究热度有较弱的下降趋势,总体的研究文献数量却并不少,一部分原因可能是图书馆服务方面的一部分研究已相对成熟,相关问题已得到了解决;同时还可能是网络化已经成为了开展图书馆研究的新背景,传统环境下的服务模式已不再适应当下的要求,因此针对网络技术的研究相对增多,故该主题的研究热度有所下降。

主题“资源建设”在几年前受到了学界的极大关注,主题强度远远高于其他主题,然而随着信息技术的不断发展,传统的资源建设已开始向数字化与移动化方向发展。与此同时,图书馆的职能和定位也在不断拓展,以往“以资源为中心”的发展模式已经逐渐转向真正的“以用户为中心”[17],图书馆研究者在对新的主题进行研究时,该主题的研究热度难免会有所下降。

4 结语

本文利用中国社会科学引文索引(CSSCI)于2008—2017年十年间收录的11种图书馆学领域期刊作为本研究的数据来源,通过LDA主题建模进行了主题文本挖掘,并从热门研究主题与主题演化两方面对图书馆学近十年的研究状况进行了揭示。实验利用困惑度计算了模型的最优主题数,结果表明主题数为13时困惑度最低,最佳主题数确定为13。在热门主题发现上,实验利用主题强度阈值进行热门主题筛选,结果发现图书馆管理、图书馆理论、图书馆服务、用户研究、资源建设等主题属于图书馆学领域的热门主题。在主题演化方面,实验引入了时间因素,利用后离散演化方式进行了分析,并根据结果绘制出了13个主题10年来的强度演化趋势曲线,并按照主题趋势将主题分为了上升主题、衰减主题和平稳主题三类。其中,阅读推广、检索技术、开放获取为上升主题,图书馆服务、资源建设为衰减主题,而图书馆管理、评价方法、图书馆理论、用户研究、图书馆藏、知识管理、教育培训、综合性研究为平稳主题。

LDA主题模型应用在科学文献的研究当中,可以发现热门主题,对研究趋势进行研判,特别是基于科学文献全文或摘要的语料库形式,会大大增强学科领域研究热点的语义信息解释性[10]。本文对图书馆学领域的文献进行主题研究,证实模型可以实现对热门主题发现及演化的揭示,但是本文的研究方法也有待改进。首先,由于全文语料库的获取较难,本研究仅使用了文献摘要作为语料,因此会对LDA模型的内容挖掘效果产生影响;其次,在实际研究中,一篇文献可能分属多个主题,然而本文只选择了其中概率最大的主题作为文献主题,忽略了共同主题存在的概率。今后的研究中,将考虑从开放数据库中选择文献作为全文语料库进行主题分析,并采用多主题匹配方式进行更加深入的文献主题研究。

参考文献:

毛赣鸣.图书馆知识资本构成及其价值转移机制研究[J].图书情报工作,2006,50(7):77-81.

杨利超.我国图书馆学的主要研究热点,研究领域及趋势预测[J].图书馆理论与实践,2018(1):42-47.

李娜,侯林丽.我国图书馆学研究热点的可视化分析[J].新世纪图书馆,2016(7):85-90.

马海群.国内图书馆学研究进展与发展动向[J].情报资料工作,2017(1):12-16.

丁洋,张雪梅.从《图书馆》杂志看我国图书馆学研究主题的分布及演变[J].情报探索,2015(4):101-104.

向剑勤,赵蓉英.国内外图书情报学研究主题的知识图谱比较研究[J].情报杂志,2014,33(2):86-94.

冯佳,张云秋.基于LDA和本体的科学前沿识别与分析方法研究[J].情报理论与实践,2017,40(8):49-54.

邓淑卿,徐健.我国情报学研究主题内容分析[J].情报科学,2017,35(11):83-88.

WU H, WANG M, FENG J, et al. Research topic evolution in “Bioinformatics”[C]//Bioinformatics and Biomedical Engineering (iCBBE), 2010 4th International Conference on.IEEE,2010:1-4.

关鹏,王日芬.基于LDA主题模型和生命周期理论的科学文献主题挖掘[J].情报学报,2015,34(3):286-299.

SUGIMOTO C R, LI D, RUSSELL T G, et al. The shifting sands of disciplinary development: analyzing north American library and information science dissertations using latent dirichlet allocation[J].Journal of the Association for Information Science and Technology,2011,62(1):185-204.

BLEI D M, NG A Y, JORDAN M I. Latent dirichlet

allocation[J].Journal of machine Learning research,

2003,3(Jan):993-1022.

GRIFFITHS T L, STEYVERS M. Finding scientific topics[J].Proceedings of the National academy of Sciences,2004,101(suppl 1):5228-5235.

許天才,杨新涯,彭晓东.新一代图书馆管理系统的发展现状与趋势:2016年教育部高校图工委信息技术应用工作年会综述[J].大学图书馆学报,2016(6):5-9.

柯平.从科学管理到文化管理:关于图书馆组织文化的战略思考[J].大学图书馆学报,2013(3):44-49.

陈立华.研究范式的转换与创新:后现代图书馆学发展的原动力[J].图书馆学研究,2016(17):2-5.

任红娟.2004-2013年我国图书馆用户研究主题及其演变探析[J].图书馆工作与研究,2015(4):16-20.

李维,杨思洛.近十年我国高校图书馆与公共图书馆研究主题比较分析[J].图书馆,2015(8):49-52.

单斌,李芳.基于LDA话题演化研究方法综述[J].中文信息学报,2010,24(6):43-49.

范并思.阅读推广与图书馆学:基础理论问题分析[J].中国图书馆学报,2014,40(5):4-13.

范并思.公共图书馆阅读推广的发展趋势[J].图书馆杂志,2015,34(4):11-15.

郭进京,彭乃珠,张梦霞,等.2014年国际开放获取实践进展[J].图书情报工作,2015,59(9):119-126.

欧石燕,胡珊,张帅.本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J].图书情报工作,2014,58(2):5-13.

何胜,熊太纯,叶飞跃,等.基于语义网的高校图书馆学科知识服务方案研究[J].情报理论与实践,2017,40(2):107-110.

猜你喜欢

图书馆学
信息时代社会图书馆学的发展趋势
“创新与发展:新时代的图书馆与图书馆学”高端论坛暨《大学图书馆学报》2018年编委会在湖南大学举办
普及大学生信息素养教育,提振图书馆学学科地位
现代企业管理理论在图书馆学中的移植现象综论
国际图书情报学热点与前沿动态研究(2014—2015年)
韦棣华:中国图书馆运动皇后
21世纪以来国内对“美国图书馆学”领域研究综述
柳诒徵研究综述
图书馆学:开放的研究
图书馆学的过去、现在及未来