APP下载

数字人文环境下《中国图书馆分类法》应用探索

2024-02-09姜鹏

图书馆研究与工作 2024年1期
关键词:中国图书馆分类法数字人文知识图谱

摘 要:数字人文环境下,《中国图书馆分类法》(以下简称《中图法》)不仅仅是组织文献分类以及编制分类检索的工具,在信息组织和信息检索方面,尤其是在精选信息方面仍发挥着重要的作用。文章以《中图法》及《中国分类主题词表》为基础,结合《全国报刊索引》数据库收录文献,在分析用户需求基础上,构建相关知识图谱,并尝试以《中图法》为桥梁,从用户角度出发,在《中图法》展示、检索、研究热点方面探索数字人文环境下《中图法》的应用。

关键词:《中图图书馆分类法》;知识图谱;知识组织;数字人文

中图分类号:G254.1文献标识码:A

Exploring the Application of the Chinese Library Classification System in the Digital Humanities Environment

Abstract In the digital humanities environment, the Chinese Library Classification System (referred to as "CCL") serves not only as a tool for organizing document classification and retrieval but also plays a significant role in information organization and retrieval, especially in the curation of selected information. This article, based on CCL and the Chinese Thesaurus (CT), along with documents indexed in the National Newspaper Index database, constructs a relevant knowledge graph by analyzing user needs. It attempts to utilize CCL as a bridge and explores its application in the context of the digital humanities environment from a user-centric perspective, focusing on aspects such as display, retrieval, and research trends.

Key words Chinese Library Classification System (CCL); knowledge graph; knowledge organization; Digital Humanity

1 引言

數字人文环境下知识组织发挥重要的作用[1],它充当用户与数字人文领域资源之间的桥梁[2],有利于发掘文本资源中无法看到的模式和联系,同时为数字资源挖掘分析提供了基础[3]。

早期的知识组织以图书文献为对象,突出文献分类体系及方法的研究[4]。数字人文时代对知识组织提出了新要求,不但需要展示原有知识、结构等,更需要诠释和发现新的知识和意义[5]。文献分类体系仍是知识组织的重要组成部分,其作用不仅仅局限于文本分类,而是提出了一种新的思路,有利于揭示文献隐含的内容以及文献之间的关联[6]。

本文以《中图图书馆分类法》(以下简称《中国法》)及《中国分类主题词表》(以下简称《中分表》)为基础,结合《全国报刊索引》数据库收录数据以及长期分类应用实践,有针对性地探索数字人文环境下《中图法》的应用。

2 《中图法》简介

《中图法》是我国应用最为广泛的一部文献分类体系[7],目前使用的是第五版。它以科学分类和知识分类为基础,结合文献内容特点以及外表特性进行逻辑划分的严密的等级式分类体系,能够将知识的内在逻辑客观反映出来。《中图法》既能反映学科专业的发展带来的变化,又贯彻了连续性和相对稳定性,不仅可以类分现代文献,也可用以类分近代文献。曹之先生认为学术发展的基础性要求我们把古代学术同现代学术紧紧联系在一起,而《中图法》有利于古为今用,更有利于我们“辨章学术,考镜源流”[8]。

《中图法》配套有分类与主题一体化表——《中分表》,用以标识类目和主题词概念之间的语义关系。《中分表》通过类目实现主题词的聚集,同时利用主题词对类目作进一步的注释与说明[9]。此外,隐含在《中分表》中的人、时、地等信息,可以为信息抽取提供一定的助力。

3 《中图法》研究现状

目前对《中图法》的研究主要集中在对分类规则及方法[10-11]、自动分类技术研究[12]、类目修订[13]、不同分类法之间比较映射[14]等方面,而数字人文环境中《中图法》具体的应用,相关研究相对较少,主要集中在《中图法》可视化、基于《中图法》及《中分表》构建相关本体等方面。

卜书庆在《中图法》最终用户版总体构思中,以资源分类排架与分类检索功能在一部分类法中分离的思想,从类目等级树状显示与图形化显示结合的角度,提出分面体系可视化展示方案[15]。黄淑勇参考图书馆主题分类法思想和读者检索习惯,构建书籍本体模型,并进行部分功能操作实验[16]。高斌从知识组织的目的、分类理论、分类难点及应用、知识本体应用等方面探讨了网络发展背景下知识组织的新发展,并强调在知识组织的发展中,分类理论思维训练处于重要地位[5]。张云中、张丛昱以《中分表》和大众分类法为研究对象,在分析了二者互补性机理后,基于互补融合的视角提出了利用二者构建本体的方法模型,并以《中分表》散文主题与豆瓣读书中资源为例,展示并构建散文领域本体[17]。李晓菲,郁奇以彝族典籍为例,在已有彝文古籍分类的基础上,探讨了如何构建少数民族古籍本体,从而实现古籍知识管理和知识创新[18]。段塞月以《中图法》为框架基础,专题性文献分类体系为类目作为补充,构建了蒙古族文献分类框架,并以此为基础构建蒙医学领域本体以及可视化实例[19]。周贞云,邱均平针对中图分类号缺少学科分类和文献计量的应用研究角度出发,聚焦我国知识图谱研究,以CNKI文献作为数据样本,根据文献数据集、中图号集合、中图号矩阵的构建原理,实现了中图分类号可视化的4种应用[20]。

4 《中图法》知识图谱构建

4.1 实体类型及属性

知识图谱是实现语义检索的基础和桥梁,是通过关系链接而形成的网状知识库;它一方面能够通过推理实现概念检索,另一方面以图形化的方式向用户展示经过分类整理的结构化知识[21]。《中图法》以及《中分表》除了可以将文献等资源成体系的组织起来,发挥文献组织载体的作用,其本身也是凝固的、成体系的语义知识网络,从理念和作用上与知识谱图不谋而合。本文基于此思路,构建分类体系相关知识图谱,采用“类目”“主题词”“文献”的形式来进行表达,文献又按载体形态细分为期刊、报纸、图书,概念上设置类目、主题词、期刊、报纸、图书五种实体。

属性是实体的重要元素,《中圖法》每个类目由类号、类名、类级、注释和参照组成[22]18,其类目结构如图1所示。其中类号为类目的标记符号,决定类目在分类体系中的位置;类级是类目的级别;注释和参照是对类目的含义及内容范围、分类方法以及和其他类目关系等说明。主题词主要包括主题词汉语拼音、款目主题词、注释、主题词英译名、对应分类号、参照关系词;期刊、报纸、图书等文献实体一般包含作者、题名、出版者、出版时间、出版地等属性。

4.2 实体关系类型

实体关系指某一时间段内实体之间存在的关系[23]。《中图法》类目之间存在纵向关系和横向关系。其中纵向关系主要是从属关系,即上位类和下位类关系;横向关系主要是类目内容上互相关联,分为相关关系和交替关系。此外,为了增强类表灵活性,压缩类表篇幅,《中图法》运用了大量的类目仿分[24],不同类目之间又存在仿分关系。《中分表》用“用(Y)”“代(D)”“参(C)”“属(S)”“分(F)”“族(Z)”等参照项描述词间关系,其中“用(Y)”“代(D)”项表示等同关系,“参(C)”项表示相关关系,“属(S)”“分(F)”“族(Z)”项表示从属关系。本文主要用“用”“代”“参”“属”作为数据关系。文献和类目之间存在从属关系,关键词和类目之间存在指向关系,不同实体之间通过关系形成的概念图谱详见图2。

5 数字人文环境下《中图法》应用探索

5.1 数据资源选取

《全国报刊索引》数据库创建于1955年,其文献收录范围涉及近代报纸、期刊、图书全文数据以及海量现刊索引数据[25],针对每种文献制定相应完善的元数据规范,并进行细颗粒精细化加工。此外,《全国报刊索引》还拥有专门的文献标引团队,长期依托《中图法》进行数据标引工作,尤其是现刊篇名库数据,标引到篇。这都为本次探索提供了良好的数据基础,减少了数据整理、清洗等工作。而用户浏览、检索等记录,也有利于分析用户需求,为本次探索提供一定参考。

5.2 《中图法》知识图谱展示

《中图法》最终立足点是服务用户,用户的了解和接受情况在某种程度上决定了《中图法》的推广和发展。为了解用户对《中图法》的了解情况,笔者在高校及图书馆共30余家单位中通过问卷形式进行调研,发现除图书情报背景专业人员(含图书馆工作人员)外,86%的调研对象虽然在检索或浏览信息过程中使用过《中图法》,但对《中图法》仍不了解或不知道使用。《中图法》本身类目体系庞大,存在借号、复分等多种关系,类目的含义不是简单的由类名和类决定,而是由整个《中图法》语义空间体系进行限定[22]24,类目间存在相互关联和制约,传统的层级式树形方式很难将《中图法》空间体系形象展示出。

知识图谱是知识工程领域的最佳实践[26],通过可视化技术等方式将经过梳理过、客观的或者专家的成体系的内容以脉络的形式呈现给用户,承担着知识推荐、传承的作用,在彰显资源的生动性上发挥着无可比拟的作用[27]。如图3所示,将《中图法》以图谱的形式展示出来,较为完整地呈现出《中图法》相关的体系结构以及内部关联,为用户提供《中图法》相关知识服务,给用户以直观的感受,增加用户对《中图法》的了解。

5.3 《中图法》在检索方面的应用

数字人文环境下,用户群体和用户需求、动机与信息行为等逐步发生变化[28-30]。目前数据检索仍是最基本且最主要的需求,并从简单的检索转向知识的有效获取[31];需要一定的文献组织方式,以面对多、散、乱的文献分布情况,对收集文献、发现材料及线索的要求不断提高。

如图4所示,将《中图法》与用户检索结果相结合,辅以文献基本信息并以可视化形式进行展示,充分发挥其文献组织的作用,将分散的资源连接成资源网络,实现原文和相关知识点的链接,揭示文献所蕴含的知识单元,增强文献知识之间的关联关系。分面检索目前已是常用的检索功能之一。学科、类别或热门关键词已成为分面检索的重要一个分面[32]。如图5所示,可将《中图法》《中分表》与分面检索相结合,更加形象地展现文献分布情况,在满足用户检索和知识组织需求的同时,还能够给用户提供较为清晰的阅读路线和视觉引导,满足其对数据的探索、浏览和视觉享受[33]。

5.4 基于《中图法》的研究热点揭示

研究热点是被用户广泛关注的具有重要影响力的研究话题。在数据库方面,这些内容某种程度上可以通过用户检索、浏览、下载等记录反映出来;《中图法》可以呈现文献在研究主体、研究内容上的相似度,一定程度上也可以呈现出研究热点分布[34]。二者可以进行有效的结合,如将用户检索、浏览、下载记录,通过N-gram统计,结合《中分表》、关键词等内容,获得研究热点“宋庆龄”,以知识图谱形式将宋庆龄文献所涉及的类目与文献展示出来(见图4),同时可以对研究热点所涉及的主题词或关键词等按照类别进行共现分析(如图6所示),方便用户更准确地了解热点整体分布,为研究人员及专家学者提供研究趋势、前沿主题或潜在模式方面的参考。

《全国报刊索引》提供近代文献原文数据以及现刊索引数据,以现刊索引数据为基础,以《中图法》为桥梁,结合热点共现分析、类目体系与核心作者分布以及合作关系、核心期刊研究分布等[35-36],将研究热点与原始文献相勾连,打通现刊索引数据和近代文献原文数据,形成“研究热点-类目-文献”知识图谱,提高现刊索引数据利用率的同时,使用户的视角从单独的文献上面转而聚焦在某一领域,有助于用户更好地把握学科研究活动的深度和广度,在为用户提供参考的同时,也减少了在文献检索中所花费的时间。

此外,还可发挥《中图法》在文献计量方面的作用,通过计量发现新问题,促进对文献内容的新理解[37];将《中图法》与用户查询浏览信息进行结合,辅助进行用户画像,进而在为用户提供较为精准的趋势分析、智能推荐等方面发挥作用。

6 结语

本文依托知识图谱相关技术,构建《中图法》相关知识图谱,并尝试以《中图法》为桥梁,从用户角度出发,在《中图法》展示、检索、研究热点方面探索数字人文环境下《中图法》的应用。目前涉及实体仅有类目以及资源,后续会不断完善作者、机构等实体。此外,数字人文环境下如何通过图谱与用户更好地进行交互,给用户带来更好的体验并及时接受用户反馈是研究的重点[38],后续会在界面友好型、交互性等方面进行研究。

参考文献:

[1] 陈志新.分类法研究的十五个问题——我国2009至2016年分类法研究综述[J].情报科学,2018,36(6):149-155.

[2] 司莉,郭财强.基于内容分析的数字人文领域中知识组织价值体现研究综述[J].图书情报工作,2022,66(13):127-137.

[3]朱丽雅,张珺,洪亮,等.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022,7(1):87-100.

[4] 蒋勋,朱晓峰.大数据环境下领域知识组织的发展与展望[J].科技情报研究,2022,4(2):29-36.

[5] 高斌.网络发展背景下的知识组织新思考[J].图书情报导刊,2020,5(1):26-32.

[6] 贾君枝.面向数据网络的信息组织演变发展[J].中国图书馆学报,2019,45(5):51-60.

[7] 卜书庆.网络环境下《中图法》发展及第五版述要[J].中国图书馆学报,2011,37(3):92-99.

[8] 丁登花.近十年古代图书分类研究述评[J].文教资料,2012(19):87-88.

[9] 孙迪.《中国分类主题词表》(Web版)学科主题词相關问题探析[J].图书馆理论与实践,2019(7):62-66.

[10] 金莉荣,杨静.医药、卫生类文献分类难点探讨及解析[J].内蒙古科技与经济,2021(21):150-152.

[11] 刘莹.《中国图书馆分类法》(第五版)中乐谱文献分类的优化[J].图书馆研究与工作,2023(1):44-49.

[12] 沈立力,姜鹏,王静.基于BERT模型的中文期刊文献自动分类实践研究[J].图书馆杂志,2022,41(5):109-118,135.DOI:10.13663/j.cnki.lj.2022.05.014.

[13] 李军婷.《中国图书馆分类法》(第5版)“TS19染整工业”类目存在的问题及修订建议[J].内蒙古科技与经济,2022(11):153,156.

[14] 徐雯,徐宜浩.大众分类法与传统文献分类法的比较研究:以知乎话题和《中国图书馆分类法》为例[J].江苏科技信息,2020,37(36):1-3.

[15] 卜书庆.《中图法》最终用户版体系结构及可视化研究[J].图书馆建设,2015(6):27-31.

[16] 黄淑勇. 基于大众分类法的书籍本体构建研究[D].郑州:郑州大学,2015.

[17] 张云中,张丛昱.利用《《中分表》》与大众分类法构建本体:基于融合的视角[J].情报科学,2016,34(10):49-55.

[18] 李晓菲,郁奇.基于分类的民族古籍本体构建与知识创新:以彝族典籍为例[J].大连民族学院学报,2008(5):465-469.

[19] 段赛月. 基于书目分类体系的蒙古族文献本体构建研究[D].郑州:郑州大学,2021.

[20] 周贞云,邱均平.中图分类号的学科应用及其可视化:以我国知识图谱研究为例[J].现代情报,2022,42(5):3-12,68.

[21] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

[22] 国家图书馆《中国图书馆分类法》编辑委员会.《中国图书馆分类法》第五版使用手册[M].北京:国家图书馆出版社,2012.

[23] 欧阳剑,梁珠芳,任树怀.大规模中国历代存世典籍知识图谱构建研究[J].图书情报工作,2021,65(5):126-135.

[24] 周文超.《中国图书馆分类法》(第五版)仿分类目再探讨[J].图书馆建设,2020(6):127-133.

[25] 上海图书馆《全国报刊索引》编辑部.全国报刊索引[J].图书馆杂志,2020,39(6):2-6.

[26] 赵一鸣.知识图谱是一种知识组织系统吗?[J].图书情报知识,2017(5):2.

[27] 邓君.专题导语:数字人文视角下人文资源知识聚合与知识发现研究[J].现代情报,2022,42(2):3.

[28] SHAHROM M Z,MOHD S A,AHMAD K A M I,et al. Motivation for Research and Publication:Experience as a Researcher and an Academic[J].Procedia - Social and Behavioral Sciences,2011(18):213-219.

[29]王战平,何文瑾,谭春辉.基于质性分析的虚拟学术社区中科研人员合作动机演化研究[J].情报科学,2020,38(3):17-22.

[30] 段青玉,王晓光,梁梦丽.文史研究生的数字人文学术动机、需求与学术原语[J].图书情报知识,2023,40(1):1-13.

[31] 姜冠兰,张敏.分类主题一体化词表的国内研究进展述评[J].数字图书馆论坛,2020(8):15-21.

[32]胡昌平,林鑫.科技文献检索中基于主题词表分面化改造的分面构建[J].情报学报,2015,34(8):875-884.

[33] 侯西龙,王晓光,段青玉.数字人文视域下文化遗产图像远读可视化调查与分析[J].图书情报工作,2022,66(3):54-64.

[34] 朱晓峰,蒋旭牧,张卫.领域知识组织研究的历史演化与未来展望[J].情报资料工作,2021,42(5):23-31.

[35] 孙雨生,彭梦媛,刘涛.学科知识图谱及其构建机理[J].科技管理研究,2022,42(20):157-162.

[36] 王丽美,宋乃庆.近二十年中国数学教育研究的热点主题:基于科学知识图谱的实证分析[J].数学教育学报,2022,31(5): 65-70,75.

[37] 胡恒,朱浒.数字人文与清代官僚政治史研究[J].史学月刊,2023,507(1):110-115.

[38] 李文琦.数字人文中的交互式可视化应用研究综述[J].图书情报知识,2022,39(5):42-55.

作者简介:姜鹏,上海图书馆工程师,研究方向为文本分类、数字人文。

收稿日期:2023-08-17本文责编:孙晓清

猜你喜欢

中国图书馆分类法数字人文知识图谱
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文
对《中国图书馆分类法》(第五版)F经济类目修订的探讨
大规模古籍文本在中国史定量研究中的应用探索
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
图书馆公安文献分类研究