基于关联规则的图书馆中文文本自动分类方法

2020-06-27姚亮亮

科技资讯 2020年14期

姚亮亮

摘要：当今社会文献的生产和增长的速度越来越快，社会文献的类型也变得丰富复杂。社会文献的时效性强导致了传播速度加快，文献的内容也出现了交叉、重复等错误，这些问题使人们在查阅和利用上变得更加不方便。针对上述问题，设计基于关联规则的图书馆中文文本自动分类方法。从这些图书馆产生的问题入手，计算图书馆中文文本，设计数据预处理按预定规则收集处理信息和提取关键词检索文本信息的方法，利用计算机解决问题，方便了图书馆的自动分类和识别。

关键词：关联规则自动分类图书馆

随着数字化时代的到来，人们获取信息的方式不仅局限于纸质书籍上或传统图书馆内进行知识的浏览。面对巨大的储存量和扩散信息的困难，出现了包含种类和形式丰富的数字图书馆[1]。数字图书馆在表现各种新型的信息资源和信息传播服务的同时，也出现了很多关于管理分类的问题。这就用到了与网络通信技术相结合的、对图书馆的各项业务实行自动控制的图书馆自动化管理方法。图书馆自动化运用电脑来处理图书馆的业务及相应服务，将收集到的文件中有关课题归于一个体系组合成图书馆分类系统。由于各具体网络所拥有的功能不尽相同，在对图书馆的中文文本进行自动分类时显得繁琐且容易出错，引出关联规则这一方便管理的方法。关联规则涉及到很多领域，关联规则的应用拓宽了支持管理决策的范围。围绕关联规则的研究主要集中在扩展能够解决问题的范围。基于这种在大量数据中挖掘出一个事物与其他事物之间的相互依赖性和关联性，反映有价值的数据项之间相关关系的技术，对图书馆中文文本分别用这些方法进行自动分类。

1 基于关联规则的图书馆中文文本自动分类方法设计

1.1 计算图书馆中文文本

可以将图书馆中的每一个文本看作一个项目，将图书馆的众多文本看作一个集合。利用关联规则的Apriori算法和FP-growth算法计算图书馆内的中文文本。Apriori算法多次扫描交易数据库，每次利用候选文本频繁集产生文本频繁集;而FP-growth则利用树形结构，无需产生候选文本频繁集，直接得到文本频繁集，大大减少扫描文本交易数据库的次数，从而提高了算法的效率。

设I={i1，i2…，in}为所有文本的集合，设A是一个由多种文本构成的集合，称为文本集。事务T是一个文本子集，每一个事务具有唯一的事务标识Tid。事务T包含文本集A，当且仅当AT。如果文本项集A中包含k个文本项目，则称其为k文本项集。D为文本数据库，文本集A在文本数据库D中出现的次数占D中总文本的百分比叫作文本集的支持度（support）。如果文本集的支持度超过用户给定的最小支持度阈值，就称该文本集是文本大项集。

关联规则就是形如XY的文本逻辑蕴含关系，其中XI，YI且XY=Φ，X称作文本隐性规则，Y是线性文本规则，对于文本关联规则XY，存在支持度和信任度。支持度是指规则中所出现模式的频率，如果文本数据库有s%的文本包含XY，则称关联规则XY在D中的支持度为s%，实际上，可以表示为概率P（XY），即support（XY）=P（XY）。信任度是指蕴含的强度，即文本D中c%的包含X的交易同时包含XY。若X的支持度是support（x），规则的信任度为：support（XY）/support（X），这是一个条件概率P（Y|X），即confidence（XY）=P（Y|X）图书馆中文文本分类概率[3]。

1.2 数据处理

数据处理是在总结事物的特性基础上，按预定的规则收集处理信息，为具体应用服务的分类方法。由于计算机技术的发展，越是庞大的数据项目，越是能体现数据处理的高效性。现代计算机数据处理运算速度和效率都比其他任何工具都强大。计算机的可靠逻辑判断能力能实现信息处理自动化[4]。计算机的存储器可以存储大量的数据和程序，能计算数值数据和非数值数据，体现了计算机自动化程度高的特点。

1.3 提取关键词

为了能向用户提供信息服务的多功能开放系统，找出整个文献信息中组织存储的特定信息，然后根据用户需求进行信息检索。根据一定社会需要和为达到特定信息交流的目的，具有信息存贮与检索功能的系统称为信息检索系统。用于检索相关文献信息线索的手工检索阶段主要指文摘、题录、目录、索引等以书目数据库为核心的书目检索。检索系统存储的是以目录、索引、文摘等为对象的信息，它们是文献信息的外部特征与內容特征的描述集合体。信息用户以文献中的事实为对象，通过检索获取有关某问题的一系列相关文献线索，也可称为提取关键词。明确寻找范围并按顺序方便了图书馆的自动分类和识别。如果检索标识与文献的存储标识相一致，就可得到“命中文献”。

1.4 实现图书馆中文文本分类

关联规则的目的就是在一个数据集中找出项与项之间的关系。在对图书馆中文文本进行分类时，利用数据处理就可以以宇宙为标准分类可分为人文类图书和自然类图书;以图书基本学科属性为标准分为A哲学、B宗教、C伦理、D逻辑、E美学、F心理、G语言、H文学、I艺术、J政治、K经济、L军事、M法律、N教育、O体育、P传媒、Q资讯、R管理、S商贸、T历史、U考古、V民族、W生活、X财经、Y统计、Z社会;以图书品种属性划分为作品、理论著作、应用著述、学术（注释、评析、争鸣、研究、考证、翻译）、教学（学校教材、社会培训教材、自修教材、参考资料、讲义、学习资料，普及读物、实习实验和考试习题集、教学大纲）、帮助（词典、百科、类书、政书、年鉴、手册、书目、索引、文摘、表谱、图录、标准）;以图书附属学科标准划分;以图书功能属性划分;以图书语言划分为中文图书和外文图书;以图书时序划分。排架方法以主题字顺法为首选，中文书刊可以汉语拼音查号法为顺序。在遵从基本级别律前提下，大型图书馆、图书城如有必要也可以自定义图书出版、编辑形式、内容、文别、专题、年代、书型等标准进行排架。在该图书馆排架准确、整理及时的情况下确定想要找的文献内容，敲定一个关键词，可以是书名（检索中的题名项），也可以是著者、出版社等信息，还可以是任意词组。只要尽可能跟要找的内容相关，根据检索的结果，筛选最符合要求的文献并记住分类号去数据库进行搜索。

2 结语

文献信息通过图书馆的整合和处理、进行科学分析后的引导，形成有秩序规律、条理清晰的信息流，更好地交流与传递文本资源，根据数据管理和提取关键词对图书馆中文文本自动分类，使读者更好地利用它们。

参考文献

[1] 杨亚，易远弘.图书馆海量学术资源自动分类模型研究[J].知识管理论坛，2018，3（3）：172-179.

[2] 蔡代纯，谭新良.文本自动分类技术及其对图书馆学的影响[J].现代情报，2006（9）：13-14.

[3] 艾楚涵，姜迪，吴建德.基于主题模型和关联规则的专利文本数据挖掘研究[J].中北大学学报：自然科学版，2019，40（6）：524-530.

[4] 杨建林，刘扬.基于关联分类算法的PU学习研究[J].数据分析与知识发现，2017，1（11）：12-18.