基于机器学习的中文论文自动分类

2018-01-30贾瑞强

大经贸 2017年12期

贾瑞强

一.引言

1.选题背景和意义

随着现代科技的发展，信息量在成几何级数膨胀，每天都有大量新的论文产生，纸张这些传统的存储介质已经不能满足现有的需求，构建数字图书馆势在必行。中国知网是我国目前比较成功的论文数字图书馆，构建数字图书馆就是将期刊论文进行电子化，电子化就必然会面临两个主要工作：期刊论文的格式必须有统一标准和期刊论文的分类管理。经过多年的努力，期刊论文现在已经形成了一套统一的著录标准，期刊论文的分类管理还基本是以人工分类为主。人工分类目前面临两个问题：一个是随着期刊论文数量的快速增长，人工分类显得心有余而力不足，人工分类每天能分类的数量是固定的，即使增加人力成本，想要赶上期刊论文增长的速度还是很困难的，这无疑给分类工作增加了很大的压力；第二个问题是人工分類存在一定的主观性，分类工作人员一般会通过期刊论文的标题和来源来确定论文的类别，比较少的阅读论文全文来对论文进行分类，因此分类的正确率受人的主观意识影响很大。鉴于这种情况的基础上，研究期刊论文的自动分类能够有效的解决以上两个问题，不仅可以减轻人工分类的压力，提高分类的效率，还能提高分类结果的正确率，减少主观因素的影响。。

二.模型的实现

1.1数据准备

首先将所有的论文通过python里的jieba模块进行分词，将出现的名词、形容词、动名词作为总词包，将在数理统计的论文里出现的词归结为数理统计词包，将在经济统计的论文里出现的词归结为经济统计词包，从数理统计包和经济统计词包各取10个高频词作为高词频包

词包结果图如下：

1.2 词包初探：从做成的词包，统计成词频数据，并做成词云图。

由词云图可以看出，数理统计的论文中，都是理论性的词语词频较高，如：数据、研究、应用、模型等词。而经济统计学论文中更偏经济学，如：经济、发展、分析等词出现频率较高。由此可以初步判定，通过词频的差别作为论文类别区分的特征是合理的。

1.3 建立模型

1.3.1 论文类别的预测

在模型识别和机器学习中的相关研究中，经常会将整个数据集合分成两个部分，分别是训练集合合测试集，假设X是集合全体，A是全集X的非空真子集，那么非空集合X、A则是集合A在全集X中的补集。于是可以在A上面做训练和分析，而几个X、A则用来做测试和验证。一开始的集合A被称作训练集，而他的补集A被称作是验证集或者测试集。这是一个重要的观点就是：只有训练集才可以使用在模型的训练之中，而测试集必须在模型训练完成后才用来评估模型的误差。

从验证结果中可以看出，正确率在大于90%，通过朴素贝叶斯模型预测论文类别，是可以行的。

【参考文献】

[1] 白如江基于粗糙集和神经网络的文本自动分类方法现代图书情报技术，：白小明，邱桃荣.

[2] 基于和算法的科技文献自动分类研究微计算机信息，：包剑，冀常鹏，李义杰.

[3] 基于矢量空间模型的文本自动分类系统研究计算机系统应用，：陈玉.

[4] 多类别科技文献动分类系统硕士学位论文湖北：华中科技大学，楚存坤，李韬.

[5] 模糊聚类技术在文献自动分类系统中的应用现代情报：刁倩，张惠惠，玉永成，何骥.endprint