APP下载

基于TF- IDF 的网络地理文本信息分类研究

2020-05-12王英杰

科学技术创新 2020年10期
关键词:分词权重分类

王英杰

(北京建筑大学 测绘与城市空间信息学院,北京100044)

网页文本信息是非结构化数据,文本格式自由多样,内容更新频繁,在不同文章环境下容易产生不同的意义。地理学名词汇具有不同于基础词汇的形式与用法,往往蕴含着丰富专业信息,将地理学名词引入文本分类可以有效提高对地理相关文本的分类结果。因此,本文针对文本分类提出了基于地理学名词的特征权重计算方法,在分词过程中识别地理学名词使其不被分割,在向量空间模型表示中利用地理学名词,重新分配特征权重从而提高分类器的性能,即提高与地理相关的文本信息分类的正确率。

1 基于TF-IDF 的地理文本分类设计

1.1 文本分类原理

文本分类或者称为自动文本分类,是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本分类另外也属于自然语言处理领域。本文中文本和文档不加区分,具有相同的意义。

文本分类的形式化定义如下:

1.2 文本分类设计

地理学名词反映了地理学内容的广泛性,还反映了中国地理现象和中国地理学研究的特色,并对所有选定的地理学名词进行了科学定义。针对地理学名词的特点提出了本文文本分类的技术路线。

(1)利用爬虫技术爬取百科平台文本数据,将文本统一化处理,得到待分类文本信息。

(2)在文本预处理过程中加入地理学名词词典,利用地理学名词重新对文本分词,一并得到统计量。

(3)基于地理学名词提出新的特征权重计算公式,得到全新特征矩阵。

(4)在已有的基础上使用K 近邻算法作为分类器训练方法,通过分类器得到文本分类。

2 基于地理名词的TF-IDF 特征权重计算方法

以往TF-IDF 算法基本关注是特征项的词频和逆文本频率这两个指数,而词频和逆文本频率对于地理相关文本的特殊性是没有任何意义的,所以根据文本中地理名词的特殊性,使用其加入语料库,可以解决文本分词过程中出现的歧义问题,从而有效地提高文本分词的准确率。并且根据特殊的语义产生的分词能够更有效地描述文本,使文本的向量空间模型更准确。因此本文针对现有的TF-IDF 算法,提出了基于地理学名词的改进策略。

针对特征项长度改进权重:特征项的字数可以衡量该特征项是否重要,在文本分词后的统计结果中,单字是频率最高的,而多字的特征项则频率较低。而且对于特征项而言,单字不能传达有效的信息且难以用来作为文本信息的特征。而多字特征项却本身所传达的信息量多可以作为文本信息的特征,因此这一指标可以用来衡量特征项的权重。通常较长的特征用来表示特定的信息,例如“天安门”所传达的信息就是特定地点,因此利用特征项长度改进权重。

本文基于地理学名词在地理相关文本中的重要性及特殊性对其基础上改进,提出了改进的权重算法公式:

其中len(t)是特征项的长度,将分子,分母同时加上len(t)将会提高特征项t 在文本d 中的权重。

3 实验与分析

3.1 实验流程

基于改进特征项权重的文本分类流程:

(1)文本预处理得到文本分词和文本词典。

(2)特征处理包括特征频率统计,特征评估,特征加权。

(3)将文本建立向量空间模型(向量表示)。

(4)输入分类器得到分类结果。

实验使用开源jieba 工具对原始数据进行分词处理,利用传统TFIDF 算法作为比照实验。

3.2 结果分析

通常文本分类的评价指标为精度(Precision)、召回率(Recall)和F1 得分(F1 score)。

精度(P)是正确分类样本占总分类样本数量的百分比,召回率(R)是正确分类样本占某分类总样本数量的百分比,F1 值是平衡查准率和查全率两个不同分类效果指标,对某一类别。

类别 传统TF-IDF (实验1) 传统TFIDF 结合改进权重 (实验2) P R F1 P R F1 1 86.65 87.94 86.96 91.11 92.45 92.35 2 89.97 89.71 89.73 91.52 92.79 91.03 3 81.73 84.62 82.08 91.79 91.59 92.3 平均值 86.12 87.42 86.26 91.47 92.28 91.89

从上表中可得实验二的准确率和召回率均比实验一高且F1 得分平均值比实验二的F1 得分平均值高5.54%,通过实验对比可得,地理学名词加入文本预处理可使分类有所提升,同时可以减少特征项的数量使向量空间模型的纬度降低。

4 结论

本文基于传统TF-IDF 算法,提出一种新的地理文本分类方法,根据地理特征名词、和特征项长度因素改进了传统TF-IDF 中的权值计算,针对不同特征项采取不同计算方式。最后通过数据分析及评价指标数值验证该方法合理有效且效果较好。然而该方法尚未深入考虑待分类文本中未识别的地理特征项如何提取。

猜你喜欢

分词权重分类
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
分类算一算
分词在英语教学中的妙用
权重常思“浮名轻”
结巴分词在词云中的应用
结巴分词在词云中的应用
为党督政勤履职 代民行权重担当
权重涨个股跌 持有白马蓝筹
教你一招:数的分类
说说分类那些事