基于改进TFIDF算法的文本特征选择和聚类分析

2023-11-09赵军愉柴小亮李士林徐松晓王强

微型电脑应用 2023年10期

赵军愉, 柴小亮, 李士林, 徐松晓, 王强

(1.国网河北省电力有限公司保定供电分公司,河北,石家庄 050021;2.国网河北省电力有限公司,河北,石家庄 050021)

0 引言

随着当前互联网通信技术的快速发展,促进了各类通信工具与软件的开发与推广,产生了微信、微博、知乎、头条等各类社交与资讯平台,并在上述系统平台中产生了大量文本数据[1-3]。T.Y.Lin设计了一种全覆盖模型并进行了粒计算测试,属于一类特定的部分覆盖模型,苗夺谦等[4]利用上述模型对多粒度问题进行智能分析,极大降低了复杂问题的求解难度,实现信息处理效率的大幅度提升,同时也为推广相关技术理论起到了一定的参考作用。国内学者李顺勇等[5]通过多粒度粗糙决策的方式建立属性约简算法,能够满足对多粒度条件进行属性约简的处理要求。杨田等[6]在WANG等[7]提出的属性约简算法基础上进行分析得到存在高复杂度的二元关系属性约简算法,经过特例分析大幅度减小了时间复杂度。李兵洋等[8]主要从降低约简冗余属性的层面分析,选择合适的属性权值以或合适的阈值来达到上述效果,最终构建了包含融合属性权重的优化约简方法。CHEN等[9]主要对覆盖决策过程的一致性进行了分析,并根据覆盖决策确定了知识约简。JING等[10]利用多粒度视图方法对增量属性进行了约简处理,结果发现能够满足大数据的快速约简。谢珺等[11]设计了全覆盖粒数学模型,可以同时实现知识约简并满足属性重要度分析要求,采用全覆盖粒知识约简的方式对文本特征实施降维,最后通过全覆盖粒属性特点实现文本的聚类分析。

根据以上关于全覆盖粒的文献,本文采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析,显著改善了聚类结果;根据不同特征选择方法对比结果判断算法有效性。

1 改进TFIDF算法

1.1 传统TFIDF算法

TFIDF算法属于向量空间模型中用于特征词分析的一个重要算法[12-13]。IDF属于逆文档频率,随着文档数量不断增加,该参数也发生了持续降低的趋势,采用该特征词无法实现文档类别进行准确区分的目标。TF为词频,随着特征词频率的提高,对应的权值也越大,可以判断此时该特征词达到了更强的文档区分性能。以下为TFIDF计算式:

(1)

式中,t是第m篇文档出现词t的频率,N为所有文档的数量,n是含有词t的文档数。

利用TFIDF算法对均匀状态的词进行高效过滤,但也需注意此算法具有较大缺陷需要克服,进行贡献度计算时只分析特征词频率的影响,并未针对特征词位置与词性进行研究,处于不同的词性与位置条件下,特征词实际表达的含义也存在明显差异。其中,名词与动词可以获得比形容词更强的主题表现力,对文档达到更精确的表达效果,而当词语出现在标题区域时则可以获得比正文区域更重要的意义,对上述情况的各类词需将其与常规词区分处理。

1.2 TFIDF_SP算法

针对TFIDF算法存在的缺陷,本文设计了一种经过改进后的TFIDF_SP算法。通过权重系数综合分析词性与位置并建立复合权值,计算得到特征加权并将其与TFIDF方法进行结合处理,由此区分文档内处于不同部位的特征词重要性。以下给出了对应的计算式:

(2)

其中,tk=tk1+tk2。

(3)

式中,tfi,j是对特征词进行权重调整得到的词频,λj属于词性权重系数。其中,名词在λ=3时达到最优,动词在λ=2时最优,其他词在λ=1时达到最优,tk是文档i中的词j频率,u1、u2依次为词在标题与正文区域下的权重系数,取值分别在4与1时获得最佳结果,tk1、tk2代表词j在标题与正文条件下形成的词频,l是第i篇文档内包含的各个词的数量总和。利用对特征词进行词性与位置加权归一化,并将结果拓展,特征词除了频率较高以外,还可以更加高效体现出文本的结构特点。

1.3 bLDA主题模型

LDA属于一种典型概率模型,对高维文档集合进行映射生成维度更低的潜在语义空间,从而将文档表示成不同主题的混合形式,本次选择词空间分布作为主题,对特征词进行软聚类分析,再通过抽象方法获取文本内容。在LDA主题模型基础上进行扩展得到bLDA主题模型,按照伯努利分布的形式确定各词的背景与先验主题。

使用bLDA主题模型进行分析时,需通过GibbsSampling推理的过程对特征词wi进行主题z测试。以下为各参数的采样计算式:

(4)

p(zi=k|zi,x)∝

(5)

(k=1,2,…,n)

式中,zi对应词特征i的主题变量,n(t)为第m篇文档内词t出现的频率,n(k)为主题k词频,n(0)为第m篇文档形成的主题k(k=0)词频,n为主题数量,V为文档集包含的所有词数量,lamada为背景主题先验概率,βt与αk依次对应词t与主题k狄利克雷先验分布结果。

2 文本流程

2.1 文本特征粒化

按照全覆盖粒知识约简的方式对以上特征词集实施约简,从中选择可以有效表达文档并且包含有用信息的特征词集,从而同时实现减小复杂度以及增加精度的效果。

文本特征算法的具体处理过程如下。

从文档集N中选择特征词集D作为输入,以经过约简得到的特征词集core作为输出。

第一步:对特征词集进行数据处理确定中心center(D),之后再计算得到粒度熵I(D)。

第二步:以core(D)表示经过约简处理得到的特征词集,同时计算文档集Di重要度SigD。

第三步:判断I(core(D))=I(D)是否满足条件,当符合判断条件时则处理过程结束,由此得到的core(D)属于最小粒约简;反之,重新跳转到第四步。

第四步:以P表示core(D),再把文档集结算结果加入P中。

第五步:判断是否满足I(P)=I(D),当结果满足时则停止处理过程,由此得到的P属于特征词集D约简;反之继续执行第四步。

2.2 算法流程

对特征词进行加权处理后虽可以达到优异文档表达能力,能够有效克服特征稀疏性的问题,但优异该处理方法具有明显的高维特征,导致计算量大幅度增加,整个处理过程非常复杂,最终引起聚类精度的降低。选择全覆盖粒知识约简方法进行处理时可以控制约简前后处于同样的特征表达状态下,实现计算复杂度的显著减小。按照以下步骤对文本特征进行全覆盖粒计算。

其中,特征词集通过TFIDF_SP算法进行计算作为输入,以经过约简的特征词集加权作为输出。

第一步:以TFIDF_SP算法获得特征词集内概率在0以上的词置1,生成取值等于0或1的特征词集。

第二步:粒化取值等于0或1的特征词集,再对特征粒进行约简处理。

第三步:对特征集进行加权处理,同时保留约简部分,再对其按照min-max方式实施归一化,由此获得约简特征词集。

各流程见图1。

图1 算法流程

3 实验结果分析

3.1 实验语料

通过搜狐网站信息爬取的方式得到1250篇新闻语料,对这些新闻进行分类统计,属于“健康”类的新闻总共180篇,“财经”类共660篇,“IT”类共410篇,分别从各篇新闻中提取标题与正文内容进行测试,文本规模基本在3～8 KB之间。

3.2 实验方案评价指标

通过实验语料获得相关的实验数据集,按照2.2节的算法流程计算各评价指标,并验证算法有效性。

通过爬取获得的搜狐新闻都是以人工分类得到的文本集,由此实现聚类A和人工类别B的相互对应,此时A的文本基本都属于B的文本。综合考虑准确率(Precision)、召回率(Recall)、F参数对实际聚类性能进行评价。

3.3 主题数γ参数设置

采用以上语料库作为测试数据,建立bLDA主题模型时,将参数设定为α=50/k、β=0.01,总共迭代1000次。测试时主题数k属于一个不确定参数,当取值变化时会引起特征选择有效性也存在显著差异,将n值依次设定在1～10,设定主题模型包含的主题数,再以K-medoids聚类得到的F值进行评价,从而获得根据语义建立的“文档—词语”矩阵,经测试得到结果如图2所示。

图2 bLDA主题个数设置

其中,横坐标代表实际设定的主题数量,纵坐标代表评价指标,根据以上测试数据判断特征选择算法有效性与bLDA主题模型主题数之间的关系。通过分析可知,在主题数k=3的情况下,获得了最大聚类F,表明此时达到了最优处理效果,与人工标注主题数相符。同时还可以看到,主题数接近人工标注主题数的情况下,形成了基本一致的评价指标,通过bLDA主题模型可以获得较优主题粒度,从而更接近文档表达含义;以bLDA主题模型进行粗主题粒度提取时无法获得良好的聚类性能,并无法对各类主题特征词进行明显分类,导致区分度偏差;当采用bLDA主题模型提取细主题粒度时也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词。

在特征选择时,将k设定在3,参数因子γ依次设定在0.50～0.95,在不同γ值下经对比得到K-medoids聚类F值,由此获得最优特征词集权重,测试所得结果见图3。

图3 γ的最优设置

γ值介于0.5～0.8之间时,当γ值提高时获得了更优文本聚类性能,而在γ值达到0.8以上,继续增加γ值则会降低文本聚类性能,由此判断γ值取0.8时可以获得最优聚类效果。因此可以从侧面推断出,与采用bLDA主题模型处理获得的“文档—词语”概率相比,通过TFIDF算法获得的“文档—词语”概率可以更加准确地表达文本含义,促进权重的进一步提升。

3.4 方法比较

据以上搜狐新闻语料,为验证特征词权重分析方式有效性,分别以TFIDF算法与bLDA主题模型作为Baseline、Baseline2,再以上述2种方法相结合的形式组成Baseline3,之后利用同一语料库测试上述各项算法相对TFIDF_SP算法及bLDA主题模型方法的综合处理性能,再根据K-medoids聚类算法准确率、召回率、F值进行综合评估,测试得到结果如表1所示。

表1 不同方法对比结果

通过比较发现,采用TFIDF_SP和bLDA主题模型或采用TFIDF和bLDA主题模型进行结合处理时比单一使用bLDA主题模型处理方式和TFIDF算法获得更优的性能,因此需要对TFIDF算法与bLDA主题模型进行结合分析,从而为特征词分配合适的权重。以TFIDF_SP和bLDA主题模型进行结合分析时,可以获得比TFIDF和bLDA主题模型结合高1.62%的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。

4 总结

采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词。γ值取0.8时可以获得最优聚类效果,此时本文改进TFIDF算法能促进权重的进一步提升。本文改进TFIDF算法可以获得比TFIDF和bLDA主题模型结合高1.62%的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。