APP下载

文本情报信息筛选与聚类的一种处理方法

2017-03-18李阳杜垚

火力与指挥控制 2017年2期
关键词:特征选择文档次数

李阳,杜垚

(1.中国农业银行山西省分行,太原030024;2.晋中学院,山西晋中030619)

文本情报信息筛选与聚类的一种处理方法

李阳1,杜垚2

(1.中国农业银行山西省分行,太原030024;2.晋中学院,山西晋中030619)

目前大数据时代情况下的信息有文本、图像、语音和视频等多种形式,而且信息的容量非常大,怎样高效、正确地筛选、分类和处理、利用这些信息,为决策者提供指挥与控制的科学依据显得尤为重要。据此对文本情报信息提出了一种文本聚类的特征选择以及特征变换的方法,利用单词在文本中的出现次数的概率来选择参与聚类的单词,并且对单词出现概率模型定义了特征变换函数,提高了文本信息的筛选、分类和处理的精度,能快速、准确地提取所需要的情报信息提供给指挥与控制的决策者参考、使用。

信息,文本,聚类,处理

0 引言

目前,大数据时代情况下的信息有文本、图像、语音和视频等多种形式,而且信息的容量非常大,怎样高效、正确地筛选、分类和处理、利用这些信息,为当事件的决策者提供指挥与控制的科学依据显得尤为重要。

本文对文本情报信息提出了一种文本聚类的特征选择以及特征变换的方法,利用单词在文本中的出现次数的概率来选择参与聚类的单词,并且对单词出现概率模型定义了特征变换函数,提高了文本信息的筛选、分类和处理的精度,能快速、准确地提取所需要的情报信息提供给指挥与控制的决策者参考、使用。

在文本分类中,特征选择与特征变换的好坏直接影响到聚类的结果。在文本分类的特征选择和特征变换中,虽然至今提出了IDF、TI、TfV等方法,但文本分类的精度仍有待提高,本文提出了使用表现单词在文档中出现次数的概率的K-mixture模型来进行特征选择和特征变换的方法。在特征选择阶段,使用K-mixture模型计算出的单词出现0次(即单词在文本中不出现)的概率来筛选参与聚类的单词。并在特征变换阶段,使用本文定义的函数来进行特征变换。最后使用经过特征变换的向量来进行聚类。

1 现存方法介绍

1.1 特征选择方法介绍

特征选择主要有Document Frequency(DF),mean Tfidf(TI),Term Frequency Variance(TfV)等方法。在这3种主流特征选择方法中,TI与TfV的精度基本相当,高于DF[1]。由于相对于TfV,TI的实现简单且计算量较少。故本文使用TI作为比较对象。1.1.1Document Frequency

DF是在特征选择中较为常用的一种特征选择方法。定义如下:

在由m个单词构成的n个文档的文档集X中。单词t的DFt为出现单词t的文档的个数。在特征选择中,选择DF值高的前k个单词。

1.1.2 Mean TfIdf

将文档集中的文档作为向量dj。每个单词t针对文档dj的tfidf为:

其中:

这里的Tr为文档集中的文档数,DFt为单词t的DF,tj为单词t在文档dj中的TF。之后求单词的全文档的平均tfidf,作为TI。

1.1.3 Term Frequency Variance

TfV的定义如下:

其中,tfj的定义与Mean TfIdf相同。

1.2 聚类方法介绍

1.2.1 K-means

K-means是非层次聚类方法中的代表方法。K-means将聚类的中心作为代表点。求解下式的最小值作为聚类的最优解:

式中,k为聚类的个数,Ci为第i个聚类,D求解距离的函数。

K-means的算法表示如下:

步骤1随机选择k个代表点c1,c2,...,ck。

步骤2对所有文档,将其分配到使得D(x,ci)最小的代表点。

步骤3如果代表点的分配没有发生变化,终止。否则将各聚类的重心作为代表点,并跳转到步骤2。

1.2.2 MMC

MMC是2005年提出的通过使用SVM来求解使得间隔最大化的超平面来聚类的方法。SVM是“Support Vector machine”的简称,是学习器的一种。MMC通过使用SVM来寻找使得间隔最大的聚类结果。即对于数据x1,...,xN,寻找使得聚类间距离最大的聚类结果yi∈{-1,+1}。即求解以下公式的最优解:

1.3 单词出现次数概率模型

描述单词出现次数的概率模型,目前主要提出了Poisson模型,Two Poisson模型,K-mixture模型以及Negative Binomial模型。详述如下:

1.3.1 Poisson模型

Poisson模型是通过两个参数调节泊松分布来近似单词在文章中出现次数的模型。公式如下:

1.3.2 Two Poisson模型

Two Poisson模型的定义如下:

其中,PrE(k)是单词出现k词的文档的比率。

1.3.3 K-mixture模型

Katz针对单词的出现次数的概率,提出了数个模型[2]。其中的2参数模型被称为k-mixture模型。K-mixture模型中,假定单词在文本中反复出现的条件概率由衰减系数决定。对于单个单词k回出现的概率PrK(k)由以下的公式可以计算得出:

即:

其中,cf为文档集中单词的出现次数,df为单词出现的文档数。n为全部的文档数。

1.3.4 Negative Binomial模型

Negative Binomial模型是使用负二项分布来近似单词出现次数的概率的模型。该模型的公式定义如下:

1.3.5 比较

在文献[3]的研究中,比较了在文档库中said一词实际出现次数的比率以及上述3种模型的预测值。结果如图1所示。图中,K代表K-mixture,NB代表Negative Binomial。由图中可以看出。K-mixture更好的近似了单词出现次数的概率。因此,本文中使用K-mixture来作为近似单词出现次数的概率模型。

图1 said一词在文档中的出现次数以及模型预测值的比较

2 本文方法

2.1 特征选择

本文提出的方法中,使用K-mixture计算出的PrK(0)(即单词在文档中不出现的概率)的值作为特征选择的依据,从中选择PrK(0)值大于0.90,小于0.98的单词中。原因为:单词主要分为对文档内容影响较大的名词、动词、形容词,以及对文档内容影响较小的副词等语法功能词。对文档内容影响较小的语法功能词一般来讲其在各篇文档中的分布较为均匀,而对文档内容影响较大的词则在各篇文档中的分布有明显的偏向性。因此,PrK(0)值越小,则表明单词对文档的内容影响较小。PrK(0)越大,则表明单词对文档的内容影响较大。通过观察实际的统计值0.90是一个较好的分界线。同时,由于文档中存在噪音等原因。PrK(0)值最大的一部分词是文档中的一些数字等没有实际意义的词。为避免这些词影响聚类结果,需要过滤掉。通过观察统计值。0.98是一个较好的分界线。因此,在特征选择中选择PrK(0)值在0.90与0.98区间的词。

2.2 特征变换

由于在文档中,一个词出现与不出现,对于文档内容的影响较大,而随着词在文档中出现次数的增加,这个词对文档内容的影响逐渐递减。并且根据上节中所述。根据PrK(0)值的不同。单词对文档意义的影响大小也不同。因此,定义了函数V来模拟单词对文档内容影响程度的曲线。函数V的定义如下:

其目的为,通过K-mixture模型来拉大单词不出现与单词出现之前的距离,而逐级缩小单词出现一次以上各出现次数的距离。如图2所示。

图2 单词出现次数经过V函数变换的演示

3 实验与结果

3.1 评价方法

本文中使用F值来验证聚类结果的优劣。F值原本作为信息检索的评估指标提出,其综合准确率与召回率来评估结果。F值的计算公式如下:

在聚类结果评估中,针对各聚类和各结果集计算F值,选择针对结果集最高的F值,并求平均值。

3.2 实验数据

为了验证本文提案方法的普适性,本文同时使用了英文和中文的语料库进行了实验。使用20newsgroups作为英文语料实验数据,20newsgroups中包含了20个主题的英文新闻文档,每个主题中包含600到1 000篇文章。为了测试混合了相近的主题和较大差异主题时的聚类结果,从中选择了rec下的autos、motorcycles、baseball、hockey 4个主题。使用THUCNews作为中文语料实验数据,THUCNews中包含14个主题的中文新闻,同英文语料相同,为了测试混合了相近的主题和较大差异主题时的聚类结果,选择了股票、财经、科技、教育4个主题。

3.3 实验结果

特征选择和特征变换阶段分别使用TI和本文中的方法对实验数据进行处理。处理后的数据使用K-means或MMC进行聚类。聚类后使用3.1中所描述的方法统计F值。最后得到的实验结果如表1及表2所示:

表120 newsgroups聚类实验结果

表2 THUCNews聚类实验结果

从表1中可以看出。无论是结合K-means,还是结合MMC进行聚类,在中英文语料上本方法都较传统方法有明显的提升。

4 结论

由于不论是结合K-means,还是结合MMC算法进行聚类,本方法都较传统方法在F值上有明显提升,故验证了本方法的有效性以及针对不同聚类算法的普遍适应性。

文本信息是信息的一个重要分类,本文的研究可对文本信息进行筛选处理,在目前大数据的环境下,高速与高精度的文本信息分类处理具有很强的现实意义。在指挥与控制活动中,对收集到的文本信息情报进行快速且高精度的处理,能够为指挥人员提供准确的决策依据。提高指挥与控制的时效性与准确性,可使军用、民用的指挥与控制活动更及时、更准确。

[1]TANG B,SHEPHERD M,MILIOS E,et al.Comparing and combining dimension reduction techniques for efficient text clustering[J].Workshop on Feature Selection for Data Mining,2005:17-26,

[2]SLAVAM K.Distribution of content words and phrases in text and language modelling[J].Natural Language Engineering,1996,3(1):15-59.

[3]KENNETH W.CHURCH,WILLIAM A.Poisson Mixtures[J].Natural Language Engineering,1995,2(1):163-190.

[4]CHEN X G,YIN W S,TU P H,et al.Weighted k-means algorithm based text clustering[C]//International Symposium on Information Engineering and Electronic Commerce,2009.

A Text Clustering Method Using Word Appearance Probability

LI Yang1,DU Yao2
(1.Shanxi Branch,Agricultural Bank of China,Taiyuan 030024,China;2.Jinzhong University,Jinzhong 030619,China)

Currently,in the big data era,information includes text,image,voice and video etc,and the volume of information is extremely large.So how to filter,classify,processing and use these information efficiently,and offering support for command and control becomes very import.As this,the proposed method which is a feature selection and feature transform method,uses the“word appearance probability”to select which term will be used as a feature while clustering and then convert word appearance frequency to a value calculated by a proposed function which defined with“word appearance probability”.The precision of filtering classify and processing for text information is improved,which can offering the information required by decision-maker fast and precise

information,text,clustering,processing

X913.3

A

1002-0640(2017)02-0172-04

2016-01-13

2016-03-08

李阳(1984-),男,山西运城人,硕士研究生。研究方向:机器学习、自然语言处理。

猜你喜欢

特征选择文档次数
浅谈Matlab与Word文档的应用接口
2020年,我国汽车召回次数同比减少10.8%,召回数量同比增长3.9%
基于邻域区间扰动融合的无监督特征选择算法框架
有人一声不吭向你扔了个文档
最后才吃梨
俄罗斯是全球阅兵次数最多的国家吗?
基于词向量的文本特征选择方法研究
基于特征聚类集成技术的在线特征选择
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat