APP下载

基于文本分类的果农短信分类

2015-01-27黄彦,温继文,陈英义

湖北农业科学 2014年23期
关键词:文本挖掘果农

黄彦,温继文,陈英义

摘要:将手机短信平台中的短信转化为文本的特性,把文本分类算法运用到短信处理技术之中,通过对短信文本进行预处理、特征选择及分类器等步骤,将果农短信文本按不同果业信息类别进行分类,根据分类结果,有针对性地向果农提供有效的果业信息服务。

关键词:文本挖掘;短信分类;果农

中图分类号:TP311.5        文献标识码:A        文章编号:0439-8114(2014)23-5864-04

DOI:10.14088/j.cnki.issn0439-8114.2014.23.062

短信是依托现代通信技术手段为农民提供即时通信服务,实现信息进村入户的重要手段。手机短信平台为果农提供果业信息,帮助他们及时、准确地掌握科技技术信息,了解市场行情,为其决策提供相关的依据。目前,农村存在短信服务平台,如移动“农信通”、联通“电子农务”、“12316”农业短信平台等,实现短信预订、接受、推送等短信服务。为了向果农更有针对性地推送果业相关信息,提高农业短信平台的应用功能,需要对果农按照所发短信内容类型的不同进行分类。

果农向农业短信平台发送的咨询短信中,80%左右的电子化信息都是以无结构自由文本的形式存在的,具有模糊性和歧义性,人或者计算机都难以使用这些未经整理的信息。于是就需要文本挖掘技术来对这些短信内容进行分类筛选。

为此,主要针对以短信形式提交的果业问题,根据短信可转化为文本这一特性,凭借对短信文本相关特性和相关技术的研究了解,将文本分类算法运用到短信处理技术之中。通过对短信文本进行预处理、特征选择及分类器等步骤,分析推理果农所提问题涉及的领域分类,从而针对性地为果农提供果业信息。

1  基于文本分类的短信处理过程

1.1  文本分类研究现状

Feldman等[1]在1995年正式提出文本挖掘的概念,到现在共有不到20年的时间,相对于国外的快速发展,文本挖掘在中国的研究尚处于起步阶段。文本分类是文本挖掘的主要技术之一,它是根据给定的文本内容,将其判定为事先已经确定的若干个文本类别中的一类或者几类的过程。

在短信分类研究方面,相关文献相对较少,其中涉及文本分类算法原理及改进的很多。王忠军[2]、陈功平等[3]、贺曼丽[4]研究了一种基于改进贝叶斯算法的短信分类方法,设计并实现了一种基于改进贝叶斯的垃圾短信过滤系统。刘金岭[5]提出同义概念归并、上下位概念的聚焦以及短信文本重点词汇的确定方法,利用主题句选取算法获取短信文本的主题,采用KNN算法将短信文本的主题进行分类。朱伙[6]在文本分类的基础上设计一个基于文本分类算法的中文短信用户兴趣分层算法。龚垒[7]利用支持向量机算法对短信文本进行分类识别,进而完成对垃圾短信的过滤。雷杨[8]以Stacking作为短信过滤系统的集成学习算法,得到了一个比较有效的短信分类系统。崔彩霞[9]提出了一种基于字特征的短信分类方法,该方法有效地降低了使有用短信的错判率。在应用方面,主要研究集中在手机短信监控[10]和垃圾短信处理[7,11]上。

从目前研究现状来看,文本挖掘在短信分类中的研究主要是短信分类技术及改进的研究,涉及的技术比较分散,而在技术应用方面的介绍缺很少,可以说文本挖掘在农业短信分类方面的应用在国内还处于空白阶段。

1.2  基于文本分类的短信处理

文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,映射规则是系统根据已分类好的分类样本总结出分类的规则,建立分类的判别公式和规则,在新文本到来时,根据总结出来的判别规则确定文本相关的类别[12]。对短信进行分类的过程如图1,主要分为三部分。

1)建立分类模型。分类模型由训练模块和分类模块构成。在训练模块,先抽取训练样本中的关键词集合;建立关键词字典;建立训练样本词频,训练分类器,建立基于K-近邻文本分类器。在分类模块,根据训练模块建立的关键词字典,将测试文本向量化,用特征子集表示。

2)分类模型的评价。测试分类模型的分类效果,修正分类模型,提高分类模型的分类效果。

3)测试阶段。输入未知类别的文档向量,利用分类器,经由分类模型得到测试文档的类别。

在这里只针对文本如何进行预处理、K邻近算法原理及应用进行具体描述,即建立分类模型部分;分类模型评价及测试阶段部分省去。

1.2.1  短信预处理  ①中文文本分词处理。中文分词就是将连续的中文字序列按照一定的规范重新组合词序列的过程。由于中文是以字为基本的书写单位,词语之间没有明显的区分标记,中文词语分析即是中文信息处理的基础与关键,因此选择较好的分词模块非常重要。此研究采用的是基于多层隐马模型的汉语词法分析系统ICTCLAS[13]。

ICTCLAS分词系统在切分排歧方面,提出了一种基于N-最短路径的策略,即在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。该算法实现了汉语词汇切分结果在核心词库尽可能小的前提下达到最优。

②去除停顿词及礼貌用语停顿词通常指在各类文档中都频繁出现的词,这些词一般是代词、介词、连词等高频词。它们不具有任何类别信息,不能作为特征使用。停用词过滤首先要构造停用词表,在文本校对处理后把校对后的会话中的各词条分别和停用词表中词进行比较,如果该词条在停用词表中,则删除该词条。基于这一原理将短信中的冠词、助词、感叹词、礼貌用语等没有实际意义的词语去掉,只剩下具有实际意义的词组。

1.2.2  短信分类  K近邻法属于懒惰学习方法,其基本思想是:给出测试文档,系统在已经分类好的训练集中查找与其最近的K个邻居,根据这些邻居的类别分布情况获得测试文档的类别。其中可以用这些邻居与测试文档的相似度进行加权,从而获得较好的分类效果[14,15]。其分类过程如下:endprint

1)计算词频(TF)。词频是指词组t在文档中出现的次数。可以用公式(1)计算词频:

TF(t,d)=0.5+■(1)

式中,f(t,d)指的是t词组在d类别中出现的次数。MaxFreq(d)指的是在类别中所有的词组出现次数最多的类别的f(t,d)。

2)计算逆文档频率IDF。逆文档频率是指在所有的文档中某词语出现的次数。可以用公式(2)计算逆文档频率:

IDF=1+log(■)(2)

式中,n是指所有的类别数目,k是指出现关键词t的类别总数。

3)计算weight。使用公式(3)来计算weight:

weight(t,d)=TF(t,d)IDF(t)(3)

4)计算短信内容与各个细分类别的相似度。根据上一步算出的14个细分类别下每个关键词的weight,可以表示为

Di=(Wi1,Wi2,…,WiN),其中i=1,2,3。(4)

同时也能计算出新短信内容中每个关键词的Weight,可以表示为D=(W1,W2,…,Wn)。然后根据以下相似度的计算公式(5)可以得出新短信与各细分类别之间的相似度[16]。

Sim(Di,Dj)=■WitWjt(5)

根据最后计算出的相似度,可以比较新短信与各细分类别的相似度哪个更高一些,从而确定该短信应归属的类别。若出现了相似度相等的情况,该短信则同时归属于相应的类别,可重复出现。

2  基于文本分类的果农短信分类

果农短信内容为“您好,我家水蜜桃今年丰收了,能帮忙提供下市场参考价格,以便我定价销售吗?谢谢!”根据KNN算法的步骤介绍,将要对该评论应该属于哪个类别进行判断。

2.1  分词、去除停顿词、礼貌用语及单词衍生形态查询

首先,通过ICTCLAS分词系统经过分词,结果如下:

您/r 好/a ,/w 我家/r 水蜜桃/n 今年/t 丰收/v 了/y ,/w 能/v 帮忙/v 提供/v 下/v 市场/n 参考/v 价格/n ,/w 以便/d 我/r 定价/n 销售/v 吗/y ?/w 谢谢/v !/w

将这条内容中的虚词、助词、礼貌用语等无实际意义的词(您、好、了、能、下、以便、吗、谢谢等)去掉,并进行单词衍生形态查询,将零散的词组规范化,最终得到词组“我家、水蜜桃、今年、丰收、帮忙、提供、市场、参考、价格、我、定价、销售”。

2.2  果业短信词库构建

2.2.1  果业信息概况  现阶段中国果业数据和农村信息具有季节性、地区性、时效性、真实性和引导性等五大特点,信息的内容大致包含四大类:①科技类信息:种植技术、新品种、病虫害防治、农产品加工以及林业、气象、水利、环境和建筑等信息;②市场价格行情类信息:农产品供求与价格、成交量和国际贸易等方面信息;③政策信息类:政策、法规、法律等方面的问题;④科普信息:农业科学常识,文化教育知识类信息[17,18]。

2.2.2  果业信息的关键词库  通过对农业短信平台的研究及查阅相关资料,从果农的短信中总结出各类信息的关键词,以此为参照文档构建果业信息的关键词库。果业信息划分为四个大类别,各类别下划分了小类别,每个小类别分别对应一些关键词,由于关键词太多,在这里只是简单列举一下,关键词词库设定如表1所示,当然在提取信息类别关键词之前,要先确定所询问果类品种,再基于此进行表1的短信分类。

2.3  果业信息分类

2.3.1  计算词频(TF)  因为本研究中14个细分类别是建立的果业信息的关键词词库,所以每个词语均只出现了一次,所有各个关键词的TF=1。

2.3.2  计算逆文档频率  各词组在14个细分类别中只出现一次,所以,计算的IDF=1+lg(14/1)=2.146 1,这个值都是相同的,具体见表2。

2.3.3  计算weight  weight(t,d)=TF(t,d)×IDF(t),如表2中括号内的数值所示。

2.3.4  计算新评论与Doc1、Doc2以及Doc3的相似度  Sim(新短信,D2-1)=2.146 1×2.146 1=4.605 8

Sim(新短信,D2-2)=2.146 1×2.146 1+2.146 1×2.146 1=9.211 5

根据以上的计算结果可知,新短信内容与市场价格行情类信息下的两个细分类别有关,相似度分别为4.605 8、9.211 5,通过比较可知,新短信与D2-2的相似度最高,即“农产品价格”的关键词库,于是就可以把这条新内容归类为“农产品价格”。

3  小结与讨论

对果农短信进行分类的目的就是可以对果农所关心的问题的不同进行归类,这样可以有针对性地提供相应的果业信息服务。这个功能的实现,减少了农户搜索相关果业信息的时间和精力,可以更方便、及时地了解到自己需要的信息,同样也提高了果业信息推广的实用性和便捷性。

此外,研究只是针对一条短信进行了分类算法如何具体应用的演示,并没有针对大规模果业相关短信进行测试试验,对分类器效果的验证还需进一步研究。

参考文献:

[1] FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[Z]. In: proceedings of the First International Conference in Knowledge Discovery and Date Mining (KDD-95). Montreal, Canada. August 20-21,1995:112-117.endprint

[2] 王忠军.文本分类在短信过滤中的应用[D].辽宁大连:大连理工大学,2006.

[3] 陈功平,沈明玉,王  红,等.基于内容的短信分类技术[J].华东理工大学学报(自然科学版),2011,37(6):770-774.

[4] 贺曼丽.基于内容挖掘的垃圾短信过滤分类方法研究[D].长沙;湖南大学,2007.

[5] 刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32.

[6] 朱  伙.基于文本分类算法的短信用户兴趣分层算法研究[D].广州:中山大学,2011.

[7] 龚  垒.基于支持向量机的垃圾短信过滤方法研究[D].河南焦作:河南理工大学,2011.

[8] 雷  杨.基于集成学习的垃圾短信多级分类技术研究[D].成都:电子科技大学,2009.

[9] 崔彩霞.基于字特征的短信分类方法研究[J].太原师范学院学报(自然科学版),2011,10(1):103-105.

[10] 李  凡.基于内容的短信智能分类系统的设计与实现[D].沈阳:东北大学,2010.

[11] 钟延辉.基于文本挖掘的垃圾短信过滤方法[D].成都:电子科技大学,2009.

[12] 周  茜,赵明生,扈  昊.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23.

[13] 何元娇.基于本体的语义文本分类研究[D].北京:北京化工大学,2008.

[14] 刘  锋,白  凡.一种改进的K近邻算法在网页分类中的应用[J].电子技术,2010(7):30-31.

[15] 刘开袆,江志雄.基于K-近邻方法的网络信息文本分类[J].贵州大学学报(自然科学版),2009,26(3):60-63.

[16] 孔  静.基于语义和领域相关的文本聚类研究[D].东营:中国石油大学(华东),2009.

[17] 孙  燕.重庆果农适用的果业信息手机查询平台研究[D].重庆:西南大学,2011.

[18] 杨木容.果农视角下的果业信息需求和服务开展的调查研究[J].安徽农业科学,2011,39(2):7455-7456,7459.endprint

猜你喜欢

文本挖掘果农
樱桃红了,果农笑了
田间地头“惠”果农
富士苹果 哪些品种受果农欢迎
专家当保姆 果农心里稳
流翔高钙为果农把脉支招
苹果价格大涨 果农是贮是销
慧眼识璞玉,妙手炼浑金