语义文本挖掘算法优化研究
2018-03-30刘建君
摘 要:本文介绍了语义文本挖掘的相关理论及学术概念,阐述了文本挖掘过程及贝叶斯算法等概念,针对文本算法“贝叶斯算法”在文本分类领域的应用算法进行了优化并通过对newsgroup文档集进行了实验而给出了优化结果。探索了对朴素贝叶斯算法的优化。
关键词:文本挖掘;贝叶斯算法、特征词、文本分类、newsgroup文档集;优化
DOI:10.16640/j.cnki.37-1222/t.2018.07.222
1 研究背景
伴随着信息技术的飞速发展,在人类的生活中,通信、网络和计算机相关技术可以说是已经无处不在,大量的“信息”通过电子文本形式存储,而且数量急剧增长;新闻、用户评论、电子邮件等等,这些都是以电子文本的形式存储在网络,但是面对如此庞大的信息量,通常人们需要的仅仅只是其中的一小部分,那么如何从海量的电子文本中挖掘出自己感兴趣或者说是有价值的信息,这是我们所面临的严重挑战。文本玩家技术就是为处理这类问题而诞生的一种重要的信息处理技术,文本挖掘技术是从文本中识别有效信息的一个过程。而文本挖掘又包含:文本分类,文本挖掘,文本聚类分析等多个方向。而文本挖掘是指从海量的电子文本数据中分离抽取出事先不知,可理解,而最终可用的知识的过程,而运用这些知识可以更好的组织信息帮助人们进行预测或判断以及计划调整与优化。
2 研究现状
文本挖掘在国外的研究开展较早,50年代,H.P.Luhn在文本挖掘领域进行了开创性的研究,他提出了词频统计以及自动分类。众多学者在这一领域进行了研究工作。而研究的范围主要有文本挖掘模型、文本特征提取、文本挖掘算法、文本挖掘工具等。
我国引入文本挖掘概念并开展中文的文本挖掘只是从最近几年才开始的。目前我国文本挖掘研究还处于对国外相关理论和技术的实验和论证阶段,文本挖掘理论实际应用和适合中文的文本挖掘技术及算法研究都处于初步阶段。目前还没有形成完整的或成体系的适合针对中文信息处理的文本挖掘理论与技术框架。
3 文本挖掘
文本挖掘包含三个过程:文本预处理、特征信息提取以及数据挖掘。
(1)文本预处理。文本信息资源最初是各种不同来源的原始数据类型,而需要对原始数据进行过滤和鉴别。根据数据来源的不同几数据类型的特征,可以分为:结构化信息数据和非结构化信息数据。数据过滤需要对不同类型的数据提供不同的文本过滤方案。结构化信息需要通过预处理,将不同形式的文本资源转换成新的相同(或相似)的形式;而对于非结构化稳定,则需要通过文本预处理将非结构化信息文本转化为可以通过算法分析的形式,转化为能够进行特征信息提取的文本格式。
(2)特征信息提取。特征信息提取是將非结构化数据转换成能够在数据库中存储的结构化数据,作为下一步文本挖掘处理的数据输入。特征提取主要是识别出文本中有特点业务价值特征的词。天气的特征词多数是信息文本中表示的概念,而这些概念包含了重要的业务信息,因此在做信息提取前就需要根据实际的业务识别出那些信息是需要被提取以及对于的提取策略。
(3)数据挖掘。通过预处理几信息提取后,就可以对文本进行挖掘分析了,而常用的挖掘分析技术有:文本结构分析、文本分类、文本聚类以及文本关联分析、趋势预测等等。
4 基于文本分类应用的贝叶斯算法的优化
(1)文本分类。文本分类是利用计算机技术对文本信息按照特定的业务分类体系或标准进行自动分类标记。属于一种分类体系的自动分类,是朴素贝叶斯分类方法。
(2)贝叶斯算法优化应用。贝叶斯算法主要关注稳定类别归属的概率。文本的类别归属概率=每个分类词属于对于类别的概率的综合表达式。我们可以用这个词在对应分类文本中出现的次数来粗略统计,这就体现了词频统计的计算成为可行。
朴素贝叶斯算法公式有很多。首先要计算分类样本中每个统计原始的先验概率,然后需要计算出单个文本对于每个分类的概率,而其中概率值最高的分类才会被作为有效分类被收纳。
(3)朴素贝叶斯算法对newsgroup文档集做分类的结果。1)取newsgroup文档中所有的特征词(87554个)通过交叉实验验证,可以看到平均的准确率为0.7819,而需要23分钟,准确率的范围为0.7565-0.8047。2)取newsgroup文档中词频次数4次以上的特征词(30095个)通过交叉实现验证,实验结果:评价准确率为0.7791,而用时为22分钟,准确率范围为0.7551-0.8026。
通过比较可以得知,朴素贝叶斯算法在实际的应用过程中,词频的低的词并没有必要去除,因为词频低的词去除后会使分类统计的准确率下降,但是又没有明显的缩短计算周期。通过多次的实验,通过类条件概率优化算法提升贝叶斯算法的分类准确率:
类条件概率P(特征词|分类)=(分类下特征词在训练文档集中出现的次数总和+0.001)/(分类特征词总数+训练文档集中不重复特征词总数),分子当特征词没有出现时,只加0.001通过优化,可以更为准确的计算特征词的分布规律,平均准确率由原来的0.7791提升到0.8223,总体的优化效果较为明显。
5 结论
在分类方法中,不同分类都有各自不同的优缺点,而贝叶斯算法是基于概率分类统计的算法,特征词词频越高,则代表该特征词越具有业务价值,而在实际的文本分类应用中,还是存在小概率情况的,有些特征词虽然出现的频率不高,但可能是更能体现信息类别特点,但是这类词出现的频率不高,对于这类词的通过贝叶斯概率计算就可能会被忽略,所以在该算法的应用还需要通过更多的优化或结合其他算法进行综合应用才能逐渐提高文本分类的实际准确性。
参考文献:
[1]傅京孙.模式识别应用[M].北京:北京大学出版社,1990.
[2]鲁宋,李晓黎,白硕.文档中词语权重计算方法的改进[J].中文信息学报,2000(146):6-13.
[3]张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007(06):189-192.
[4]刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(01):139-144.
[5]方清华.信息检索加权理论与技术:基于VSM模型的分析[J].情报杂志,2008(06):73-76.
作者简介:刘建君(1990-),男,江西吉安人,学士。