基于领域本体的文本语义挖掘方法现状分析
2018-02-01刘锋
刘 锋
(黑龙江工业学院,黑龙江 鸡西 158100)
语料库技术又分为两种方法,分别为主题建模和文本分类。主题模型用于发现隐藏大型数据模型,该技术可以有效降低语料库的维度;文本分类在组织大量无序文本中起着至关重要的作用。
1 主题建模方法研究
主体建模方法主要分为潜在语义分析(蕴SA)和概率潜在语义分析(P蕴SA)。
蕴SA通常被用于信息检索,在该方法中,主要是分析和管理大数据,从而提高了算法的效率。利用该方法可以创建多语言语义空间,不需要经过查询翻译机制,就可以直接使用另一种语言编写的文档,同时在多个数据集上实现了该系统,取得了良好的效果。为了进一步查看语料库,引入可视化技术,在该技术中使用一个二维文件图册,这种文件图册可以更好地使数据进行可视化。针对较低维度的语义空间又该如何描述呢?这是可以引入多维文档分析方法,方法包括一个训练集的样本协方差矩阵,这有助于从文档中有效地挖掘本地信息,并使用术语关联和空间分布,该分析模型在精度和计算效率方面效果明显。在目前的情况下,许多研究人员使用蕴SA进行特征提取,针对质量和参与数量分别进行特征提取。但是由于参与人数太多,产生了信息超载。这种特征提取的方法只能有效解决其中一个问题。
概率潜在语义分析(P蕴SA)使用生成潜在类模型来执行概率混合分解,这一模型可以应用于各个领域,但有些人认为该方法对不同类型的文本搜索的有效性产生了质疑,最后通过实验结果表明P蕴SA的性能优于标准蕴SA方法。为了解决新的问题,P蕴SA方法也在不断改进,当前有两个问题是比较严峻的,其一是如何使用GPU上有限的内存来处理较大的文本数据,其二是如何使用GPU的功能加速。可以采用正样的方法来进行解决:首先使用矩阵向量乘法加速算法;其次,采用同样的过程以节省空间和降低复杂度;最后使用并发执行加速进程。
2 文本分类技术
支持向量机(SVM)该方法的总体思路是将输入向量映射到高维特征向量空间,并构造一个线性决策面。通过支持向量机试图找到解决两组分类问题的方法,其中为了能够有效的分离一组对象,引入了超平面,该模型解释了该方法可以减少在标准归纳和转换设置中标记训练实例的需要,用一个版本空间概念给出了算法的理论解释,在实验验证中,用一个个低次多项式数据,并尝试映射和检测实现问题,经过采用了快速线性SVM方法,进行集中于快速训练和测试,实验结果表明这对某些大型数据集是有用的。针对上述问题,有些学者提出了一种基于SVM的先进多类实例选择方法,该方法提高了SVM的熟练度和准确性,通过仿真实验结果表明,该模型提高了支持向量机的分类精度,比基于邻域的模式选择(NPPS)算法更好。同时也有学者推荐了一种将SVM集成到基于上下文相关和上下文无关的用户首选项分组的策略,该策略支持向量机,有助于提高建议的准确性,并给出更精确的预测结果,对实际服务数据进行了实验研究,验证了模型的有效性。
最近邻居(KNN)法是一种新的降维方法。利用矢量聚合物理论和特征提取方法,减少了空间的维数。由于web中的文档分布不均匀,为了解决不均匀的问题,有些学者提出了基于密度的最近邻居法,该方法对大量非结构化分布式文档具有更好的效果。也可以采用加权法进行文本分类,以分类的速度、准确性和质量作为评价的依据,基于用户的行为,通过点击流数据而形成的自动实时推荐系统,而在实施过程中,他们还训练识别并匹配数据集市中类似类的点击流数据,并引入了一个叫做粗糙集的新概念,将数据集划分为两个文本向量空间,即特定的和不确定的区域。对于某些部分,他们直接判断其类别,对于不确定的区域,它们通过基于关联分析的KNN来确定向量的类型,通过该方法的验证,表明该算法提高了文本分类的效率。
朴素贝叶斯(NB)方法解决了系统问题以及与多项式模型相关的问题。通过对朴素贝叶斯方法的研究,提出了一些改建意见,如文本转换,解决不均匀训练数据的问题,规范分类权重等。这种方法以机器学习为基础,采用朴素贝叶斯分类器来预测基因。该模型使用朴素贝叶斯分类器对每个读取进行分类,并为每个读取提供完整的分类,有助于用户检查数据集的分类组合,并在合理的时间内使用和运行整个数据集得到了良好的预测效果。
3 分析结论
通过对分类算法和主题建模方法的分析,对潜在语义分析、概率潜在语义分析、向量机、最近邻居法和朴素贝叶斯等文本分类算法的分析,可以帮助人们了解和得到最合适的算法和方法。