基于奇异值分解的藏文Web不良信息检索算法研究
2015-02-21普措才仁蔡光波
普措才仁,蔡光波
(西北民族大学数学与计算机科学学院,甘肃兰州730030)
基于奇异值分解的藏文Web不良信息检索算法研究
普措才仁,蔡光波
(西北民族大学数学与计算机科学学院,甘肃兰州730030)
阐述了藏文Web不良信息的特点、类型、危害性,设计了倾向性藏文Web不良文本过滤系统结构.提出一种藏文Web不良文本检索算法.该算法从不良文本中提取倾向性关键词项,根据矩阵奇异值分解方法中的转移概率构造出倾向性关键词项的状态矩阵,提取平面坐标空间第一像限的奇异值向量作为复特征向量,利用向量间的余弦相似度作为文本检索的相似度度量.实验结果表明,该算法在检索准确率和运算效率上都优于传统的 LSA 算法.
不良信息;转移概率;奇异值分解;状态矩阵
藏文网络不良信息是指互联网上出现的违背社会主义精神文明建设要求,违背中华民族优良文化传统与习惯,以及其他违背社会公德的各类信息,包括文字、图片、音视频等形式.从其危害性来说,藏文网络不良信息是指互联网上对人的身体造成损害,给人的精神带来污染,使人的思想产生混乱,让人的心理变得异常的垃圾信息,它们包括危害国家安全与稳定的信息、色情信息、暴力信息、迷信信息等.那么如何从藏文网络的信息资源中检索出满足用户需求的不良信息子集,涉及到信息的获取、表示、组织、存储及访问等问题.藏文网络不良信息检索的任务主要是研究如何从给定的无结构或半结构化文档集中找出与用户相关的文档子集,并依据相关度排序把检索结果返回给用户.由于目前网上信息的表现形式大多为文本,因此我们认为,文本过滤主要是兴趣过滤,即根据用户模型(如用户背景、兴趣、行为、风格等)对文本进行搜集整理,将用户感兴趣的文本提交给用户,这更多是从文本的主题方面考虑的,譬如,用户只对体育类的内容感兴趣,或者更进一步分,只对足球的内容感兴趣,“体育”和“足球”都是描述文本主题的词.然而,网上还有很多评论性的文章,这些文章往往代表作者对某一个主题的看法和立场,用户自然会有这样的需求:我只需要得到对这一主题的某种立场的文档.为此,作者提出了倾向性文本过滤的概念.文本信息分为三种:与主题完全无关的称为无关文本,对主题持有积极态度的称为正面文本,对主题持有消极态度的称为负面文本.在对文本进行分析的时候,不仅分析其包含的主题内容,还判断它的态度和立场,即倾向性.文本过滤的条件不是仅仅涉及的主题内容,而是带有倾向性的主题信息.直接的例子就是不良文本的过滤,即根据领域模型(如领域知识、文本处理和领域组织结构)对文本进行拦截,使用户无法接触到不良文本.网络上的不良文本包括色情、暴力、邪教、赌博等违反国家政策的内容,其中有些文本可以分析其主题从而实施过滤,比如色情、暴力等;但有些文本表现的是对某种问题如政治问题的立场和倾向,如批判和宣扬邪教的,这时不仅得分析出它的主题,还要判断其倾向以确定过滤与否.文中针对这种倾向性文本过滤,作者提出了基于奇异值分解的倾向性藏文文本检索算法.该算法利用字母统计的转移概率矩阵建立关键词的状态矩阵,并进行奇异值分解提取复特征向量.
1 基于奇异值分解的藏文不良文本检索算法
图1设计了倾向性文本过滤系统结构流程.
1.1 构造频率矩阵、转移概率矩阵和状态矩阵
对于藏文Web上提取的一篇藏文文本Γ,去掉其非字母的字符如空格、标点、数字等,得到一个用藏文字母组成的有序字符串Γ.设T是藏文30个字母集合,N是自然数集合,描述如下:
N{1,2,3,4,…,…,…,…,…,…,25,26,27,29,30}
我们设计了藏文字母集T和自然数集N的一一对应的有序集,设T与N的对应关系F为F:T→N,比如F∶→10.这样就可对字符串Γ进行统计了.
设第i个字母后是第j个字母的次数为aij,则得到频率矩阵A=(aij)30×30.显然,频率矩阵A=(aij)30×30满足[3]:
对藏文文本T,先提取t个倾向性关键词项{T1,T2,…,Tt}.它是指出现在文档T中且能够代表该文档内容的基本语言单位, 主要是由单词或短语构成.倾向性关键词提取过程主要涉及 2 个环节:
1) 去除停用词.将在文本中共有的出现频率过高而失去检索意义的单词剔除,主要选取能表达文本内容的实词作为关键词,这样可以提高检索性能并降低索引向量维度.
2) 抽取词干,确定基词.这是一种语法层次的处理措施,通过移除前后缀消除词形、时态变化对检索性能的影响并降低索引向量的维度[2][3].
作为关键词项的藏文单词可看成一字母串:
Ti=ti,1ti,2ti,3…ti,t,i=1,2,3,…,t
其中,tik为第i个关键词的第k个字母.为方便描述,设字母ti,k对应藏文字母表
即有如下概率关系:
P{Γ中出现单词Ti}
=P{字母ti,1之后是ti,2}×P{字母ti,2之后是ti,3}×…×P{字母ti,s(i)-1之后是ti,s(i)}.
有条件概率公式可得:
可见,文本Γ中出现单词的Ti概率由转移概率azi.1,zi.2,azi.2,zi.3,…,azi.s(i)-1,zi.s(i)决定.由此,可对关键词项{T1,T2,…,Tr}建立如下r阶状态矩阵:
X=(azi.s(i)-1,zi.s(i)Xi)r×r
1.2 基于奇异值分解的特征提取
由矩阵的奇异值分解理论知,矩阵X1近似保留了矩阵X的大部分相关信息.
1.3 关键词项和统计次数
表1 关键词项和统计次数
另一方面,各关键词Tk在u1、υ1平面的位置关系也反映了关键词在文本空间中的结构特征,既使2篇文本关键词出现的频率近似相同.由于各字母间的转移概率不同,关键词在u1、v1平面旳具体位置也不相同.因而复数uk,1+ivk,1的辐角也可以做为藏文文本分类和检索的重要依据.
这样θk被限制在第一象限内,得到复数zk=rkeiek,从而得到文本T的复特征向量Z=(z1,z1,…,zk).
1.4 领域知识库(词典)分析模块,过滤模块[5]
1)对象词典:包含有语义模式识别的对象,主要有个体和行为知识,用于分析文本中可能的语义模式.
2)模式词典:存储代表对当前主题的倾向性的语义模式及其权重.
3)分析模块:基于对象库,将文本中可能的语义模式识别出来.
4)过滤模块:基于模式库,将识别出的语义模式与模式库对照,计算权重与文本长度的比率,将超过阈值的文本拦截.
1.5 相似度计算
通过考察两个藏文Web文档间意义相同或相近词出现的分布情况,以此来判断两个藏文Web文档间是否相似.计算两个藏文Web文档间相似度方法如下:向量空间模型常将余弦相似度作为两个各相似向量的度量.设每一检索目标文本T所抽取的复特征向量分别为c1,c2对应的向量为(x1,x2,…,xm)和(y1,y2,…,ym),则c1与c2的相似度[6]:
其数值在[0,1]之间.
计算完目标文本和所有待检测文本的相似度后,可根据预先设定的检索阈值得出检索结果并将检索结果排序.
2 实验与分析
2.1 实验数据
本文所用测试数据来自西北民族大学藏汉双语信息处理技术数据语料库中的藏文文本.在整个数据集中有21 578个文档,本文从包含文档较多的6个类中随机选取40 000篇藏文文本及其段落作为仿真实验的测试语料.每一类中分别选取5篇作为检索目标文本,然后将所得结果取平均值作为实验结果.
2.2 评估指标
文本检索式从大量的文本集合中找到相关的文本,检索性能指标主要有检索准确率和召回率,准确率是返回正确的文本数与返回文本数的比率.准确率和召回率反映了文本检索质量的2个不同方面,需要同时考虑.综合考虑时可以使用下面的F指标,计算公式:
其中,Pre表示准确率;R表示召回率.
2.3 实验结果
为了使实验结果具有可比性,在实验数据和相关参数相同的前提条件下,将本文算法的实验结果和基于词的LSA算法[7]做了比对,结果见表2.
表2 检索性能比较(%)
对比试验结果表明,本文提出的基于奇异值分解的藏文文本检索算法优于传统的LSA算法.由于本文算法不仅考虑了文本中关键词的统计频率,而且融洽了关键词在文本空间中的结构特征和词与词之间潜在的语义联系,通过奇异值分解,原始状态矩阵中能反映关键词主要内容的信息被抽取出来,将更多实际意义或不代表对应文本的词汇作为噪声过滤掉.同时,奇异值分解对原始数据进行了降维处理,避免了LSA算法中对高维词汇——文本稀疏矩阵的处理,从而增强了文本表示的准确性,进而提高了检索精度和检索效率.
3 结束语
本文提供了一种藏文文本检索算法,该算法通过对状态矩阵的奇异值分解提取既反应关键词在文本空间中结构特征的复特征向量,从而建立了藏文文本检索系统.本文算法是藏文文本检索研究中的一次有益尝试,并取得较好的实验效果,但由于没有考虑藏文词汇可能出现的一次多义、一义多词,以及共同发生词汇和特殊的英文语法,因而还无法精确刻画文档的词义关系,这将是下一步的工作目标.
[1] Deerwester S, Dumais S T , Furnas G W, et al. Indexing by Latent Semantic Analysis[J].Journal of the American Society of Information Science,1990,41(6).
[2] 卫威,王建民.一种大规模数据的快速潜在语义索引[J].计算机工程,2009,35(15).
[3] 吴昌悫,魏洪增.矩阵理论与方法[M].北京:电子工业出版社,2013.
[4] Salton G, Wong A, Yang Chung-Shu. A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.
[5] Kalt T.A New Probabilistic Model of Text Classification and Retrieval[R].Amherst, USA: Center for Intelligent Information Retrieval, University of Massachusetts Amherst, Technical Report IR-78,1996.
[6] Lewis D D. Naive(Bayes)at Forty: The Independence Assumption in Information Retrieval[C]//Proc, of EMCL’98.Berlin,Germany: Springer,1996.
[7] Landauer T K.A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge [J].Psychological Review,1997,104(2).
2015-11-10
西北民族大学研究生教育教学改革研究项目(编号:1671280504).
普措才仁(1966—),男(藏族),青海玉树人,教授,硕士生导师,主要从事智能信息处理技术和数据挖掘方面的研究.
TP393
A
1009-2102(2015)04-0023-05