改进的TF—IDF算法在作品抄袭判定中的应用
2015-02-05吉志薇
吉志薇
摘 要: TF-IDF算法在文本相似性的度量中有着广泛地应用,但也存在着明显的缺陷。本文运用一种综合考虑词频、逆向文本频率、类间信息熵和类内信息熵四个方面的改进的TF-IDF算法计算了郭敬明的《梦里花落知多少》和庄羽的《圈里圈外》的相似性,从定量的角度判定了前者的确抄袭了后者。
关键词: TF-IDF算法 文本相似度 梦里花落知多少 圈里圈外
0.引言
目前在国内外,文学作品、学术著作的抄袭行为广泛存在,这种现象不仅侵犯了原作者的著作权,也助长了不良的学术风气。因此,加强对作品抄袭的判定研究有着巨大的价值。作品抄袭的判定研究是建立在对数字文本的分析处理基础上的。数字文本可分为自然语言文本(比如小说、论文等)和形式语言文本(例如数据文件、计算机程序代码等)。形式语言文本具有严格的形式化语法、清晰的语义表达、容易分析处理,所以形式化的语言文本的抄袭判定研究已经取得了丰硕的成果。而自然语言文本,由于没有形式化语法约束、语义具有歧义性的缺陷,较难进行抄袭判定。直到1991年用于查询重复基金申请书的软件Word Check出现及应用,自然语言文本的抄袭判定研究才有了较大的进展。①
判定作品抄袭的研究思路是:将作品看作一系列标记(token)的集合,这些标记可以是字符、词、句、段落和章节等。运用某种算法从作品A和B中得到各自的标记集合a和b,通过比较a和b的关系来确定作品A和B的相似度。目前常用的判定作品抄袭的技术有数字指纹、词频统计、图像匹配以及诸如MDR②、RKR-GST(Running-Karp-Rabin-Greedy-String-Tiling)③的字符串匹配等方法。综合考虑精度和速度等因素,效果较好的是数字指纹和词频统计。
在词频统计技术中,一般采用向量空间模型(VSM)来表示,该模型广泛应用于信息检索等领域。用向量空间模型表示文本,首先要对文本进行预处理(主要包括中文分词和去停用词),然后进行特征项选择和权重计算。它的基本思想是将每个文本(Document)看作由一组相互独立的特征项Ti(T1,T2,…,Tn)构成的集合,表示为Document=D(T1,T2,…,Tn),然后根据每个特征项在文本中的重要性,分别赋予他们一定的权重Wi(W1,W2,W3…Wn),这样就构成了一个以特征项Ti为横坐标,权重Wi为其对应坐标的N维向量空间模型。
对权重的计算有多种不同的方法,主要有布尔函数、频度函数、开根号函数、对数函数、熵函数及TF-IDF函数等。特征项的权重取值,在很大程度上会影响文本分类算法的整体性能。其中,TF-IDF因其算法相对简单,并有较高的准确率和召回率,一直受到相关研究人员和众多领域的青睐。④
1.TF-IDF及其改进算法
1.1TF-IDF算法
TF-IDF最早由G.salton在1973年提出⑤。TF(termfrequency)是指关键词词频,即一篇文章中关键词出现的频率;IDF(inversedocumentfrequency)是指逆向文本频率,即关键词在不同文档中的分布情况。它的基本思路是:一个词在一个文本中出现的频率越高,说明它区分该文本的能力越强(TF);一个词在不同文本中出现的范围越广,说明它区分文本的能力越低(IDF)。经过salton的多次论证,信息检索领域广泛地使用TF-IDF算法计算权重,其经典计算公式为:
w■=tf■×idf■=tf■×log■
w■表示特征项ti在文本Dj中的权重,tf■表示特征项ti在文本Dj中出现的频度,n■表示训练集中出现特征项ti的文档数,N表示训练集中总的文档数。
1.2TF-IDF改进算法
TF-IDF算法考虑了特征项在总的文本集中的分布,却没有考虑它在类内和类间的分布情况。IDF的主要思想是:如果包含特征项t的文本数越少,也就是n越小,IDF越大,则说明特征项t的文本分类能力越强。如果某一类Ci中包含m个t,而其他类包含k个t,则所有包含t的文本数为n=m+k。假定k的值固定且较小,根据定义,当m的值比较大的时候,n也比较大,则IDF就比较小,但是这并不能说明特征项t的文本分类能力就一定不强。因为如果类别Ci中频繁出现t而其他类中很少出现t,那么t就应该能够很好地代表这个类Ci的特征,我们应该赋予这样的特征项较高的权重。正是由于IDF函数存在这样的不足,张玉芳等⑥提出了相应的改进意见。设总的文本数为N,包含特征项t的文本数为n,其中Ci类文本中包含t的文本数为m,其他类文本中包含t的文本数为k,则t在Ci类中的IDF值为:
IDF=log(■×N)=log(■×N)
通过相关数学论证推导可得,■的值随着m的增大而增大,随着k的减小而增大。正好能够体现改进的思想,可以较好地增加那些在一类文本中频繁出现而在其他类文本中较少出现的词条的权重。
张玉芳等主要考虑了特征项的类间分布而没有涉及类内分布的情况。对此,张保富等⑦提出“同样是集中分布于某一类别的不同特征项,类内分布相对均匀的特征项的权重应该比分布不均匀的要高。因为如果一个特征项只在某个类别的一两篇文本中大量出现,而在类的其他文本中出现得很少,那么不排除这一两篇文本是该类中特例的情况,因此这样的特征项不具备代表性,其权重应该相对较低。”综合类间类内分布,张保富等提出的权重计算公式为:
W■(d)=■×a(H■)×H■ (1)
其中■为TF-IDF的归一化计算;a(H■)表示的是经过一定修改的类间信息熵因子,a(H■)=1-■,H■为特征项的类间信息熵,max(H■)为特征项类间信息熵的最大值,根据熵最大原理可得max (H■)=logk(k表示类别数),即包含特征项t的所有文本均匀地分布在每一个类别中,概率分布P■=1/k时,类间信息分布熵取最大值。系数l(l>0)为了避免max(H■)=0(k=1)和a(H■)=0(H■=max(H■))两种情况的出现。观察公式可得,a(H■)越小,则H■越大,符合包含某一特征项的文本在各类分布越均匀,其类间分布熵越大,则此特征项对文本分类的贡献越小的理论。Hic表示的是特征项的类内信息熵,也符合特征项在文本的某一个类中的各个文本分布越均匀,其类内的分布熵就越大,则对该类的分类贡献就越大的理论。这种方法避免了那些对文本分类没有贡献的特征项被赋予较大权值的缺陷,能更有效地计算文本特征项的权重。实验结果证明该方法提高了文本分类的精确度和召回率,是一种比较有效的文本特征项加权方法。
2.背景介绍
郭敬明(http://baike.baidu.com/view/4386.htm)出生于1983年。庄羽(http://baike.baidu.com/view/769116.htm)出生于1979年。2002年8月14日,庄羽以“许愿的猪”为笔名将小说《圈里圈外》发表在天涯社区舞文弄墨版。2003年2月,《圈里圈外》由中国文联出版社出版,作品署名“庄羽”。《圈里圈外》以主人公初晓与现任男友高源及前任男友张小北的感情经历为主线,在描写初晓与高源之间的爱情生活及矛盾冲突的同时,描写了初晓与张小北之间的感情纠葛,同时还描写了初晓的朋友李穹与张小北的婚姻生活以及张小北与情人张萌萌的婚外情,高源与张萌萌的两性关系及合作拍戏等。2003年11月,春风文艺出版社出版了郭敬明的《梦里花落知多少》。该书版权页有“郭敬明著、春风文艺出版社出版、2003年11月第1版、2003年11月第1次印刷”等字样。《梦里花落知多少》主人公林岚与现任男友陆叙及前任男友顾小北的感情经历为主线,在描写林岚与陆叙的爱情生活及矛盾冲突的同时,交替描写了林岚与顾小北的感情纠葛,顾小北与现任女友姚姗姗的感情经历,林岚、闻婧、微微及火柴之间的友情以及她们和李茉莉的冲突等。⑧
2003年12月,庄羽向北京市一中院起诉,称郭敬明所著《梦里花落知多少》一书剽窃了其《圈里圈外》。随后,北京市一中院作出一审判决,认定《梦里花落知多少》中剽窃了《圈里圈外》中具有独创性的人物关系的内容,造成《梦里花落知多少》和《圈里圈外》整体上构成实质性相似。郭敬明不满上诉。2006年5月22日,北京市高级人民法院作出终审判决,驳回了郭敬明的上诉要求,判决郭敬明与出版方赔偿庄羽经济损失、精神抚慰金、停止出版和销售《梦里花落知多少》以及公开道歉。(参考http://baike.baidu.com/view/46062.htm#sub6294546)
考虑到《梦里花落知多少》和《圈里圈外》两部作品的题材和内容,本文共选择了两人比较有代表性的八部作品:郭敬明的《梦里花落知多少》、《夏至未至1995-2005》、《悲伤逆流成河》、《小时代1》分别发表于2003年、2005年、2007年和2008年;庄羽的《圈里圈外》、《遍地姻缘》、《此去经年》、《半张脸》分别发表于2003年、2005年、2008年和2009年。
3.相关实验
3.1文本预处理
(1)中文分词
分词技术是文本分类的基础。简单地说,就是用分词算法把文本切分成字、词和短语。目前常用的分词方法⑨⑩有:
A.基于词表的分词方法
又称为基于字符串匹配的分词方法。这是一种机械分词方法,它依据一个分词词表及长词优先(即尽可能地用最长的词来匹配句中的汉字串,从而使得切出来的词尽可能长,词的数量尽可能少)的原则来进行分词。具体步骤是计算机按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
B.基于统计的分词方法
又称为最大概率法。从形式上看,词是稳定的字的组合。相邻的字同现的次数越多,就越有可能构成一个词,因此字与字相邻共现的概率能够较好地反映成词的可信度。这种分词方法的具体步骤是首先切分出与词表匹配的所有可能的词,然后运用统计语言模型和决策算法决定最优切分结果。主要的语言统计模型和决策算法有:互信息、N元文法模型、最大熵模型等。
C.基于理解的分词方法
又称为人工智能法。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:(1)基于心理学的符号处理方法。即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理,像专家系统。(2)基于生理学的模拟方法。即模拟人脑的神经系统机构的运作机制来实现一定的功能,像神经网络系统。以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法。?輥?輯?訛
(2)去停用词
去停用词就是按照停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。在对文本分词后,还要对其进行词性标记。?輥?輰?訛通常一个句子可以由名词、动词、形容词、代词、副词、介词、冠词、连词等组成,其中最能表达文本意义的是名词和动词,但是其他词性像副词、连词等的出现频率也很高,如“很、的、而且”等词几乎出现在任何一篇中文文本中,但是他们对这个文本所表达的意思几乎没有任何贡献,这类停用词就需要被过滤掉。
3.2特征项选择与权值计算
对整个文本集中的每一篇文本的词项进行TF-IDF值计算,并将文本中各个词项的TF-IDF值表示为一个向量,以此进行文本的相似度计算。这个文本向量是高维而且极度稀疏的,这一方面会导致分类算法的代价过高,另一方面也会影响文本类别信息的提取。根据信息论,IDF的值实际上是一个特定条件下词项概率分布的交叉熵,而TF则是用来增加词项的权重,以便更好地描述文本中词项的信息特征。?輥?輱?訛因此,我们可以从每一篇文本中挑选若干重要词项来表示文本。这样就可以既保证文本特征的提取,又最大可能地减少文本特征向量表示的维度。比较常用的降维方法有文档频率、互信息、信息增益、期望交叉熵、卡方统计等?輥?輲?訛?輥?輳?訛本文将张保富等提出的改进的TF-IDF权重计算方法应用于特征项选择中。具体做法是:利用公式1计算每一篇文本中的权值,然后对其进行降序排序,从高到低选择权值比较大的2561个词语作为特征项。
3.3文本相似度计算
由于特征项代表了一部作品中最重要的信息,因此文本的相似度就可以由特征项向量间的相似度来描述。
用VSM表示D1和D2两个文本向量:
D1=D1(w11,w12,…w1n)
D2=D2(w21,w22,…w2n)
如果使用N维空间中两个向量直接的距离来表示文本间的相似程度,设Sim(D1,D2)表示这种相似程度。一般使用向量间的内积,或两向量夹角的余弦值来表示相似系数Sim(D1,D2)。
(1)向量间的内积公式:
Sim(D1,D2)=∑■■w■×w■
(2)向量夹角的余弦公式:
Sim(D1,D2)=cosθ=■
本次实验采用了向量夹角的余弦公式来计算文本相似度。
4.结果与分析
(1)通过计算得到郭敬明作品之间的相似度如表1:
表1:郭敬明作品间的相似度
注:表中所有数据均四舍五入到小数点后两位
观察表1,我们可以发现郭敬明四部作品彼此之间的相似度差异比较大,只有《夏至未至1995-2005》与《小时代1》的写作风格比较接近,相似度高达0.95,这说明其写作风格变化比较大。深陷抄袭风波的《梦里花落知多少》与其他三部的相似度处于中间状态。虽然它与《悲伤逆流成河》的相似度只有0.54,但并不能说明《梦里花落知多少》一书的写作风格偏离郭敬明的创作风格。因为从表中可以看到《悲伤逆流成河》与其他作品的相似度也偏低,说明《悲伤逆流成河》一书的言语风格在郭敬明的作品中是比较独特和另类的。正如部分读者说的:“《悲伤逆流成河》不同于郭敬明其他作品,幽默和悲伤掺杂,其整体基调都是悲伤的。”文学作品中,作者一般用形容词来表示人物的情感,可见这部作品和其他三部作品在形容词的使用上差异较大。而在用计量方法研究郭敬明和庄羽的言语风格差异时,我分别统计了郭敬明和庄羽的代表作《夏至未至1995-2005》和《圈里圈外》的词频,发现形容词在他们作品中的分布差异是比较明显的。因此,与郭敬明其他作品相比,《悲伤逆流成河》一书并不具有代表性。
(2)通过计算得到庄羽作品之间的相似度如表2:
表2:庄羽作品间的相似度
注:表中所有数据均四舍五入到小数点后两位
观察表2可知,庄羽四部作品之间的相似性非常高,说明其写作风格比较稳定。这或许与她一直以北京为背景,以描述男女残酷爱情为主要内容有关。其中《半张脸》与其他三部作品的相似度偏低,说明《半张脸》的写作风格比较独特和另类。对此,曾有读者在豆瓣上评论“在庄羽的《半张脸》中,熟悉的京味台词不见了。”因此,与庄羽其他作品相比,《半张脸》不具有典型性。
(3)通过计算得到郭敬明和庄羽作品(去掉不具代表性的《悲伤逆流成河》和不具典型性的《半张脸》)之间的相似度如表3:
表3:郭敬明作品与庄羽作品之间的相似度
注:表中所有数据均四舍五入到小数点后两位
观察表3,我们看到郭敬明的《梦里花落知多少》和庄羽的《圈里圈外》、《遍地姻缘》、《此去经年》有着非常高的相似度。对比之下,《小时代1》和《夏至未至1995-2005》与庄羽作品的相似度就比较低。
综合比较表1、表2和表3,可以发现,《梦里花落知多少》与庄羽的写作风格非常接近,确实存在着抄袭的现象。
5.结语
TF-IDF作为一种简单、直观、处理速度快的文本特征选择和加权方法,在文本相似度的计算中有着广泛应用。本文利用结合信息熵的改进TF-IDF算法计算了《梦里花落知多少》和《圈里圈外》的相似度,发现二者的相似性非常高,确实存在抄袭现象。可见,此算法在判定作品抄袭中是可行的,同时我们也发现了不少问题,在今后的研究中,我们还需在以下几个方面继续改进和努力:
(1)标注体系和工具对于统计结果的影响,语言风格在字、词、句等语言结构和语法、语义、语用层面的全面描写和计算是今后应该深入研究的课题。
(2)TF-IDF及其改进算法在识别同一作者的不同写作风格、判断某一作者作品的先后顺序、推测文本的来源、判定文本年代、辨别文本真伪等领域的应用也值得我们进行更广泛、更深入地研究。
(3)正如曾毅平等评价计量方法在汉语风格学中的应用“定性的方法适合于对作品气氛格调的整体把握,对言语特征的统计则适合于对风格的美质说明。”?輥?輴?訛一样,TF-IDF及其改进算法也有一定的局限性,在具体应用时,我们要将内省体验式的无形分析与有标记的数量分析相结合,建立一个科学的语言风格学体系。?輥?輵?訛
注释:
①史彦军,滕弘飞,金博.抄袭论文识别研究及进展[J].大连理工大学学报.2005,45(1):50-57.
②MONOSTORI K,ZASLAVSKY A,SCHMIDT H.Document overlap detection system for distributed digital libraries[A].Proceedings of the ACM Digital Libraries 2000 [C].San Antonio,ACM Press,2000.226-227.
③WISE MJ. YAP3,Improved detection of similarities in computer programs and other texts[A].Proceedings of the SIGCSE96[C].Philadelphia,ACM Press,1996.130-134.
④施聪莺,徐朝军,杨晓江,TFIDF算法研究综述[J].计算机应用.2009,29:167-170.
⑤Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc. of 1973 Meeting on Programming Languages and Information Retrieval. New York,USA:ACM Press,1973.
⑥张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78.
⑦张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20.
⑧庄羽诉郭敬明侵犯著作权案北京市高级人民法院民事判决书(节选)
⑨何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用,2010,46(3):125-130.
⑩奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.
?輥?輯?訛尹峰,林亚平.神径网络专家系统集成式汉语自动分词技术[J].软件世界,1996,(12):89-93.
?輥?輰?訛本文应用了中科院计算所汉语词法分析系统ICTCLAS进行中文分词和词性标注,同时运用了南京师范大学李斌的超大字符集词频统计软件进行词频统计。
?輥?輱?訛黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报.2011,34(5):856-864.
?輥?輲?訛王珍,维尼拉·木沙江.基于改进TF-IDF的文本特征选择方法[J].现代计算机.2009,7:34-36.
?輥?輳?訛罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033.
?輥?輴?訛曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报:哲学社会科学版,2006(1):14-17.
?輥?輵?訛丁金国.语言风格分析中的定性与定量[A].修辞学论文集(第四集)[C].福州:福建人民出版社,1987.
参考文献:
[1]史彦军,滕弘飞,金博.抄袭论文识别研究及进展[J].大连理工大学学报.2005,45(1):50-57.
[2]MONOSTORI K,ZASLAVSKY A,SCHMIDT H.Document overlap detection system for distributed digital libraries[A].Proceedings of the ACM Digital Libraries 2000[C].San Antonio,ACM Press,2000.226-227.
[3]WISE MJ.YAP3, Improved detection of similarities in computer programs and other texts[A].Proceedings of the SIGCSE96[C].Philadelphia,ACM Press,1996.130-134.
[4]施聪莺,徐朝军,杨晓江,TFIDF算法研究综述[J].计算机应用.2009,29:167-170.
[5]Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval.New York,USA:ACM Press,1973.
[6]张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78.
[7]张保富,施化吉,马素琴.基于TFIDF文本特征加权方法的改进研究[J].计算机应用与软件,2011,28(2):17-20.
[8]何国斌,赵晶璐.汉语文本自动分词算法的研究[J].计算机工程与应用,2010,46(3):125-130.
[9]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45.
[10]尹峰,林亚平.神径网络专家系统集成式汉语自动分词技术[J].软件世界,1996,(12):89-93.
[11]黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报.2011,34(5):856-864.
[12]王珍,维尼拉·木沙江.基于改进TF-IDF的文本特征选择方法[J].现代计算机.2009,7:34-36.
[13]罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033.
[14]曾毅平,朱晓文.计算方法在汉语风格学研究中的应用[J].福建师范大学学报:哲学社会科学版,2006(1):14-17.
[15]丁金国.语言风格分析中的定性与定量[A].修辞学论文集(第四集)[C].福州:福建人民出版社,1987.