APP下载

法语文本挖掘研究综述

2020-02-25

福建质量管理 2020年6期
关键词:信息检索法语分类

(福州大学 福建 福州 350000)

一、引言

随着互联网和全球信息化的发展,互联网上的信息资源类型和数量日益丰富,中法两国之间得的信息共享也日益增多。来自学术领域、商业领域或是政治领域的国际交流也逐渐频繁,语言的障碍加之文本信息量巨大局限了人们对关键信息的有效获取,同时影响了跨语言信息价值的充分发挥。跨语言信息的有效文本主题发现己成为一种迫切的需求,中法跨语言文本挖掘成为研究热潮。

二、国内外研究及应用

(一)国外研究及应用

国内外对跨语言文本主题分析研究较少,主要集中于信息检索、情感分析领域、单一语言主题分析和文本分类领域,而对跨语言文本研究的主要处理方法是将跨语言文本进行转换,使用标准单语种方法进行文本研究,转换主要通过领域适应将不同语言分为源领域和目标域建立模型。目前在跨语言的文本研究上常用的研究方法主要有三种:基于机器翻译的方法、基于统计和词典的方法以及基于平行语料和深度学习的方法。

我国在文本挖掘上的研究主要集中于算法的改进、创新,研究领域集中于信息检索、情感分析、文本分类和主题分析,对文本挖掘工具的研发成果较少。张琪玉[1]提出了情报检索语言的效率衡量指标,为其他学者对检索系统的文本检索提供了启示。寇钧锋[2]对自然语言和受控语言的互补可行性进行了分析,并对自然语言进行适当控制方法提出了探索。李思[3]等针对于传统单一粒度上情感分析方法准确率不足的缺点,通过结合词语级和句子级的篇章情感分析,提出了一种基于不同粒度的中文文本情感分析算法提高了情感分析准确率。施寒潇[4]等基于半监督学习的属性分类,提出了细粒度情感分析方法解决了传统情感分析不够细化的不足。我国学者对文本分类研究集中于文本分类算法质量,杜圣东等[5]针对支持向量机对文本分类准确度不够的问题,提出了基于二叉树基础的多类SVM改进算法,并将通过大量文本分类实践验证了其准确性。张志飞[6]等采用K近邻方法对自动抓取的网页面标题数据进行分类,针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法,提高了文本分类的相似度。刘娇[7]借助利用融合自联想记忆的卷积神经网络学习到任意语种语义的高层特征致密组合,输出分类预测,提高了分类的精确度,同时降低了对平行语料库的依赖程度。

综上所述,我国学者对于法语文本挖掘的研究较少,在跨语言文本选择方面集中于中文英语双语互译算法研究方面,而缺少对中法跨语言文本挖掘研究。

(二)国外研究及应用

尽管我国在跨语言的文本挖掘研究中对法语的研究和讨论较少,但法语作为作为国际通用语言之一,在世界文化中仍占据一席之地。对法语的文本挖掘仍然是重中之重。与国内对法语的文本挖掘研究不同,法语系学者的研究在较早的时候大多集中于算法或模型的提出与改进,而后则慢慢转向具体应用领域的研究。法语系学者对法语的文本挖掘主要集中于信息检索、情感分析、机器翻译和自然语言处理等具体领域。

法国学者对信息检索的研究集中于方法创新以及工具研发。在方法创新方面,Hatem Haddadi[8]提出了基于短语而非基于单词的文本挖掘方法,通过分析短语间的关联关系构建了法语信息检索系统,通过对法语国家语料库进行测试表明在低召回率的情况下,将名词短语索引与关联关系相结合可以提高信息检索系统的性能。Alberto等[9]基于Lexicon-Grammar理论分析框架,结合压缩术语电子词典,建立了法语解析规则的变体句法和统计集,提高了对大型文本语料库的检索效率,同时也对基于跨语言的可移植性和web平台的跨语言构建支持可行性做出了初步探索。Abdaoui等[10]在简化了英语NRC情感词典的基础上,对法语词汇进行了详细的情感系数分配,扩展了法语情感词典,丰富了法语情感层次。Erik Boiy等[11]主要研究网络文本情感分析,通过收集法语博客内容并进行句子级情感注释结合机器情感训练,对博客主的产品消费兴趣进行了分析,与基于unigram的分类算法相比提高了情感分类的准确度,并为跨语言模型的可移植性提供了理论基础。Mathieu等[12]基于双语词典进行文本聚类,实验以无人监督的方式从多语言文档集合中提取主题相关的多语言文档集群,通过相关函数识别文档并用最近邻聚类算法进行聚类。Kazuaki[13]针对跨语言信息检索中基于字典查询翻译通常会产生具有不同含义的候选问题,提出了基于目标文档集合来解决翻译歧义的方法,通过在集合中使用术语共现统计及伪相关反馈技术,测试了法语的信息检索,研究表明Dice系数略微优于余弦系数。Hanneman等[14]基于卡内基梅隆大学MT系统中法英转换系统的原理,提出了基于语法的改进策略,该方法包含了对句法的分析以及非对称句子结构的转换,提高了MT系统法英文本可读性。Cheng等[15]针对智能翻译中单向翻译可能过度捕捉已设定的规则问题,提出了基于协议的双向互通理论,通过对单词对齐矩阵的调节用于提高双向互通的端到端神经机器翻译准确度,最后用于汉英和英法的翻译测试中得出了显著的翻译效果。

由此可见,法语学者对文本挖掘有较为深入的研究,且就研究领域来看倾向于信息检索与情感分析,且更多研究于算法开发,对跨语言文本聚类领域的研究较少。

三、研究意义

本文梳理了已有的中法跨语言文本挖掘方法,可以方便人们高效的管理和检索跨语言文档,把握信息潮流。此外本文还可以与问答系统、网络信息安全、情报获取等多个领域的技术相结合,为人工智能应答、海量文本情报获取提供更加快捷的方法。在将来所需要做的工作就是:如何将现存的数据挖掘技术应用与文本挖掘领域很好地融合,那样中法跨语言本文挖掘就能够更有效地进行。

猜你喜欢

信息检索法语分类
分类算一算
自杀呈现中的自杀预防——法语动画电影《自杀专卖店》的多模态话语分析
浅谈法语学习难点以及应对策略
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
论法语的体系统
基于神经网络的个性化信息检索模型研究