APP下载

西班牙文文本分析研究综述

2020-02-25

福建质量管理 2020年6期
关键词:西班牙语语料库学者

(福州大学 福建 福州 350000)

一、引言

在“一带一路”倡议以及全球化的深入发展的背景中,国家与国家之间的交流也更加频繁与深入,中国与西班牙语国家双边贸易额度总体呈快速增长态势,表明中国已是绝大部分西班牙语国家的主要贸易伙伴之一,双方有着广阔的合作前景[1]。因此,对来自西班牙语国家的海量数据进行高效挖掘成为支持我国相关组织进行管理决策的重要信息管理技术。

从数据挖掘的角度上来看,文本挖掘指的是将数据挖掘技术应用在文本集合上,以发现其中隐含的知识。文本分析是文本挖掘的一个关键过程,是从文本数据中获得具有较高质量的文本特征的方法和过程。

在广泛查阅与西班牙文文本分析相关的国内外研究成果的基础上,本文介绍了文本分析的相关概念,罗列了几种能用于西班牙文分词工具,并且简要概述了目前国内外文本分析的研究成果。

二、相关概念及分析工具

(一)相关概念

文本分析作为文本挖掘的一个部分,涉及到使用自然语言处理、信息检索和机器学习等技术将非结构化的文本数据在语法上解析成更具结构化的数据形式,即是将文本数据转换为可以体现出文本特征的词向量。

在语言学上,词是可独立使用的最小语言单位,通常由词组成短语,短语组成从句,从句组成句子。西班牙文以词为书写单位,有空格作为分界符加以区分。简单的切分是不足的,必须引入词干提取、词形还原等文本分析技术对文本数据进行更精确的切分。

词干提取和词形还原是词语规范化处理的两种相似技术。词干提取主要用于信息检索领域,而词形还原更多用于处理单词准确率要求较高的文本分类、情感分析等领域[2]。

(二)西班牙文文本分析工具

词干提取和词形还原的方法均较为成熟,主要可以分为基于规则的方法、基于词典的方法、基于统计的方法以及混合的方法。下文将列出目前较为成熟的3个包含词干提取、词性还原的功能且可用于西班牙文文本分析的工具。

1.Stanford core NLP

Stanford core NLP[3]提供了对西班牙语的分词、词性标注、命名实体识别等功能。

2.NLTK

NLTK[4]支持包括西班牙语在内的分词、词干提取、词性标注、词形还原等功能。

3.Pattern.es

Pattern[5]中的pattern.es包含了专用于西班牙语文本分析的词性标注器以及词干提取、词性还原工具。

三、国内外研究及应用

研究跨语言文本分析要解决的问题是:由于语言习惯以及语法上的差异,适用于某一特定语言的分析方法未必适合另一语言。目前,在跨语言的文本研究上常用的研究方法有三种:基于机器翻译的方法、基于统计和词典的方法和基于平行语料和深度学习的方法。

(一)国内研究及应用

我国在文本分析上的研究主要集中于算法的改进或是创新,主要研究领域有文本分类[6]、情感分析[7]等,对专用于文本分析的工具的研发成果较少。

国内学者在跨语言文本的处理上以英语文本为主,增加了如法语、日语等语;一部分学者选择了我国的少数民族语言;还有一部分学者选择了泰国语等周边国家的语言。

国内学者使用西班牙语进行的文本分析相关研究还不是很多,我国学者改进或创新的算法用于西班牙语的文本分析研究也尚未见较多相关的实验结果。文献[8]提出了综合集成计算模型和深度多任务学习模型的方法用于英语-西班牙语文本相似度评估。文献[9]使用西班牙酒店的网页文本自建了一个小型语料库,并进行相关的分析工作。文献[10]建立2016年《国务院政府工作报告》中英西三语平行语料库,分析了句法特征和词汇特征。

综上所述,我国学者对于西班牙语文本分析的研究还远不如对英语文本的研究深入,因此,对于西班牙语文本分析的研究前景较为广阔,或许可以成为未来的研究方向。

(二)国外研究及应用

尽管我国在跨语言的文本分析研究中对西班牙语的研究和讨论较少,但西班牙语的文本分析在西班牙语系国家以及英语系国家的研究中仍然占有一席之地。国外学者的研究在较早的时候大多集中于算法或模型的提出与改进,而后则慢慢转向具体应用领域的研究。

1.西班牙语国家的研究及应用

近几年,西班牙语系学者在西班牙语的文本分析的研究上十分重视情感分析的研究,除此之外,对于文本简化[11]、机器翻译[12]、问答系统[13]等方面的研究也十分活跃。

在情感分析方面,西班牙自然语言处理协会(SEPLN)[14]组织了SEPLN(TASS)语义分析研讨会积极推动相关研究的进程。文献[15]提出了基于二进制最大熵的情绪分析策略,可区分六种情绪类别。文献[16]致力于根据西班牙语语言特性建立一个新的西班牙语的情感词典。

此外,西班牙语系学者关于文本分析的研究还涉及了财务以及西班牙语学习等相关方面,如文献[17]利用自然语言处理、本体学习、意见挖掘等方面的技术,实现财务分析相关流程自动化;文献[18]提出了针对西班牙语学习中语法搭配错误的自动分类方法,给学习者提供语法学习的辅助工具。

在跨语言的文本分析研究方面,西班牙语系学者与中国学者相似,大多都首选了英语文本作为实验数据,还有一部分学者使用了与西班牙语相似的的语言,如荷兰语[19]、以及葡萄牙语等。

2.非西班牙语国家的研究及应用

在非西班牙语系国家关于西班牙语文本分析的研究中,大多数可得文献以英文为主,这类研究学者对西班牙语文本分析的研究也属于跨语言的文本分析研究,近几年语料库的建设及基于其的分析研究逐渐涌现,此外,文本简化及注释[20]方面的研究也都有所突破。

在语料库的建设及分析方面,文献[21]介绍了在MULTINOT项目中的英语-西班牙语平行语料库的建设工作。文献[22]建设了一个标注否定情绪的西班牙语语料库。

综上所述,从文献内容来看,无论是西班牙语系的学者,还是非西班牙语系的学者,比较倾向于跨领域应用方面的研究。

四、结论

文本分析作为文本挖掘的一个重要步骤,其对海量信息进行高效的管理、挖掘和运用的意义和价值逐渐受到关注并获得一定的研究进展。总结国内外关于西班牙语文本分析的研究现状,可见其在西语系国家受到较高的重视,同时在国际上西班牙语文本分析也占有一席之地,但我国在西班牙语文本分析上的研究仍有待加深,未来的研究方向在于:

(1)将已有成果向西班牙语文本分析拓展。后续研究可将现有的研究成果应用于西班牙语语料,对比各类已有算法在西班牙语上的文本分析效果。

(2)将现有研究成果向其他领域的应用发展。后续研究可将现有的成果应用到其他领域,或使用某一领域的专业文本进行实验检查分析效果。

(3)对现有算法进行改进。尽管现有算法或相关的工具在西班牙语文本分析的研究方面已经能够达到较为准确的程度,但是学海无涯,这一研究仍然有继续提升的空间。

猜你喜欢

西班牙语语料库学者
学者介绍
学者简介
学者介绍
《语料库翻译文体学》评介
西班牙语母语者汉语副词“就”的习得研究
电力西班牙语在委内瑞拉输变电项目上的应用
学者介绍
基于COCA语料库的近义词辨析 ——以choose和select为例
基于JAVAEE的维吾尔中介语语料库开发与实现