APP下载

基于深度学习方面自然语言处理技术(NL P)的研究

2021-01-12

数字通信世界 2021年1期
关键词:语义向量语音

蒋 萍

(广西警察学院,广西 南宁 530028)

0 引言

目前,随着人工智能在深度学习方面的技术越来越可靠成熟,图像识别、图像分类、图像检测、自动驾驶、智能安防等方面已开始广泛应用深度神经网络技术。作为人工智能的皇冠“明珠”,语言智能如果可以实现突破,那么人工智能则可以得到进一步长足发展。近些年来,自然语言处理技术取得了突破性进展,尤其是基于深度学习方面自然语言处理技术在语音识别、智能问答、情感分析等领域都得到了广泛应用,未来将会发挥出巨大的优势。

1 深度学习与自然语言处理技术的概述

1.1 深度学习

(1)基本概念。深度学习(Deep Learning)是当前机器学习领域研究的一个热点,针对深度学习的研究,来源于人工神经网络研究,主要以通过建立深层的神经网络来模拟人脑运转机制,从而实现对图像、文本和语音的解析。

(2)结构模式。深度学习的结构模式可以根据模型和技术的应用划分成为生成性深度模式、区分性深度模式和混合型模型:生成性深度模式与传统型神经分区网络有所不同,该模式是通过讲述观测数据以及相应的联合概率分布来充分展现数据高阶的相关特点;区分性深度模式,卷积神经网络就是属于区分性训练,它能够真正实践多层成真的网络结构算法;混合型模型是区分更佳性的目标,它包含生成性部分和区分性部分。

1.2 自然语言处理技术

(1)基本概念。自然语言处理技术(NLP),主要是将机器学习算法应用于语音和文本。譬如,可以使用NLP 来创建机器翻译、语音识别、垃圾邮件检测、自动填写地址、命名实体识别等。如今,我们大多数人都拥有具有语音识别功能的智能手机,这些智能手机就是使用 NLP 来理解所说的内容。此外,许多人使用笔记本电脑,其操作系统也具有内置的语音识别功能。

(2)应用领域。针对深度学习方面的自然语言处理技术比针对传统机器学习方面的自然语言处理技术更具备应用的优势,它更适用于复杂的自然语言处理领域,从而促使 NLP 技术在智能问答、信息检索、机器翻译等方面能够发挥出更大的优势。目前,该技术主要用在检索领域、数据整合领域和语音识别领域等。

首先,该技术应用于检索领域能够大大提高检索的精准度,而且能够促使引擎更加精准的理解用户的需求、更加智能化。其次,该技术在数据整合领域的应用能够提高数据处理的质量、优化输出指令。最后,语音识别领域运用中,该技术能够通过语音对智能设备进行操控、提升语音识别系统的有效性。

2 自然语言处理技术在深度学习方面的技术优势

深度学习在自然语言处理运用中有一定的优势,通常一般将单词表示为向量,将文本或句子表示为单词的向量序列,进而完成对于语言的分类和理解过程。与传统的机器学习相比,该技术有着自身优势:一是深度学习能够具备更好性能的循环神经网络( RNN)、模型如卷积神经网络 (CNN)、长短记忆网络( LSTM)等,可以代替现有的线性模型,进而可以实现同等或者更好的性能。二是深度学习可以以词和向量为前提,学习语言的特征并且掌握更高层次和更加抽象的语言特征,进而满足特征工程的自然语言处理。三是深度学习可以通过神经网络自动学习高层次特性而无需专家人工定义训练集。

例如,在短文情感分析中,基于传统机器学习的自然语言处理技术往往会出现由于多义词而产生歧义,以及上下文信息的缺乏问题导致对于文本情感分析结果的准确性降低。但是基于深度学习方面的自然语言处理技术能够对传统基于单词层面的卷积神经网络模型进行优化,通过加入单词和句子方面的特征而构建起卷积神经网络模型,通过输入向量化的句子矩阵而提取更高向量度的特征,能够从句子的整体出发来理解词语的含义和整个句子的语义,最终实现情感分析的全过程。由此可见,基于深度学习方面的自然语言处理技术能够在减少网络模型工作量的基础之上提高对比分析的性能。

3 自然语言处理技术在深度学习方面的发展及应用

3.1 发展

首先,词向量技术的出现加快了深度学习方面自然语言处理技术的应用和推广,大大提升了情感分析、语音识别等自然语言处理任务的准确率。其次,深度学习的识别技术取代了原有 CRF 计算法,其构建的模型,只需要对训练数据做好标记,就可以通过标记的上下文,找出具有相似的实体以及类型。再次,通过运用 CNN算法,促使文本自动分类优势逐渐凸显。Yoon Kim 构建的自动分类卷积神经网络( CNN),可以提取文本特征,然后通过全连接神经网络层开展文本分类计算。最后,情感分析方面,以往对于情感倾向的分析需要借助句子中相应的词汇进行判断,而深度学习模型的应用能够充分融合情感分类和词向量的算法,并且借助深度学习模型实现观点级的情感分析以及文档级。

3.2 应用

深度学习可以用完全相同的一套工具、技术和方法,在相同的解题框架下以超高的准确性解决不同领域的不同问题。自然语言处理方面,深度学习通过以词义为起点,学习单词的词向量表示,进而构建出完整的语义空间。虽然与语音领域和图像方面取得的成就相比,深度学习在自然语言处理方面还没有能够实现重大突破,但是在很多相关领域已经取得了很好的效果。

(1)在词法的应用上:深度学习将每一个词根视为向量,通过神经网络将不同的向量联系在一起组成单词,这样就可以通过小的语言单位构建更大的语言单元。

(2)在句法的应用上:深度学习能够学习到句子的不同组成部分,也就是句子结构。

(3)在语义的应用上:深度学习能够使用向量表达短句的含义,进而通过神经元函数将不同的短句连接起来,以便构成更长的句子进行自主的学习。

(4)在情绪的分析上:结构递归的神经网络能够自主捕获到句子中的所有字节,从而能够正确判断句子的情绪。

4 自然语言处理技术在深度学习方面面临的挑战与展望

4.1 面临的挑战

在自然语言处理技术得到了突飞猛进发展的背景下,卷积神经网络和循环神经网络等基础模型的相继建立促使该技术在机器翻译、问答交互等各方面都有了很大的进展,但是仍然面临着很多的问题,主要表现在以下几个方面:

(1)自然语言的不确定性带来的挑战。人类语言的结构和逻辑关系非常的复杂,一词多义和不同语气代表的意思截然不同,这些都是常见的现象。即便采取向量技术作为原始输入信号,但是也不能够保证将原始的信息分毫不差的输入到学习的模型之中,而且因为自然语言的不确定性带来的误差也会随着不同间层的传递而会被局部放大,想要突破这种不确定性带来的误差就需要结合语言的语境。因此,突破自然语言的局限性,结合上下文开展深层语义的理解将是未来重点的发展方向。

(2)大规模语料数据建设面临的挑战。自然语言处理技术以统计机器学作为基础,因而离不开大规模的语料库的支撑,而语料库则需要人工建立,比如PennTreebank、WordNet 等。但是,不论哪种类型和规模的语料库都不可能囊括某一个领域的所有案例。不仅如此,语料库的划分过细就会导致信息量过于庞大,相反,如果过粗划分资料库则没有办法很准确描述语言,从而导致严重的统计数据稀疏问题发生。

(3)语义分析面临的挑战。自然语言处理面临的又一个大的挑战是怎样可以更加精准表达语义,目前,常用两种语义分析方法有基于统计学的语义分析及基于语义规则的语义分析。虽然当前这两种方法都可以进行语义推导和准确判别信息之间的关联,但是都不能够完全覆盖全部语言现象,无法处理不确定事件存在限制和缺陷,因此,知识及建立语义规则是自然语言处理技术的难点。不仅如此,基于统计学的语义分析方法需要大规模语料库的支持,那么就很容易受到数据稀疏和噪声的干扰,正如之前所提及的,语义分析仍然是一大难题。

4.2 展望

自然语言处理技术在深度学习方面发展还需要在多模态、生成、预练习和神经符号处理等几个方面进行探索,而其中的关键还是在于新的神经网络模型的开发。

首先,深度学习在图像、语音、语言几个领域的研究相对比较独立,在今后通过深度学习把它们联系在一起,比如,卷积神经网络的跨领域使用;跨模态的信息处理,看图说话就是一个较为典型的例子,多模态的信息处理在未来还有很大的发展空间,在未来还会出现很多新的技术以及新的应用。其次,生成是深度学习给自然语言处理技术带来的重要变革,目前训练语料充分的机器翻译(比如新闻翻译)已经可以使用,而围绕着生成的技术创新还存在很大的潜力。再次,预练习是指用大量的无标注数据,实现训练语言表示模型,然后用于各种语言处理任务。目前,预练习的语言表示模型BERT 用于不同的语言处理任务,促使正确率得到大幅度提升。无标注数据都是大量存在的,预练习技术在促进自然语言处理发展的前景也是非常可观的。最后,神经符号树立能够将神经处理和符号处理进行结合,进而实现更加强大的语言处理能力,可以认为神经处理与符号处理相对应着人的下意识和意识层面的信息处理,这两种处理是完全不同的特性,将其结合并不是一件简单的事情,但是一旦取得突破,将会带来革命性的进步。

5 结束语

深度学习在图像、声音和语言等领域都产生了深远的影响,但是基于深度学习的自然语言处理技术仍存在一定问题,因此,在未来的研究工作中需要不断的进行研究,相信伴随着计算能力的不断增强和训练数据的进一步增多,未来该技术一定能够得到进一步突破。

猜你喜欢

语义向量语音
真实场景水下语义分割方法及数据集
向量的分解
聚焦“向量与三角”创新题
语言与语义
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
对方正在输入……
向量垂直在解析几何中的应用
“吃+NP”的语义生成机制研究