语音识别技术在上海市轨道交通领域的优化和应用

2024-07-05钱小毅王衡

管理学家 2024年12期

钱小毅王衡

了[摘要]语音识别作为人工智能领域重要的组成技术之一，目前发展已经较为成熟，在诸多领域已经有非常广泛的应用。但是，语音识别技术与轨道交通领域业务场景的结合目前还处在探索阶段，基于此，文章以上海市轨道交通业务为研究对象，探讨了语音识别技术应用在上海市轨道交通各业务场景中可能面临的问题、所需采取的优化措施以及未来的发展趋势，以供参考。

[关键词]人工智能；语音识别技术；轨道交通

中图分类号：U239.5 文献标识码：A 文章编号：1674-1722（2024）12-0013-03

上海市轨道交通运营规模、用工规模庞大，业务场景繁多，业务流程复杂。语音识别技术解决的主要问题就是人机语音交互的问题，使机器可以“听得懂”人类的语音，正确地理解其含义，从而发挥减轻工作强度、提高工作效率、提升乘客体验友好度、降低用工成本等作用。

一、人工智能与专业领域语音识别的相关概念

（一）人工智能

人工智能是指通过计算机程序或机器模拟、实现人类智能的技术和方法。它可以让计算机具有感知、理解、判断、推理、学习、识别、生成和交互等类人智能的能力，从而能够执行各种任务，甚至超越人类的智能表现。人工智能技术的核心是机器学习和深度学习等算法，它们通过大量数据和训练，使计算机可以自动发现数据中的规律，进行模式识别、分类及预测等操作[ 1 ]。

（二）专业领域语音识别

1.语言模型自适应

通用语音识别系统一般很难在垂直领域直接应用，其中的一个重要原因就是不同领域都有着各自的专业词汇和使用习惯，通用的语音识别系统很难覆盖到该领域的所有专业词汇。解决这个问题需要定制语言模型，收集一定量的领域语料，可以对语言模型进行自适应训练，使得定制后的语言模型能够表达该领域的语言现象，提高该领域内语音识别的识别率[ 2 ]。

2.声学模型自适应

语音识别建模需要对语音信号和文字内容间的关系进行建模，体现在声学模型上，要求语音信号能够尽可能真实反映地内容信息。为提高语音识别率，要克服语音信号多样性的弊端，包括说话人的多样性（说话人的语速、口音等）、环境的多样性等[ 3 ]。

二、语音识别现有技术的挑战

（一）噪声和环境干扰

在实际应用中，语音识别技术面临着诸多挑战，其中之一便是噪声和环境干扰。例如在车站站厅有来源众多的噪声，乘客间的对话声、行李拖行声、喇叭广播声等。噪声能够改变语音信号的频谱特征，使得语音识别系统难以准确地提取和识别关键的语音特征。背景噪声可能掩盖了语音信号中细微的特征，导致错误的识别结果或识别率降低[ 4 ]。环境干扰会对语音识别系统的准确性产生影响。不同环境条件下存在各异的声学特性，如房间大小、形状以及吸声材料等因素，麦克风位置和质量等因素也会对录入到系统中的语音信号产生影响。这些环境相关因素增加了额外的语音变异和不确定性，从而增加了语音识别系统处理的复杂性。

（二）口音和方言

地区之间明显的口音和方言差异，也给语音识别系统造成了一定程度上的干扰。一方面，口音和方言的多样化使语音信号变得更加复杂。例如，同一种汉语发音在上海话和普通话中的发音就不同，比如“人”在普通话里发音为“ren”（二声），在上海话里发音是“ning”（二声）。此外，还有一些特殊的发音形式，会出现如连读、省略等情况。所有这些问题都可能导致语音识别系统的错误率相应增高，都需要通过对算法进行专门的大量训练和处理才能正确识别出来。另一方面，口音和方言的巨大差异也直接影响到语音数据库的建立。目前市面上的语音识别系统主要基于机器学习模型，需要大量标注好的语音数据集进行训练。由于每个地区的口音和方言都不同，需要收集并标记足够多的当地语音数据才能保证训练效果；否则，语音识别模型无法充分利用当地的语音特点，导致识别结果不准确。

（三）词汇和语言模型的限制

词汇和语言模型的限制涉及词汇量的覆盖范围、词汇的歧义性以及语言模型的上下文理解能力等方面。现有的语音识别系统需要建立庞大的词汇表，以便准确地识别和理解说话者的语音输入。但在实际落地的应用中存在大量专业术语、新词和方言词汇等，这些词汇可能不在词汇表中，导致识别错误或无法识别的情况。在语音识别过程中，如何处理词汇的歧义性是一项非常重要的任务。由于某些词汇在不同上下文中的发音非常接近甚至完全相同，这可能导致语音识别系统产生错误。以“红”和“洪”为例，在普通话发音上完全一样，如果没有足够的上下文信息，语音识别系统可能无法正确区分它们。语言模型的上下文理解能力也是一个挑战。语音识别系统需要能够理解和解释说话者的意图和语境，以便正确地识别和转化语音输入，但由于语言的复杂性，其中包含的丰富的上下文信息、语法规则和语义关系等，使得系统很难正确理解每句话的真实含义。

三、语音识别技术的优化措施

（一）数据增强

数据增强是优化语音识别技术的重要方法之一。在语音识别模型的训练过程中，数据的质量和数量对模型的性能甚至起着决定性作用。通过对原始语音数据进行变换和扩充，数据增强可以生成更多多样化的训练样本，提高模型的鲁棒性和泛化能力。

常见的数据增强方法包括速度变换、音频剪辑、添加噪声和语音增幅。借助数据增强可以提供更多多样性的训练数据，改善模型性能；可以减少模型在未曾见过示例上的过拟合问题，提升其泛化能力；通过引入不同义项、说话速度及背景噪声等因素，数据增强使得模型对各种环境和语音特征具备更好的适应性，能提高模型在嘈杂环境下的语音识别准确性。另外，在进行数据增强时，要注意维持数据的真实性和可靠性。过分变换和大量添加噪声可能导致生成样本与真实语音差异过大，进而降低模型性能。在进行数据增强时，要根据实际场景和应用需求合理控制和选择方法，确保生成样本与实际应用场景保持一定的一致性。

（二）声学建模

声学建模是优化语音识别技术的重要方法之一，它在语音识别任务中起着关键作用，能够将语音信号与相应的文本进行对齐和匹配。声学建模的目标是通过训练数据学习声学模型的参数，准确估计语音信号的特征和文本之间的对应关系。深度学习模型如循环神经网络（RNNs）和卷积神经网络（CNNs）相比传统声学建模领域常使用的高斯混合模型（GMMs）和隐马尔可夫模型（HMMs），可以更好地学习语音信号的时域和频域特征，增强模型对声音的识别能力。采用深度学习模型，可以改善声学建模过程，提高模型的准确性和鲁棒性。除了选择合适的建模方法之外，优化声学建模还涉及训练数据的准备和选择。

合理选择训练数据对于声学建模非常重要。通常需要使用来自不同说话人和多种环境条件下的语音样本进行训练，提高模型在不同情况下的适应性和泛化能力。此外，数据清洗、去噪和标注也是关键步骤，可以提高模型对干扰、噪声和误标注的一致性。

（三）语言模型

语言模型在优化语音识别任务中起着重要作用。它主要提供了语音信号解码所需的上下文信息，提高识别准确性并消除歧义。该模型基于训练数据学习句子的概率分布和语言规律，使得系统能够根据其指导选择最可能的识别结果。针对语音识别任务，常用的语言模型包括n-gram模型和神经网络通用的神经语言模型（NLM）。n-gram模型利用训练数据中单词频率和出现概率进行参数估计。与之不同的是，神经语言模型利用神经网络学习语言模型参数，可以对长期依赖和复杂的语言结构进行建模。引入语言模型后，识别系统能够考虑到上下文信息，有助于更好地理解和纠正识别错误。语言模型可以消除或减轻发音相似或混淆的词、短语或句子造成的歧义，提高最终的识别准确性。

四、语音识别技术的未来发展趋势及应用场景

（一）发展趋势

1.增强学习

增强学习被认为是语音识别技术未来发展的趋势之一。它是一种机器学习方法，通过与环境的互动，学习最佳行为策略，可以用于优化模型性能。借助增强学习，语音识别系统能够与环境不断交互，根据反馈信号调整模型参数，提高识别准确率，有助于系统自动学习和适应不同的语音特征、噪声环境和说话风格。多模态语音识别是另一个发展趋势，它结合了语音和其他传感器数据，可以利用说话者面部表情、手势和其他身体语言信息辅助语音识别，更准确地理解说话者意图。

2.上下文感知

未来，语音识别技术将注重上下文感知，利用语音输入的上下文信息，提高识别准确性和语义理解能力。可以采用多层次的语音识别模型。例如，在识别单个词汇时结合前后文信息提高准确率。此外，可考虑用户对话历史、个人资料及环境背景等多种因素综合考虑实现上下文感知。这样的系统能更好地理解用户意图和上下文，提供更准确、个性化的语音识别结果。同时，上下文感知可以与其他技术如自然语言处理和机器学习相结合。通过融合自然语言处理技术，系统能更好地理解和阐释输入语音的含义；机器学习方法有助于从大量的数据中学习到关于上下文信息的模式和规律，进一步提高识别的准确性。

3.跨语种和跨方言识别

传统的语音识别系统通常是针对特定语种和方言进行训练和优化的，对于其他语种和方言的识别准确率较低。跨语种和跨方言识别的实现面临一些挑战，如不同语音特征、发音习惯和语法结构的差异。为了应对这些挑战，需要使用更大规模的多语种数据集进行训练，开发更强大的跨语种模型。这些模型将能够学习到更广泛的语音特征和语言规律，提高跨语种和跨方言的识别准确率。另外，跨语种和跨方言识别需要考虑到不同语言和方言之间的语义和文化差异，这意味着系统需要具备跨文化的理解能力，准确理解和解释不同语言和方言中隐含的意义和文化背景。

（二）应用场景

1.乘客服务

参考目前上海市及其他城市的轨道交通行业已经实际落地的项目中的应用，语音识别在乘客服务领域将拥有以下几大应用场景。

一是语音购票。上海市地铁现有的购票机仅支持传统的触控操作，其科技性已远远落后于上海市“国际化大都市”的定位。触控操作的方式容易引发交叉感染，引发乘客的不安情绪。在购票设备中添加语音识别模块，支持语音识别的方式购票，可提升乘客在购票环节的安全感，降低交叉感染的风险，可以提升乘客购票体验。

二是智能客服。目前上海市轨道交通行业各个车站面向乘客服务的服务主体依然是客服中心的客服工作人员，一个站点少则设立1至2个客服中心，多的如人民广场站客服中心的数量达到了5个，每个客服中心都要有至少1个工作人员驻守，在一定程度上增加了企业的用工成本。如果由智能化设备为乘客提供异常票卡处理、出入口信息问询、换乘信息问询、站内设施信息问询等服务，将在最大程度上减少人工客服中心的数量，节省大量用工成本。

2.实时转写

在上海市轨道交通的各个业务处置过程中，存在大量人工沟通交流类的工作，此工作中留痕的主要方式是对通话内容进行录音，但该方法存在一定的局限性。如站务人员与乘客的沟通内容就很难进行录音保存，哪怕保存了，在事后也因为数据量过于庞大，难以进行有效监督和检查。在沟通过程中可以引入语音识别技术，采用电子工牌的方式，将对话除了录音外，还同时进行转写，以文字形式保存对话内容，并与录音文件关联保存。

3.表单自动化

表单信息的录入需要在双方沟通清楚相关内容后，再由工作人员手工转录进相关表单中，相当于对表单内容进行重复确认，且手动录入效率相对较低。如果引入语音识别系统，在双方沟通的同时就能检测沟通内容，当检测到关键信息时自动触发相关表单的填写，双方信息交换完成后，表单填写完成，工作人员无需再对表单进行手动录入。