APP下载

未来调度业务融入语音识别技术应用的畅想

2024-06-18朱伟

管理学家 2024年11期

[摘 要]上海市地铁规模不断扩张,但调度工作的工作方式和依赖工具依然较为落后。为了应对日益繁重的调度工作任务,从根本上减轻上海市地铁调度工作人员的工作压力和工作强度,实现降本增效的发展目标,文章从调度业务入手,详细分析在调度业务中引入语音识别技术的可行性及其可能达到的效果,设想了在调度通话、事后质检、表单填写、预案触发等业务流程中引入语音识别技术的效果和可能面临的困难,以供参考。

[关键词]上海地铁;语音识别技术;调度业务

中图分类号:U239.5 文献标识码:A 文章编号:1674-1722(2024)11-0034-03

现阶段,语音识别技术作为人工智能领域重要的发展方向之一,在轨道交通行业已经具备诸多实际落地的应用场景,如语音购票、智能客服、智能开关站等。目前,上述应用场景主要侧重于地铁车站的日常运营工作,在轨道交通行业各业务中充当“大脑”的角色,与语音识别技术的实际结合案例相对较少。

基于此,文章针对上海地铁调度业务与语音识别技术结合后,能够对原有流程或工作实施提升和优化的点展开大胆设想,希望可以在不扩张现有上海地铁调度团队规模的同时,减轻调度工作人员的工作压力,提高工作效率。

一、语音识别技术概述

ASR技术的发展历史可以追溯到20世纪六七十年代,当时主要集中在单词识别上。2 0世纪八九十年代,隐马尔可夫模型(Hidden Markov Model,HMM)引起了人们的兴趣,并成功地应用于语音识别领域。近年来,随着深度学习技术的发展,深度神经网络(Deep Neural Networks,DNN)模型在语音识别领域表现越来越好。

目前,主流的ASR技术包括基于统计方法的传统ASR系统和基于深度学习的新一代ASR系统两种。其中,基于统计方法的传统ASR系统使用高斯混合模型(GMM)和HMM等统计建模方法对语音信号进行建模和识别。基于深度学习的新一代ASR系统则利用DNN、长短时记忆网络(LSTM)、卷积神经网络(CNN)等深度学习模型对语音信号进行建模和识别[ 1 ]。相比之下,基于深度学习的新一代ASR系统在性能上明显优于传统ASR系统,因此得到了广泛应用和研究。

二、上海市地铁调度业务现状

(一)工作内容

调度工作人员的工作内容从类型上主要分为三种。

一是沟通类工作。调度工作本身绝大部分工作内容都是沟通类工作,主要包括与车站的沟通、内部跨专业的沟通以及与运营公司和第三方维保单位间的沟通等。相对于文字类信息,沟通类工作的语言类信息在时效性上更具优势,而调度工作的性质也决定了其对时效性的强烈要求。

二是表单类工作。相较于沟通类工作,表单类工作虽然也起到传递信息的作用,但与沟通类工作不同的是信息传递的对象和对时效性的要求。表单类工作更关注信息的准确性。表单类工作最大的优点在于留痕和有迹可查,多数沟通类工作在事后也会相应地补充一项表单类工作。

三是复听转写类工作。复听转写类工作主要是将沟通类工作过程中产生的录音文件,通过重复收听转写为文字版,一般在遇到重大事项需要专门向上汇报时进行。平时更多是复听类工作,也就是抽调专人对沟通类工作过程中产生的录音文件进行复听,检查在沟通过程中是否有不合规、不专业以及遗漏项等问题。

(二)工作流程

沟通类工作的工作方式主要依赖专用话机,调度中心与车站、运营单位、内部跨专业以及第三方等的沟通需要通过不同话机进行。沟通类工作结束后会产生通话录音。如果属于日常类沟通工作,需要补充填写表单的就需要人工进行表单补充填写。通话产生的录音在后续会被抽样做复听质检,复听质检实际就是抽派专人复听抽样的通话录音,检查通话过程是否合规、是否有遗漏项等。如果属于重大事项,如列车火灾、车门夹人等,则需要调度人员对通话过程中产生的所有录音复听转写,即由调度工作人员人工复听录音文件,将录音文件转写为文字版上报给领导,方便领导检查。

三、调度业务引入语音识别技术的需求

(一)复听转写

相较于文字信息,语言信息虽然在信息传递的实时性方面具有不可比拟的优越性,但在事后复盘检阅过程中其便利性却又不如文字信息,文字的阅读速度因人而异,音频的复听速度却依赖于音频的长度,一段三分钟的音频如果复听一定需要3分钟的时长,而且一段音频还可能会被复听,但是将其蕴含的内容转写成文字,阅读起来可能只需要1分钟的时间,可以略读不重要的内容,重点关注主要内容即可。正因如此,为了上级领导可以及时注意到关键内容,调度人员上报重大事项时需要先将音频内容转写成文字版。

(二)复听质检

相较于复听转写工作,复听质检少了将音频文件转写为文字版的过程,但是其在事后复盘检阅文字信息的便利性是语音信息不具备的,由于调度工作对实时性的要求,沟通工作只能以语言沟通为主。

(三)表单填写

表单填写工作需要调度工作人员回忆在电话沟通过程中双方交换的信息,在信息较多无法完整回忆时,要复听录音文件,将正确的信息以文字的形式填写在表单内,这一过程有点类似复听转写,但与复听转写不同的是,表单填写不需要将对话内容完整转换,表单相对固定,只需要将表单内需要的内容转成文字填入即可,因调度人员无法直观地看到所需内容具体在哪一部分,其依然需要从头到尾完整地复听整段录音,直到将表单所需内容填写完整。

(四)信息检索

因沟通过程中可能只会产生音频文件而没有文字记录,这会对事后检索所需信息造成严重障碍,工作人员无法对所需信息进行有效检索,只能逐个排查。如果涉及应急事件的处置,工作人员核对后,需要在系统中手动检索相关的预案,在这种较为紧急的时刻,手动检索的动作相对就显得比较低效。

四、语音识别技术的引入

在调度业务中,为了保证重要信息传递的实时性,最关键和不可缺少的环节是语言类的信息传递,但是与之矛盾的是,语言类的信息在事后的回顾和检查过程中会带来种种不便,远不如文字信息直观和便捷。在此过程中,引入语音识别技术,实现语音信息到文字信息的自动转换,可以为调度工作人员节省大量的精力,减轻绝大部分文字输入类工作的压力。

(一)实时转写

针对复听转写和复听质检的痛点引入语音识别技术后,将语音识别服务对接通话系统,在调度人员与车站、运营单位和其他第三方维保单位等通话过程中,将对话内容实时转写成文字版,既可以避免事后复听转写的工作,也可以将对话内容更加直观、实时地呈现在调度人员眼前,最大限度地避免了信息在口语传递过程中可能产生的误解和偏差[ 2 ]。

具体设想如下:通话系统中接入语音识别的服务,实时监听双方的通话内容,将对话内容实时识别输出成文字版,将输出的文字内容展示在调度工作人员的计算机屏幕上。这样既可以及时发现并纠正通话双方沟通过程中可能无意中出现的口误,也可以对沟通内容形成的文字+音频进行双重记录,在节省人为复听转写的精力和时间的同时,提高了质检工作人员的工作效率。

(二)表单自动化

表单填写工作具有模式化的特点,单一表单中所需填写的信息是比较固定的,但是,部分表单所需填写的内容又是比较多的,在双方通话过程中填写表单比较耗时,效率较低,会有长时间占线的风险,违背了调度工作最基本的及时性响应和语音信息传递的快捷性。所以,调度人员一般会在通话结束后依靠对通话内容的回忆填写表单,内容较多记不清楚的还会反复听通话录音,这会占用较多的精力。

针对这一问题,可以将表单填写工作交给语音识别技术,稍作改动就可以实现这一目标。具体构想如下:在双方通话的同时,语音识别服务将通话内容实时转写为文本内容,输出的文本内容经过关键字检测。关键字检测分为表单生成关键字和内容填充关键字,通常要求一次通话只能生成一次表单,识别到生成表单的关键字后调用表单系统,页面弹框提示,询问是否生成该表单。调度工作人员确认生成后,在本次通话过程中不再生成新的表单。

表单生成后,开始执行内容填充关键字的识别,将识别到的相关内容在表单内进行自动填充,在本次通话挂断时页面再次弹框提示调度工作人员,自动填充已结束,工作人员在检查无误后可手动点击提交按钮进行表单提交。内容有误的可以有针对性地修改,修改后再提交。

(三)调度预案自动化

在调度工作过程中,某些特定情况下需要紧急启动某些已经提前设置好的预案,比如气象灾害、人员入侵、列车事故、淹水倒灌等,需要启动预案的场景一般是特别紧急的情况,在这种紧急关头,每多浪费一秒钟,危险就会增加一分,可以考虑将语音识别技术对接到预案启动中[ 3 ]。具体构想如下:在关键字检测中再添加一类应急预案关键字,当通话双方在对话过程中触发该关键字时,则立马调用应急预案系统,在调度人员工作计算机的相关页面上弹框对其提示和询问,是否要启动该预案,工作人员手动确认后,预案启动执行。

该流程省去了工作人员检索相关预案的步骤,直接在对话过程中检测双方的对话内容,调度工作人员最少只需要点击一次确认按钮,就可以及时启动相关预案,之所以设计为工作人员手动确认启动,同样是考虑到语音识别技术的容错机制。

(四)语音检索

以上功能的实现,已经基本涵盖调度工作中的人工文字输入类工作,语音检索功能的构想是对以上功能的补充,以上功能主要关注的是在调度工作人员和其他方通话的场景下,只能以话机作为入口去触发各种场景的功能,语音检索功能的设计则是在话机之外,单独设置收音麦克风,调度工作人员可以直接对麦克风讲话来触发语音识别的服务。

五、引入语音识别技术可能面临的困难和挑战

(一)方言

语音识别技术是对语言发音内容的识别,与发音准确性高度相关。目前市面上主流的语音识别技术一般都支持普通话和英语的识别,但是我国幅员辽阔,对散布在中华大地各个地方的方言的识别是难点之一,虽然探讨的是上海市地铁的业务场景,申通集团可以通过规章制度和招聘要求等,将岗位人员的从业资v0EwQvCig9MD/9pm7j5AdbdTauam5ItZp3mVSE3DnFU=格限制在普通话或上海话这一范围内,但部分业务场景下与调度人员发生通话的可能是外部的第三方人员,如施工负责人、第三方维保单位等,此类外部人员的发音习惯和方言口音等对语音识别技术是一大挑战。

(二)噪声

对上海市地铁部分调度通话录音调研后发现,在录音文件中,部分音频中存在非常严重的噪声干扰问题,噪声的来源大致有两种。

一种是调度人员与多车站开群体会议时,部分车站因参会目的已达到,在经过调度人员同意后,会先行挂断电话,在挂断电话时产生的话机听筒与话机机身磕碰的声音音量非常大,这个时候基本听不到正在发言的工作人员所说的内容。

另一种是通话人员旁边无关人员的说话声,此类情况一般出现在车站,无关人员的声音被收录后会对语音识别功能造成干扰,在应用场景中很可能造成相关系统的误触发或无法准确触发等问题。

(三)误识别

误识别问题主要发生在发音人语速过快或发音音量过小时,语速过快时容易发生连音现象,即两个字或两个以上的字发音连在一起,实际发出的只有一个音,此时系统接收的发音只有一个,就会造成漏识别、错识别等。音量过小时可能无法达到语音识别系统的音量能量值,导致识别出错、不识别等。

(四)其他

其他可能对语音识别功能造成负面影响的情形还有多人同时发音、发音模糊等。发音模糊多发生在调度人员与多车站通过电话召开群体会议时,在点名签到环节,车站工作人员的回答发音极为模糊,基本听不清回答的内容;多人同时发音的情况在调研过程中出现较少,在此仅做记录用以提醒。

六、结语

人工智能技术有语音识别技术,还有图像识别、行为分析、语义理解、语音合成等领域,文章对语音识别技术引入调度业务的浅谈希望可以起到抛砖引玉的效果,期待诸位同仁可以发散思维,从不同的领域作出专业的审视。未来希望能够与诸君一起,共同建设更加聪明、便捷、高效的调度业务流程。

参考文献:

[1]吴佳佳,彭其渊,鲁工圆.基于调度电话语音信息的调度命令智能生成方法[J].铁道运输与经济,2021(04):105-111+134.

[2]谢璟捷.地铁运营调度关键业务数据特征分析及中台架构研究[J].交通科技与管理,2023(21):22-24.

[3]代伟,刘洪.基于神经网络的中文语音识别技术[J].四川师范大学学报(自然科学版),2022(01):131-135.