一种智能警用随身字幕马甲的研究
2024-06-26蔡一帆吕思雄陈远霞
蔡一帆 吕思雄 陈远霞
摘 要:文章介绍了一种基于在线语音识别及翻译技术的智能警用随身字幕马甲产品。可以解决民警在夜间、雨雪天、高噪音等户外环境下执行指挥交通、疏散群众等任务时通过语音难以准确向民众实时传递信息的痛点。系统主控模块采用ESP32微处理器,在警用反光马甲前后各配置一个柔性LED显示屏。使用者说出的实时语音信息上传到云服务器通过百度语音识别和语音翻译技术返回相应文字信息,最终把字幕信息滚动显示在马甲的LED屏上。产品接入了百度文心一言大语言模型可以作为警用智能助手辅助民警日常工作,可翻译多国语言(英语、日语、韩语等)做到边说边翻译帮助民警与外国人沟通。系统可与城市智慧交通指挥调度系统连接,具有定位功能可通过微信小程序后台远程控制显示屏播放。该系统具有结构简单、成本低、识别准确率高、易扩展等特点,还可以为消防员、护林员等高噪音环境下特殊工种提供可视化交流工具。
关键词:ESP32微处理器;非特定语音识别;百度云语音识别引擎;LED柔性显示屏
引言
对于人类来说语音交互具有天然的便捷性和高效性,因此在许多领域中具有广泛的应用前景。然而,语音交流也存在一些问题,例如在声音传播与接收受干扰的情况下信息难以被快速准确地记录和理解。此外,信息的可视化程度不足也限制了语音交流在一些特殊场景下的应用。
本文利用麦克风、扬声器、ESP32微处理器模块[ 1 ]和柔性点阵式LED显示屏模组设计制作一款基于在线语音识别转文字技术[ 2 ]的智能马甲控制系统,产品接入百度文心一言大语言模型可以通过自然语言对话获取网络数据库信息,具有多国语言实时翻译能力,可连接城市智能交通系统[ 3 ]获取实时路况信息,实现城市道路交通状态全息精准感知和分析研判,根据交警位置自动发布交管引导信息,协助交警实时通报路况及交通管制信息。
1 系统方案设计
本智能马甲的系统结构框图如图1所示,主要由麦克风、信号处理模块(VAD)、主控模块(ESP32 MCU)、电源部分( LDO ) 、喇叭、柔性LED显示屏等组成 ,硬件设计上实现了语音信号采集 、语音信号预处理 、语音信息存储 、语音包上传/下载、语音识别结果显示、语音播放等功能,如图1所示。
1.1 MCU 选择
采用ESP32微处理器ESP32-WROOM-32开发板(图2)是一款通用型Wi-Fi+BT+BLE MCU模组,功能强大,用途广泛,可以用于低功耗传感器网络和要求高的任务,例如语音编码、音频流和MP3解码等。此款模组的核心是ESP32-D0WDQ6芯片,两个Xtensao 32-bit LX6 CPU核可以被单独控制,运算能力高达600 MIPS。时钟频率的调节范围为80 MHz到240 MHz,448 KB ROM · 520 KB SRAM。基本满足本项目所需功能支持。
1.2 音频采集模块/语音播放模块
对于户外嘈杂场景采用3.5接口领夹式高清降噪麦克风,高保真智能降噪屏蔽设计,具有ATDA动态噪音抑制处理电路,自适应调节声音强度和瞬间冲击音,有效防止语音失真与衰减拾音效果极佳。音频采样电路选用差分放大电路[ 4 ],抑制共模干扰 ,放大有用信号 ,有效地解决采样噪声硬件预处理的问题 。扬声器采用4欧3W喇叭,可外接蓝牙音箱扩音,如图3 。
1.3 LED显示屏模组
第一代样机采用LED点阵式串口屏,点阵规格16x64(图4)。
第二代样机采用彩色柔性LED显示屏(图5),防水防刮可弯折,更加贴近民警日常实际使用需求。
1.4 电源模块
系统所有分立模块采用5 V电压标准,设计单节3.7 V锂电池充放电及升压电路。自带过充、过放、过流保护功能满足系统供电需求。
1.5 警用马甲
采用目前警察通用多功能反光马甲作为系统载体,前胸及后背通过魔术贴各粘贴一个防水柔性LED显示屏。目前已与国内多家警服反光马甲企业联系达成定制合作,为后期产品量产做准备。
2 系统软件设计
2.1 软件设计整体思路
软件系统的设计主要由以下四部分构成:
(1)语音芯片底层驱动。语音芯片接口定义,方便主程序调用。
ESP32 MCU主程序。本次系统开发采用 Arduino IDE 编 程 环 境[ 5 ]。Esp32 开 发 板 通 过麦克风录制人声音频文件。开发板再与百度语音识别及翻译云平台建立连接,通过 HTTP 协议发送音频文件上传到云平台,最后云平台返回识别后的文本。再通过数据结构ESP32 内部建立动态链表,与返回的文字进行一一匹配。
(2)AI智能警务助手。对接百度文心一言大语言模型平台[ 6 ],将文心一言API接口集成到ESP32主程序中,通过调用接口实现自然语言处理,文本分析处理,警务知识问答等核心功能。
(3)实时字幕翻译。采用百度翻译开放平台的通用翻译API[ 7 ]进行语音识别及中文翻译英语、韩语、日语等多种语言,这种在线翻译解决方案,基于百度提供的后台云服务,具有功能强大、翻译速度快、准确率高、翻译质量高等特点。
2.2 语音识别算法
2.2.1 离线语音识别框架
作为嵌入式应用,语音识别默认会一直开启,需要通过诸如:“你好,小智!”“翻译模式”“检查系统状态”等预先设定语音唤醒系统方能响应不同功能。这个只能采用本地识别的方式,这就离不开算法模型和识别模型,而ESP32-A15是基于第三方esp_sr库为基础的。而esp_sr提供语音识别相关方向算法模型。
2.3 AI警务助手
本系统可接入百度文心一言大模型,实现智能回答问题。用户可以通过语音指令向系统提出问题,系统可以利用百度大模型进行语义分析和回答。这一功能使得本系统更具有智能性和实用性,尤其体现在警员在执行任务过程中可以通过语音提问方式获取法律、法条、管理规定、道路景点位置等知识,更好更快地为群众提供帮助。
2.4 城市交管信息移动发布屏
本系统可接入城市级交通管理智慧大脑云平台[ 8 ]让交警的马甲屏作为一个移动的交管信息发布提示牌,根据交警位置后台自动推送附近道路的停车、拥堵、施工占道、交通管制信息,提醒所有可以注意到提示牌的驾驶员及时变道。功能架构如图7所示。
3 系统整机调试及功能测试
3.1 样机软件调试及语音识别效果测试
为了验证本系统语音识别的实用性和准确性,样机完成后我们设计并进行了一系列实验。首先,对在线语音识别技术进行了测试,将识别结果与标准答案进行对比。下面以 “ 天气不错、心情很好、注意安全、突破、完成、检查系统状态 ”这 6 个随机设定词为例 ,分别在安静环境和火车站 ,抽取 20 位不同性别、不同年龄 和不同地域的人对本系统进行测试。测试结果 如表 1 所示。
实验结果表明 ,安静环境下平均识别时间在 0.77 s左右 ,满足一定的实时性要求, 系统响应时间较快 。在安静环境下系统对孤立词的识别率达到了90%以上(个别2-3个词汇的短名词,因为存在多音字百度语音识别无法判断使用者具体想表达的文字) ,在环境噪声较强的火车站 ,系统的识别率下降 3% ~5% ,嘈杂环境的误识率较高 ,可以通过改善麦克风硬件设备以及进一步优化算法提高识别率。
其次,我们对柔性LED显示屏的显示效果进行了测试,发现该显示屏亮度高、色彩鲜艳、能够满足室外日间/夜间环境下的使用需求。
最后,我们对整个系统进行了测试,将使用者的语音指令通过ESP32传输到LED显示屏上,并实时显示文字信息,结果表明该系统响应速度快、稳定性高、可靠性好,能够满足系统设定的使用要求。
4 结束语
本智能警用马甲的嵌入式语音识别系统是一种基于ESP32在线语音识别技术的LED显示屏系统。不仅可以为民警日常工作带来更加便捷、安全、智能的体验,更在其他多种应用场景具有重要的应用价值和发展前景,可以广泛应用于移动LED广告背包、导游解说LED导览牌、明星演唱会应援牌、车载后窗LED显示屏、马甲广告屏等产品的改造提升。也可为消防员、护林员等高噪音环境下特殊工种提供可视化交流工具。
参考文献:
[1] 范镇业,王福顺,段晓瑞,等. 基于esp32的智能便携语音识别系统的浅略研究[J]. 电脑高手(电子刊),2020(1):559.
[2] 杨焕峥,杨国华,徐玲,等. 云端AI与本地相结合的嵌入式语音识别系统[J]. 宁波职业技术学院学报,2019,23(1):86-89.
[3] 樊晟姣. 新型智慧城市建设背景下智能交通系统设计分析[J]. 电子制作,2022,30(2):29-32.
[4] 李鸿,赵亚冬. 数字音频功率放大器优化设计[J]. 电子设计工程,2011,19(14):101-103,106.
[5] 陈众贤. 用Arduino玩转掌控板(ESP32)Siri语音识别读取传感器数据网络服务器应用示例2[J]. 无线电,2020(10):28-32. [6] 李登峰,王雷鸣,徐雪洁. 基于云平台的自然语言识别系统的设计[J]. 信息技术,2017(11):117-120.
[7] 郝二伟. 基于百度云服务的在线翻译软件实现技术研究[J]. 数字通信世界,2019(12):106,7.
[8] 谢一明. 城市交通大脑应用现状与业务体系研究[J]. 中国科技信息,2022(11):136-138.