基于LD3320语音识别技术在智能垃圾分类系统中的应用研究
2021-12-21刘露萍
刘露萍
(重庆水利电力职业技术学院,重庆 402160)
随着我国经济已由高速增长时期转向高质量发展时期,可持续发展战略的推进,人们的生态环保意识不断提升,如何开展垃圾分类管理,成为各地政府与人们群众高度关注的问题,一方面要构建长效的管控机制,加强人们对垃圾分类处理的认知,另一方面还要引入现代化及科学技术,以推动绿色经济体系的完善,养成良好的卫生习惯和节约意识。2017年国务院下发《生活垃圾分类制度实施方案》,2019年起,全国启动生活垃圾分类,但成效不够明显,人们缺乏垃圾分类常识,无法自主分类。随着语音识别技术应用领域的越来越广泛,基于语音识别控制的智能垃圾分类系统迎难而上,解决了人们自主分类难的问题,从而引导人们正确投放垃圾,助推国家垃圾分类工作,特别是在疫情期间可以避免人们和垃圾存放装置直接接触,减少病毒传播的途径。
1 语音识别技术
随着信息技术、智能控制技术的迅速发展,人们越来越重视语音数据的识别和处理,近十年语音识别技术得到了飞跃式的发展,已成为信息技术领域十大重要的科技发展技术之一,已应用到工业、家庭服务、通信、电子产品、汽车电子等各个领域。语音识别技术是计算机科学、信号处理、单片机技术、声学等多学科交叉的技术,语音识别就是让机器识别出人说出的语音,转化为机器自身可以运行的指令。可以分为特定人语音识别和非特定人语音识别,特定人语音识别是对指定人的语音识别,其他人的话不识别,例如手机的语音解锁;非特定人语音识别是不分年龄、性别,只要说相同语言就可以,智能垃圾分类系统的使用者是广大受众,所以应当使用非特定人语音识别技术。
非特定人语音识别是通过预处理、特征提取、训练和匹配4个过程完成(如图1)。预处理是要完成语音信号的采样、降噪、增强,特征提取是通过频谱分析从语音信号波形中提取一组或几组能够描述语音信号特征的参数,训练阶段就是构建词表参考模式库,它由这个词重复发音多遍,再经预处理和特征提取得到,匹配是将输入语音的特征矢量参数和参考模式库中的参考模式进行相似性度量比较,得分最高的一条作为识别结果输出。
图1
2 LD3320语音识别芯片
LD3320芯片是一颗基于ASR技术非特定人语音识别的语音识别芯片,LD3320芯片集成了语音识别处理器和一些外部电路,包括AD、DA转换器、麦克风接口、声音输出接口等。通过加强语音识别系统,针对原有的识别技术体系进行强化,可以解决单芯片语音识别速度慢、效率低、不准确等问题,由于该芯片集成A/D与D/A接入途径,可以对各类设备实现对接,而不像传统设备只能依靠RAM与FLASH,在多种工作环境中都能实现对语音信息的精准识别。例如声控功能与人机交互功能的融合,可以根据不同的作业环境展开动态编辑,增加模糊处理功能,在多环境中提升芯片的运行功能。同时,LD3320芯片还可以轻松实现语音转化,多环境声控,人机对话等功能,将实时语音转换为文字进行处理分析,加强设备的运行效率,在各种运行环境中区别各类语音的接受效果,还可与与相关模糊处理装置进行搭配,提升语音识别的准确效率。尤其是人机对话功能中的关键词语设计,可以根据使用情况,提前设定50条关键词,当对操作人员的口语进行识别分析时,可以加强信息转化与处理联动,快速将语音内容转化为文字。加强芯片对特定环境与特定语言的识别效率。
3 LD3320语音识别芯片在智能垃圾分类系统中的应用
目前,对于智能垃圾分类系统要能够实现语音智能识别垃圾种类有两种方式,一种方式是在单片机程序中调用语音开发包;另一种是在系统中嵌入语音芯片。第一种方法程序量大,计算复杂,需要占用大量的处理器资源,开发周期长;第二种方法相对简单,只需要关注语音芯片的接口部分与单片机相连,结构简单,搭建方便,单片机的计算负担大大降低,增强了可靠性,缩短了开发周期,所以更多的是选择嵌入语音芯片。基于LD3320不需要外接任何的Flash、RAM、AD等辅助设备,可以独立完成语音识别功能,我们通常选择嵌入LD3320语音识别芯片。
非特定人语音识别技术ASR技术是基于关键词语列表识别的技术。对于智能垃圾分类系统这个列表的条目内容就是50个精短的,有关于垃圾内容的词组进行分类,例如可回收垃圾、不可回收垃圾、湿垃圾、干垃圾、有害垃圾等词语,ASR技术可以加强芯片对关键词语的识别效果,例如操作人员的语音指令中存在特定关键词时,可以进一步缩小语音分析与转化范围,将相应的待识别垃圾名称传递给操作者,完成后续垃圾处理工作。LD3320通过对垃圾名称、种类进行识别处理,快速有效的找出相应的功能列表,为后续的算法工作提供数据支撑。根据实际使用情况,当操作人员说出超过八个字时,ASR技术可以对话语进行合理划分,并且尽量找出当中存在的关键词,而LD3320芯片则是重点对话语中的错误表达或模糊不清进行处理,提升识别准确率。通常情况下,为了加强设备的识别效果,操作人员在说出语音指令时,要尽量简短、准确,建议处理指令不要过长。
LD3320芯片为3.3V供电与其连接的单片机必须为 3.3V供电的单片机,从而保证IO口电平不超过3.3V,否则将导致语音芯片驱动不成功甚至导致语音芯片烧坏,该模块有并口和SPI两种驱动方式的端口连接。连接成功后可进行程序移植,根据自己的单片机使用情况移植配套程序,配套程序包括LD3320芯片的驱动函数、读写函数等,其中读写函数是通用的,可以读写即可。在移植过程中注意不要修改驱动函数中寄存器的配置和初始化函数,用户需要修改读写函数的端口定义。做好电路连接和移植好程序端口后根据LD3320芯片简明调试步骤进行程序调试,程序调试包括上电调试、读写寄存器调试、检查寄存器初始值、在运行过程中检查寄存器的状态等步骤。
我们将“西瓜皮”等50个精短的垃圾名称和可回收垃圾、不可回收垃圾、有害垃圾及其他垃圾4种不同的垃圾类别名一起存入到LD3320语音识别芯片中,当人们说出“西瓜皮”后首先通过MIC(麦克风)输入声音,将该语音流数据进行频谱分析得到语音信号随频率变化的波形、特征提取以后得到西瓜皮词条的特征矢量参数,再和已经设置的系统关键词进行信息匹配,得分最高的厨余垃圾将作为识别结果输出到单片机,单片机接收到此信号以后驱动执行机构打开的厨余垃圾桶盖(如图2)。
图2
4 语音识别技术在垃圾智能分类中的应用意义
目前市场上大多数的智能垃圾分类系统都是人们通过键盘输入垃圾名称后,在系统中查找所对应的垃圾种类,再将垃圾进行分类投放,这样的操作一是比较麻烦需要人们自主查找并手动开合桶盖。二是人们通过接触键盘和手动打开垃圾存放装置会增加疾病传染的风险,特别是在疫情期间会增加新冠病毒的传染概率。语音识别技术最重要的现实意义就在于提供了一种脱离按键,键盘,鼠标的基于语音的用户界面,使得人们对于垃圾分类投放的操作更快速,更准确、更卫生,切实推行生活垃圾分类投放的实施。
ASR技术通过对语音数据包进行汇总分析,利用数学模型,加强芯片对各类语音的识别分析效果,在工作中要反复核对提取关键词的转化准确性,同时还要对基元特征展开分析,将关键词相关的语音转化代码嵌入到ASR数据包中,这样才能使语音识别体系更加先进,在今后的使用中要加强对各类ASR设备应用效果的汇总,不断加强ASR技术与LD3320芯片的融合应用,为智能垃圾分类系统提供良好的技术保障。
5 结语
可以预测在未来5~10年内,语音识别技术的应用会更加广泛。各种各样的语音识别智能控制系统产品将出现在市场上。在智能垃圾分类系统中嵌入LD3320语音芯片实现了垃圾种类的智能识别,解决了目前垃圾分类推行中人们无法自主分类的难题,降低了垃圾投放中病毒传播的风险,为人们提供了更好的绿色生活环境,只是能识别的垃圾名称数量和长度有限,人们在说垃圾名称时不能多说出垃圾名称以外的任何词,这些问题的解决将成为今后语音识别技术在智能垃圾分类系统中应用的发展方向。