基于嵌入式Linux语音识别系统的设计
2014-03-16张常年徐成波
钟 豪 张常年 徐成波
(北方工业大学信息工程学院,北京 100144)
基于嵌入式Linux语音识别系统的设计
钟 豪 张常年 徐成波
(北方工业大学信息工程学院,北京 100144)
该设计运用三星公司的S3C2440,结合ICRoute公司的高性能语音识别芯片LD3320,进行了语音识别系统的硬件和软件设计。在嵌入式Linux操作系统下,运用多进程机制完成了对语音识别芯片、超声波测距和云台的控制,并将语音识别技术应用于多角度超声波测距系统中。通过测试,系统可以通过识别语音指令控制测量方向,无需手动干预,最后将测量结果通过语音播放出来。
语音识别;嵌入式Linux;人机交互;语音播放;超声波测距
1.引言
语言是人类传播信息的重要手段,语音识别则是实现语音控制的关键技术,自然语音的人机交互也是当前的研究热点和难点,苹果公司正在研制的iWatch中也增加了语音识别功能。采用嵌入式语音识别技术使得设备具有功耗低、使用简便、灵活等优点,摆脱了复杂按键和按钮的困扰,在服务机器人、智能家居及消费电子等领域发挥着重要作用。
2.系统构成与原理
语音识别主要包括两个阶段[1]:训练阶段和识别阶段。在训练或识别过程中,都必须对输入语音进行预处理和特征提取。训练阶段通过用户输入的若干次训练语音,经过预处理和特征提取后得到特征参数,最后通过特征参数建模,进而建立训练语音的参考模型库。而识别阶段是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量,然后把相似度最高的输入特征矢量作为识别结果输出,从而达到语音识别目的,如图1所示。云台相结合作为系统的机械执行机构。系统测量过程如下:首先根据语音指令控制两自由度云台的位姿,使超声波探测器指向特定方向,然后开启超声波探测器,测量出前方障碍物距离,最后将测量结果转化为可以播放的二进制数据流,通过LD3320的播放功能完成数据的播放。
3.硬件电路设计方案
硬件电路主要包括语音识别部分、主控部分、超声波测距部分和舵机控制部分,如图2所示。处理器为三星公司的S3C2440,系统主频最高可达533 MHz,支持SPI、I2C、UART等接口,能够满足控制系统的需求。主控芯片S3C2440通过SPI总线完成对语音识别模块的读写操作,超声波测距部分和舵机控制部分由处理器的GPIO进行统一控制。
图1 语音识别原理框图
语音识别技术可分为:特定人识别和非特定人识别两种。特定人识别是指需要对待识别人的语音进行采集训练,识别对象为专门的人;非特定人识别是指识别对象为大多数用户,一般要采集多个人的语音进行录音、训练和学习,从而达到较高的识别率。
在实际应用中,现代技术开发嵌入式语音识别有两种实现方式:调入嵌入式语音开发包和外扩语音识别芯片。本文的语音识别系统方案是以嵌入式处理器S3C2440为核心,外扩非特定人语音识别芯片LD3320,并将超声波测距模块和
3.1 语音识别电路设计
为了使系统能够识别操作人员发出的语音指令,设计中采用了由ICRoute公司设计生产的非特定人语音识别芯片LD3320,它集成了语音识别处理电路和一些外部电路,包括AD、DA转换器、麦克风接口、声音输出接口等[2],不需要外接任何的辅助芯片如Flash、RAM。在主控制器的控制下,可以识别出预先添加到识别列表中的内容。设计中参考了ICRoute发布的LD3320数据手册,图中LD3320的P0、P1、P2引脚通过SPI接口与嵌入式处理器相接,控制信号WRB、CSB、RSTB以及中断返回信号引脚INTB与处理器S3C2440直接相连,如图3所示。
图3 语音模块和核心板连接关系
3.2 超声波测距和舵机控制电路设计
超声波测距原理相对比较成熟,系统中采用超声波测距模块HC-SR04。该模块有两个TTL电平通信引脚,兼容3.3V电平。其中,控制端口Trig发一个10us以上的高电平,接收端口Echo将输出与距离成正比的高电平信号。当Echo有高电平输出时就开启处理器定时器,当端口电平跳变为低电平时关闭定时器,根据定时器的值可计算得到障碍物的距离。其中,控制端口Trig和接收端口Echo分别接至处理器的GPG9、GPG6引脚。
超声波测距模块的感应角度小于15°,为了扩大测距的感应角度范围,将超声波测距模块安装在两自由度云台上,其中,舵机为SG90(9G),旋转角度为180°。处理器通过GPB0和GPB1分别控制两个舵机以实现云台的旋转,以测量不同方向的障碍物,如图4所示。
图4 超声波测距和舵机控制电路
4.软件设计方案
系统软件基于嵌入式Linux操作系统,实现了语音识别、语音播放、超声波测距和舵机控制等任务,使用fock机制为每项任务分配独立的进程,使系统可以进行多任务处理。针对不同功能模块编写了相应的底层驱动程序,为上层应用程序提供了调用接口。
系统工作流程如下:处理器通过SPI总线对语音识别芯片LD3320进行通用初始化,使语音识别芯片进入循环识别模式,系统处理器反复启动语音识别过程。如果有识别结果,则根据识别作相应处理后(比如播放某个声音作为应答)再启动下一个识别过程。处理器通过SPI总线读取C5寄存器的识别结果并分析,将语音命令转换为超声波测距和舵机的控制信号,完成多方位测距任务,如图5所示。
图5 软件流程图
4.1 语音识别功能程序设计
语音识别芯片LD3320的特色是兼有语音识别和MP3播放的两项功能,在功能切换的时候,必须进行通用初始化,对芯片进行一系列的设置[3]。
语音识别功能的驱动程序工作流程为通用初始化à语音识别用初始化→写入识别列表→开始识别→响应识别中断。为了提高识别成功率,在识别列表中增加了“垃圾关键词”以吸收错误的识别。上层应用程序为语音识别功能分配了单独的进程,通过ioctl()函数控制LD3320的工作状态,read()函数可以读取识别结果。程序中使用select机制实现read()函数的非阻塞访问[4]。同时,设定select监控超时时间,在超时后,重新初始化语音识别芯片LD3320,为下一次语音识别做准备,如图6所示。
图6 语音识别功能程序流程图
4.2 语音播放功能程序设计
LD3320支持MP3数据播放,程序中操作顺序为:通用初始化à播放模式初始化à音量调节à开始播放,并准备好中断响应函数,打开中断允许位。在程序中,首先将数字0~9、“十”、“百”、“点”的语音MP3数据分别转换为标准C语言数组格式文件,将该文件添加到工程中进行统一编译。然后把需要播放的距离数据进行拆分,并对每一位进行查表操作,得到相应的语音数据。例如,将距离数据12.5拆分为:“1”、“十”、“2”、“点”、“5”。最后将查表得到的语音数据按从左到右的顺序组合,并存储到LD3320的播放数据存储器,在即将播放完毕时,芯片会发出中断请求,在中断响应函数中连续写入播放数据,直到声音数据播放完毕。
4.3 超声波测距和云台控制程序设计
超声波测距功能的驱动程序属于Linux字符型驱动,利用ioctl()函数对相应GPIO进行时序控制,完成超声波的发射和接收。在接收端口输出高电平脉冲信号时,触发系统中断并使用定时器计算得到高电平持续时间△T,根据公式(1)完成距离S的测量[5]。式中V为超声波的传播速度,常温下超声波在空气中的传播速度是340米/秒。在应用程序中,可以通过read()函数读取到所测量的距离值。
两自由度云台由两个舵机组成,分别控制云台水平和垂直方向的旋转角度。在驱动程序中,首先打开定时器PWM功能并设置定时周期,然后映射定时器中断函数,最后使能定时器,使定时器开始运行。程序中根据实验者发出的语音指令,利用ioctl()函数控制定时器输出两路PWM信号,分别控制两个舵机的旋转角度,最后将运动合成为云台的位姿。
5.结语
本文介绍了嵌入式语音识别技术在超声波测距系统中的一种应用以及实现方式,实验人员可以通过预先定义好的语音指令(例如:“开始测量”、“左上方”、“前方”)实现对系统的控制,并利用超声波进行距离测量。测量完成后,系统通过语音播放的方式将测量结果反馈给实验人员,完成人机交互,提高了用户体验度。本系统具有易扩展的优点,可以将其应用到其它嵌入式控制系统中。
[1]苏宝林.基于AVR单片机的语音识别系统设计[J].现代电子技术,2012,35(11):136-138.
[2]苏鹏,周风余,陈磊.基于STM32的嵌入式语音识别模块设计[J].单片机与嵌入式系统应用,2011,11(002):42-45.
[3]洪家平.LD3320的嵌入式语音识别系统的应用[J].单片机与嵌入式系统应用,2012,12(2):47-49.
[4]杨铸.Linux下C语音应用编程[M].北京:北京航空航天大学出版社,2012.61-64.
[5]景旭文,李家宝.超声波测距的研究[J].华东船舶工业学院学报,1994.8(1):90-94.
Design of Speech Recognition System Based on Embedded Linux
Zhong Hao Zhang Changnian Xu Chengbo
(North China University of Technology,Beijing 100144)
tract】This paper fulfills the hardware and software design of the voice recognition system,using the Samsung’s S3C2440 and the high performance chip LD3320 designed by ICRoute.It uses multi-process mechanism to complete the speech recognition, ultrasonic ranging and PTZ control based on embedded Linux platform.At the same time,the system makes the speech recognition technology applied to multi-angle ultrasonic ranging.Through the actual testing,the system can control the direction of measurement by identifying the voice command,without manual intervention,and finally the measurement results play out through the voice.
words】speech recognition;embedded Linux;human-computer interaction;voice broadcast;ultrasonic ranging
钟豪,男,福建人,硕士研究生,研究方向:信号与信息处理,嵌入式系统应用。