新工科视域下语音识别声学模型的设计实验
2021-08-31蒋正锋李海强
蒋正锋 李海强
摘 要:针对新工科视域下工程专业对学生具有扎实理论基础,较强的实验实践操作能力,强烈工程创新意识的需求,探索抽象理论模型与具象实验相结合的教学模式。设计隐马尔科夫模型的实验中,内容涵盖了数学与统计学、声学与语言学、计算机与人工智能等多学科交叉的知识,通过逐步优化多参数融合的隐马尔科夫模型实验,锻炼了学生理论与实践相结合,分析和解决复杂问题的能力,也解决了学生参与工程实践与科研实践的难题,将知识系统化、工程化、科研化,实现了新工科的培养理念。
关键词:隐马尔科夫模型;新工科;语音识别
中图分类号:G642 文献标志码:A 文章编号:2096-000X(2021)21-0089-05
Abstract: In view of the needs of engineering majors in the field of new engineering, students have a solid theoretical foundation, strong experimental practice and engineering innovation consciousness, this paper explores a teaching mode that combines abstract theoretical models with concrete experiments. In the experiment of designing the hidden Markov model, the content covers the interdisciplinary knowledge of mathematics and statistics, acoustics and linguistics, computer and artificial intelligence. The Hidden Markov Model experiment with the gradual optimization of multi-parameter fusion exercises students' ability to combine theory and practice, to analyze and solve complex problems, also solves the problem of students participating in engineering practice and scientific research practice, systemizing, engineering, thus systematizing, engineering and scientific research knowledge and realizing the cultivation concept of new engineering.
Keywords: Hidden Markov Model; new engineering; speech recognition
为推动我国高等工程教育与产业发展更加紧密联系,需对我国现阶段的工程教育进行深入的改革和创新。2017年2月18日,教育部在复旦大学组织召开的工程教育战略研讨会议,开启了我国新工科教育的探讨,会议形成了《新工科建设复旦共识》文件[1-3]。随着新一轮科技和产业革命驱动而形成与发展的新型经济,对我国的高等教育形成了新的挑战[4]。而第四次工业革命的浪潮即将来临,“互联网+”、“一带一路”倡议和“中国制造2025”等对我国高等教育改革发展提出新的要求,传统类工科专业面临着新的机遇和挑战。教育部在2017年2月20日发布的《教育部高等教育司关于开展新工科研究与实践的通知》指出,新型经济的出现,对我国工程科技人员提出适应新型经济的要求,从而需对我国高等工程教育进行改革。2017年4月8日在天津大学举行了“新工科”建设的研讨会,会后教育部发布了“新工科”建设行动纲领“天大行动”,行动纲领指明了“新工科”建设目标:“到2020年,探索并形成适应新技术,新产业和新经济发展的‘新工科模式;到2030年,将构建完善的具有中国特色、有力地支持新型创新和发展的世界一流工程高等教育体系;到2050年形成具有中国特色、引领全球工程教育,建设成为世界工程创新中心和人才高地的工程教育强国”。为适应新经济和新产业发展的需要,加强新型经济与工程教育的联系,我国工程教育面临一场挑战与机遇并存的改革。加快新工科建设,培养能面向未来,具有扎实的理论基础,较强的实践动手能力,强烈工程创新意识的科技人才,适应和引领新经济的发展[3-4]。针对综合性复杂的隐马尔科夫模型设计实验,在掌握HTK(Hidden Markov Model Toolkit)的体系结构与语音识别的基本原理基础上,引入多参数融合对马尔可夫模型逐步优化的科研教学方法。使用HTK搭建一个基于隐马尔科夫模型的离散数字语音识别系统,融合了数学与统计学、声学与语言学、计算机与人工智能等多学科前沿技术。通过MFCC(Mel Frequency Cepstral Coefficents)特征参数的维度、音节和声韵母聲学模型、高斯混合分量个数等多参数的不同融合,逐步优化隐马尔科夫模型,锻炼了学生的实践能力和科研能力。以隐马尔科夫模型设计实验为纽带,将所学知识系统化、工程化、科研化,实现了新工科的培养理念。
一、预备知识
(一)HMM在语音识别领域的地位
二十世纪八十年代时, 语音识别的重点放在大词汇量、非特定人和连续语音上,识别算法从基于标准模板转到基于统计模型的方法。语音具有时变性和短暂的平稳性,而隐马尔可夫模型能描述语音的这种特性,从而在语音识别领域引入马尔可夫模型构建声学模型[5-6]。随后其他的语音建模如HMM/VQ、HMM/高斯混合和HMM/人工神经网络模型在语音识别上取得突破性的进展,随后HMM成为深度学习出现之前传统语音识别技术中的主流技术[7-8]。回顾语音识别技术从实验室走向应用的发展过程,其中探索浅层神经网络、深度人工神经网络在语音识别中的应用继续了多年,效果不理想,直到深度学习技术[8-9]在机器学习中的成功应用才引起各个领域学者们的关注。基于深度学习[10]的语音识别研究逐渐成为热点[11]。虽深度学习技术已引入语音识别领域,但传统大部分语音识别系统还是基于HMM的。