媒体认知中的人工智能技术教学方法探究
2017-07-31杨毅钟娴周天宇乔飞王生进
杨毅+钟娴+周天宇+乔飞+王生进
摘 要:媒体与认知是清华大学电子信息学科在课程体系改革过程中提出的一门重要必修课程。随着人工智能技术的快速发展,将其引入信息专业本科生教学具有很重要的科研及教学意义。文章介绍媒体与认知课程中的人工智能教学及配套实验平台、人工智能内容的实验内容及平台并提供更多关于人类认知和媒体表达的知识,配合人工智能学科发展的要求。
关键词:人工智能;媒体与认知;RealSense平台;深度学习
文章编号:1672-5913(2017)07-0155-04
中图分类号:G642
1 背 景
电子信息科学与技术是以物理和数学为基础,研究通过电学形式表达和操控信息的基本规律以及运用这些基本规律实现各种电子系统的方法。在进入电子时代和信息社会的今天,电子信息科学技术已渗透各个领域。随着电子信息技术日新月异,电子信息教学领域也面临着全新的挑战,需要培养具有全方位视野和超强能力的新一代工程师及领导者。本着这一目标,清华大学电子系自2008年开始着手进行课程改革,通过改革课程体系将原有课程重新整合,从学科范式的角度整理出电子工程本科教育的知识体系结构,从而梳理出新的本科课程体系,形成电子信息领域学科地图[1-2]。
2016年AlphaGo战胜李世石的事实,让人工智能技术再一次向世人展示了自己的潜力。人工智能无论在传统的制造加工行业,还是在新兴的互联网行业,都成为国内外各大企业争相研究开发的目标,在学术界也是如此。2016年底,Gartner全球峰会发布2017十大技术趋势报告[3],预测2017年十大技术趋势:人工智能与机器学习、智能应用、智能事物、虚拟和增强现实、数字化双生、区块链和已分配分类账、对话式系统、格网应用和服务架构、数字化技术平台、自适应安全架构。Gartner预计2017年全球将有超过60%的大型企业开始采用人工智能技术。
在2016年开设的媒体与认知课程内容中,我们参考国内外诸多名校相关课程的理论及项目内容,结合电子工程系在该领域研究的基础优势和创新性成果,建设了一套媒体认知人工智能技术教学课程内容及平台,以期学生获得人工智能技术中深度学习技术的基础理论和开发能力。课程通过提供人工智能技术领域高层次专业人才必需的基本技能、专业知识及思维方式,力争培养具有国际一流科研创新能力的人工智能方向的专业技术人才。
2 人工智能技术教学内容
美国MIT大学的Statistical Learning Theory and Applications课程[4],致力于从统计学习和正则化理论的角度介绍机器学习的基础和最新进展。除了经典的机器学习方法,如支持向量机、流形学习、有监督学习等之外,还重点介绍深度学习计算的理论框架并要求学生以项目形式给出基于机器学习和深度神经网絡的解决方案。
美国CMU大学的Deep Learning课程[5]通过一系列研讨会和课程实验介绍深度学习这一主题,涵盖深度学习的基础知识和基础理论及应用领域,以及大量数据学习的最新问题。通过若干实验题目,学生可以对深度神经网络原理及应用加深理解。
美国Stanford大学的Deep Learning for Natural Language Processing课程[6]深入介绍应用于自然语言理解的深度学习前沿研究,讨论包括循环神经网络、长短期记忆模型、递归神经网络、卷积神经网络等非常新颖的模型。通过上机实验,学生将学习使用神经网络工作的技巧来解决实际问题,包括实施、训练、调试、可视化和提出自己的神经网络模型,最终的实验项目涉及复杂的循环神经网络并将应用于大规模自然语言理解的问题。
媒体认知课程参考了上述著名课程的理论内容和项目特色。我们结合电子工程系在人工智能领域研究的基础、优势和创新性成果,设计开发了一套以人工智能技术为基础的前沿探索型媒体认知教学课程内容及实验平台,试图构建具有国际水准的人工智能技术教学课程内容。
3 深度学习技术发展概况
传统的人工智能系统一般采用机器学习技术,这类技术在处理原始形式的自然数据的能力上受到限制,一般困难集中在如何将原始数据变换为合适的内部表示或特征向量。深度学习(deep learning)近年来受到人工智能行业的广泛关注,是一种表征学习(representation-learning)方法,由于拥有可以逼近任意非线性函数的特性,深度神经网络(deep neural network,DNN)及其衍生的各种神经网络结构有能力取代传统模型,在语音、图像、文本、视频等各种媒体的内容识别系统中发挥作用。
著名的人工智能科学家Yann LeCun于2015年在Nature上发表文章[7]指出,深度学习允许多个处理层组成的计算模型学习如何表征具有多级抽象层面的数据。这些方法已经大大提高语音识别、视觉识别、目标检测以及诸如药物发现、基因学等许多领域的最新技术水平。深度学习通过使用反向传播算法发现大数据集中的复杂结构,以指示机器如何改变其内部参数,这些内部参数是从深度神经网络上一层的表示中计算每层中的表示。深度卷积网络在处理图像、视频、语音和音频方面带来突破性的进展,而递归网络则对文本、语音等顺序数据提供解决方案。
递归网络可被视作较深的前馈网络,其中所有层共享相同的权重。递归网络的问题在于难以在长期的时间内学习并存储信息。为了解决这一问题,长短期记忆(long short-term memory,LSTM)模型网络被提出,主要特点在于其存储器单元在下一个加权值为1的时间段内与自身连接,因此能够在复制自身状态的同时累加外部信号,此外这种自我连接被另一个单元通过学习决定何时清除此类信息。长短期记忆模型被证明在语音识别和机器翻译应用系统中比传统的递归网络更加有效。
4 基于深度学习的语音识别教学项目
在对上述课程及配套项目进行详细研究的基础上,结合现有科研及平台,我们构建了一种基于深度学习的连续语音识别项目平台,包括两个主要项目:深度神经网络语音识别项目及长短期记忆模型递归神经网络语音识别项目。
4.1 深度神经网络语音识别项目
典型的深度神经网络语音识别模型[8-9]核心是对声学特征进行多层变换,并将特征提取和声学建模在同一网络中进行优化。神经网络可以通过非线性激活函数来拟合任何非线性函数,可以使用神经网络取代原有声学模型中的高斯混合模型,用来计算每一帧的特征与每个音素的相似程度。深度神经网络原理的结构示意图如图1所示。
图1代表了一个拥有3个隐含层的深度神经网络。相邻两层中,每层的每一个节点都与另外一层的所有节点单向连接。数据由输入层输入,逐层向下一层传播。对于节点间的连接权重,采用BP算法。BP算法对于给定的输入输出训练数据,首先通过正向传播由输入得到输出,之后通过实际输出与理论上的正确输出之差得到残差,并由输出层向输入层根据激活函数与连接权重反向传播残差,计算出每一个节点与理想值之间的残差,最后根据每个节点的残差修正节点间连接的权重,通过对权重的调整实现训练,从而更加靠近理论输出结果。
将DNN实际利用到语音识别的声学模型时,其结构示意图如图2所示。深度神经网络的输入层输入从每一帧音频中提取出的特征,通过网络的正向传播,在输出層输出当前帧对应不同音素的相似程度,从而作为HMM的发射概率进行语音识别。考虑到DNN没有记忆特性,而语音信号即使是在音素层级上,其前后也有相当大的联系。为了提高DNN在处理前后高度关联的语音信号中的表现,一般选择同时将当前帧的前后部分帧作为网络的输入,从而提高对当前帧识别的正确率。
4.2 长短期记忆模型递归神经网络语音识别项目
长短期记忆模型应用于语音识别中声学模型的思路和深度神经网络类似[10-11],取代高斯混合模型用于计算输入帧与各音素的匹配程度。原理为首先根据输入门判断输入的数据可以进入记忆细胞的比例,同时遗忘门决定记忆细胞遗忘的比例;之后由记忆细胞残存的记忆部分和新输入的部分求和,作为记忆细胞的新记忆值;将新的记忆值根据输出门的控制得到记忆细胞的输出,并通过递归投影层降维,降维之后的结果一方面作为3个控制门的反馈,另一方面作为网络的输出;非递归投影层则仅仅作为最终输出的补充,而不会影响控制门。将长短期记忆模型实际利用到语音识别的声学模型时,其结构示意图如图3所示。
与深度神经网络不同,长短期记忆模型递归神经网络因为有记忆特性,所以不需要额外的多帧输入,只需要输入当前帧。然而,考虑到语音前后的关联性,一般会将输入的语音帧进行时间偏移,使得对t时刻帧的特征计算得到的输出结果是基于已知未来部分帧的特征之后进行的,从而提高准确度。
5 结 语
我们主要介绍了媒体与认知课程中的深度学习教学项目“基于深度学习的语音识别教学项目”,在现有开发平台的基础上引入多种深度学习算法并对其进行比较,使得学生掌握了目前主流的深度学习算法核心技术及应用方法。学生反馈表明,通过该部分教学内容,学生对深度学习技术加深了了解,调动了研究积极性,大部分学生对深度学习方向的前景十分乐观。将这些内容与媒体认知教学课程结合并为学生提供研究平台,使得学生开阔了科研视野,进一步为培养学术兴趣、明确科研方向和坚定科研信念提供辅助和支撑,最终达到培养具备国际领先研究水平、同时具有突出创新实践能力和持续探索精神的高素质人才的目的。下一步,我们将基于该深度学习项目平台进一步开展研究探索,提高深度学习的实时性和鲁棒性。
参考文献:
[1] 清华大学电子工程系[EB/OL]. [2017-02-01]. http://www.ee.tsinghua.edu.cn/.
[2] 杨毅, 徐淑正, 乔飞, 等. 媒体认知实验教学改革研究与探索[J]. 计算机教育, 2015 (9): 107-109.
[3] 搜狐科技. Gartner最新2017十大战略技术趋势: 以智能为中心实现万物互联[EB/OL]. (2016-11-09)[2017-02-01]. http://it.sohu.com/20161109/n472678047.shtml.
[4] 9.520/6.860: Statistical learning theory and applications, fall 2016[EB/OL]. [2017-02-01]. http://www.mit.edu/~9.520/fall16/.
[5] Deep Learning[EB/OL]. [2017-02-01]. http://deeplearning.cs.cmu.edu/.
[6] Deep learning for natural language processing[EB/OL]. [2017-02-01]. http://cs224d.stanford.edu/.
[7] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[8] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
[9] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal(ICASSP).Washington D C: IEEE, 2013: 6645-6649.
[10] Sak H, Senior A W, Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[C]//15th Annual Conference of the International Speech Communication Association. Singapore: IEEE, 2014: 338-342.
[11] Botvinick M M, Plaut D C. Short-term memory for serial order: A recurrent neural network model[J]. Psychological review, 2006, 113(2): 201.
(编辑:宋文婷)