APP下载

人工智能思维利器——贝叶斯公式的教学探究

2019-10-24刘娟胡桂武

教育教学论坛 2019年38期
关键词:人工智能教学方法

刘娟 胡桂武

摘要:贝叶斯公式是《概率论与数理统计》课程中非常重要的公式,它包含着深刻的思想内涵。结合当下热门的人工智能科技案例:语音识别、机器翻译等,探讨其背后的数学原理——贝叶斯定理。通过理论联系实际的教学案例来引发学生的学习兴趣,培养学生的创新思维能力,达到教学质量的提高。

关键词:贝叶斯公式;人工智能;教学方法

中图分类号:G642.0     文献标志码:A     文章编号:1674-9324(2019)38-0141-03

贝叶斯公式是概率论与数理统计课程中非常有特点的公式,也是课程中的重难点公式之一。它既包含全概率公式,又包含条件概率与乘法公式,同时也包含对先验概率、后验概率的理解。贝叶斯公式的形式复杂,综合性较强,在经典教材中的应用案例相对有限,部分学生难以深刻理解和正确使用。近年来,大数据思维渗透进了大学的各个专业,人工智能的应用也日益兴盛,本文结合身边熟悉的人工智能科技现象,来引入对贝叶斯公式的探讨。通过案例式、启发式教学方法,逐层深入分析,揭示这一神奇数学公式背后所蕴含的贝叶斯概率思维,有效帮助学生理解贝叶斯公式的内涵。

一、介绍历史起源,引出问题背景

Thomas Bayes是生活在18世纪的一位英国神学家、数学家,他的一生中只有两次发表过自己的思想,但都与概率论无关。贝叶斯公式发表于1763年,它在历史上最著名的运用之一是在二战期间被用来破解纳粹的恩尼格码密码。如今,这一原理更是广泛深入地被运用在科学、技术、医学等领域。这一公式源于他生前为解决一个“逆向概率”问题的思考,他本人并没有将它公开发表。在他去世后,他的家人委托朋友Richard Price研究贝叶斯的数学文章。虽然文章的数量并不是特别多,不过其中有一篇关于概率论的论文引起了Price的注意。现在我们知道那篇文章的题目是“论机会游戏中的一个问题”(An Essay towards Solving a Problem in the Doctrine of Chances)。Price敏感地意识到贝叶斯这篇文章的结果很有价值,在贝叶斯去世两年后将其整理发表出来。尽管Price尽了最大努力去宣传贝叶斯的思想,但效果在当时依然不是很明显。

贝叶斯公式在刚刚发现的时候,并没有引起概率统计学家的重视,也没有得到广泛的使用。不过,几百年后,贝叶斯的手稿逐渐引起了对概率统计感兴趣的数学家们的注意和讨论。正是在贝叶斯的这篇文章中,我们发现了现在所谓的贝叶斯定理的一个叙述:假设我们面对一组备选假设,每个假设都声称能解释同一种现象,但是只有一个假设是正确的。贝叶斯定理使我们能够用数据及一些额外的条件,来计算每个假设可能是正确假设的概率,它能够帮助我们来确定哪个假设更可能是真的。为了让这一定理更加具体,假设我们知道一个箱子里有四个球,而且下面结论中有一个成立:(1)四个球都是红色;(2)两个红色、两个黑色;(3)一个红色、三个黑色;(4)三个红色、一个黑色。现在,假设我们从箱子中取出了一个红球,记下颜色,然后把球放回箱子,混合均匀,接着从箱子再取出一个球,还是红色。第三次,依旧取出一个球,记下其颜色,还是红色,放回去,最后第四次再重复这个过程,结果取出的还是一个红色球。已知我们刚刚抽取的四个球都是红色,而不是黑色,而且起初我们没有任何理由倾向任一假定的结论,那么通过贝叶斯公式,我们可以计算每个假设可能是正确的概率。为此,我们需要引进一些符号。令A表示某一事件,P(A)表示事件A发生的概率,计算A的概率时,我们可以利用一些辅助信息。例如,假设知道另一事件Bi已经发生。我们可以利用对Bi的了解,重新计算A发生的概率。这就是给定Bi时,A的条件概率,记作P(A|Bi)。贝叶斯定理给出已知P(A|Bi)和一些附加信息,来推导计算P(Bi|A)的方法。

二、理解公式内涵,发掘深刻思想

根据多年来对概率论与数理统计课程教学效果反馈调查,许多学生认为这一公式并不直观,也不太容易记忆。现行教材中对贝叶斯定理的内容一般是放在全概率公式之后,在浙江大学盛骤等人所编写的第四版概率论与数理统计教材中,通过产品质量检验和医学检测等例题给出公式的应用。学生已经学习了条件概率和全概率公式后再接触贝叶斯公式。由于贝叶斯公式中分子、分母分别涉及概率论与数理统计课程中的3个重要的公式,分别是乘法公式、条件概率公式和全概率公式,具有一定的难度和综合性,导致许多学生理解得并不深刻,也不能灵活熟练地使用。

通过对贝叶斯定理的分解,可以得到其核心的思想,概括表示為如下公式:

我们可以从多个角度对贝叶斯公式进行分析。从上面调整后的表达式可以知道,当面临不确定性的现象,我们需要对未知进行预测时,应首先根据已有的信息和统计资料,先给出一个先验概率,然后在新信息不断累积、不断更迭的情况下调整对未知事件发生概率的预测。在我们的日常生活中,常常也会使用贝叶斯定理的方法来进行判断。例如经典的“狼来了”的寓言;又如去到一个新的城市旅游,如何找到最符合自己口味的餐馆;雨季来临时看见多云是否会降雨,等等。这些生活中的判断,其背后暗藏有贝叶斯定理的思想。不同于经典的概率论中的频率学派,贝叶斯定理其实体现了一种新的概率观,它利用过往已有的信息来逐渐逼近事件发生概率,告诉我们如何利用新证据修改已有的看法,这是一种启发式的概率统计思维方式。近年来,随着大数据时代的到来,这一公式所蕴含的思想之深刻,远远超出一般人的想象和认知。

三、人工智能背后的神奇公式:贝叶斯公式

人工智能(Artificial Intelligent)简称AI,也称机器智能,是指由人工制造出来的系统所表现出来的智能,其研究领域包括认知建模、知识学习推理、机器学习等。人工智能实际上是在大量的逻辑运算和大量的数据输入处理基础上进行实现,它需要大量的数据输入训练才能使其更加智能化。AI的核心在于算法,好的算法基础在于概率统计模型的运用,而概率统计学科中的贝叶斯定理则为我们提供了一种简洁但又强大的分析推理框架。2016年的春天,一场AlphaGo与围棋世界冠军的人机对决,将人工智能推到了全世界舞台的聚光灯下,从此人工智能变得家喻户晓,正在对世界经济、人类生活产生深刻影响。为了顺应大数据时代的发展趋势,培养适应时代发展的应用型数据分析人才和统计人才,高校需要调整教学方案,教师需要改进教学方法。传统的高等教育比较注重理论的教学,重视数学基础和各种统计方法的推导,相对缺乏概率统计思想的培养和实际动手能力的训练。

下面,从身边的人工智能科技案例引入贝叶斯定理的教学,探讨概率统计理论是如何应用到实际问题建模的,深入挖掘其背后的数学原理,理解这一简洁但是强大的贝叶斯公式的深刻思想内涵。垃圾邮件的识别、智能手机自动翻译、Siri的语音识别等很多AI智能现象的关键算法核心都是贝叶斯公式。

语音识别。当苹果手机刚刚推向市场时,其附属的智能软件Siri给我们留下了很深刻的印象。现在具有这样功能的智能手机或者相关的智能电子产品越来越常见,也越来越广泛使用,已经走进了人们的日常生活。那么如何理解语音识别现象?在吴军老师的《数学之美》这本书中,就介绍了从统计语言模型的角度对上面的AI科技现象给出的科学解释。首先要想让电脑能理解人的语言,当然不可能真的给电脑安装上一个真正的大脑。经过很长时间的探索,科学家和工程师们才找到了这一领域研究的突破。他们意识到语言从产生开始,慢慢变成一种上下文相关的信息表达方式,因此让计算机处理自然语言,一个基本的问题就是为自然语言这样的上下相关的特点建立数学模型。语音识别其实也和机器自动翻译,即輸入一种语言(中文)让电脑自动翻译为另外一种语言(英文),拼写纠错,垃圾邮件的识别等AI问题完全类似。简单来说,语音识别问题可以理解为如何根据听到的语句T,来推测原说话者表达的语句S。接收到一个句子T,它最可能在表达什么意思,即原语句S是什么。用概率论的语言来描述语音识别问题,也就是说在已知T的条件下,让条件概率P(S|T)达到最大。那么在不同的P(原语句S1|接受到语句T),…,P(原语句Sn|接收到语句T)中,我们如何做出选择推断呢?这里核心的处理技巧就是贝叶斯公式。

这个式子的右端分母,对于不同的预判原语句S1,…,Sn都是固定一样的,可以忽略不计。分子部分的P(原语句S)这一项,现在已经有非常成熟的方法,可以利用算法在语料库里去计算。而分子中的条件概率的计算则会相对麻烦一些。我们必须对猜测为可能的原语句S1,原语句S2,…,原语句Sn都计算P(接收到T|原语句S)*P(原语句S),然后取其中最大的那一项,得到的就是最可能的推测。

四、小结

随着数据驱动时代的到来,大数据催生了大量的数据师等新型岗位,企业对数据分析师、算法工程师等人才需求的缺口越来越大。在这样的背景下,高校必须引入新的培养模式,无论在课程体系,还是实践环节上;无论在专业课程设置,还是人才培养模式等方面的教学改革都需要紧跟时代。我们要确定符合时代发展的人才培养目标,优化课程设计,突出培养和应用结合的特点,打破现有学校专业与市场对数据人才需求相对脱节的壁垒。高校既要重视学生基本理论和专业知识的培养,又要专注学生的数据处理、分析能力及行业实践能力的提升,培养出能适应大数据时代的应用型数据分析人才。

参考文献:

[1]百度百科 贝叶斯定理[EB/OL].http://baike.baidu.com/view/1488573.htm.

[2]汪磊.论贝叶斯方法在计算机智能化中的应用[J].中小企业管理与科技:下旬刊,2011,(05).

[3]吴军.数学之美[M].北京:人民邮电出版社,2013.

[4]狄萍.基于短语的统计机器翻译的研究[D].苏州大学,2010.

[5]刘贵容,秦春蓉,林毅.以需求为导向的大数据人才定制化培养模式与策略研究[J].中国教育信息化,2018,(12).

[6]赖巧玲,李梅,任丽洁.大数据背景下数理统计课程的教学改革与实践[J].科教文汇,2019,(1).

Research on Teaching of the Bayesian Formula as an Intelligent Thinking Tool

LIU Juan,HU Gui-wu

(School of Statistics and Mathematics,Guangdong University of Finance &Economics,Guangzhou,Guangdong 510320,China)

Abstract:The Bayesian formula is a very important formula in the course of Probability and Statistics,it contains profound ideological meaning. This paper explores the popular cases of AI technology:speech recognition,spelling correction and shows the mathematical principles Bayesian formula behind them.The studying motivation and innovative thinking ability is stimulated by combining the theory with practice.The teaching effect has been highly improved.

Key words:Bayesian formula;Artificial Intelligence;teaching method

猜你喜欢

人工智能教学方法
我校新增“人工智能”本科专业
教学方法与知识类型的适宜
人工智能与就业
实用型中医人才培养中慕课教学方法的探讨
文言文教学方法实践初探
我的教学方法