APP下载

利用条件概率与乘法公式解释搜索引擎拼写纠错功能的原理*

2013-07-31

湖北科技学院学报 2013年3期
关键词:样本空间搜索引擎乘法

赵 甲

(山西大学 商务学院,山西 太原 030031)

一、统计语言模型的提出

人类长期以来一直梦想着让计算机代替人在大量的文献信息中完成自动检索,并在人类拼写错误的时候,计算机可以明白人类真正想要表达的意思,并提醒人类错误拼写的出处。

著名数学家、信息论的创始者香农最早提出了用数学的方法处理自然语言的想法,但由于当时的计算机条件无法完成海量信息的处理,因此,直到1972年,著名语音识别和自然语言处理专家贾里尼克在IBM华生实验室做学术休假时,才组织强大的科研队伍,利用大型计算机处理人类语言问题,统计语言模型随之产生。

二、条件概率与乘法公式

在某样本空间Ω中的事件A与B,若随机从Ω中选出一个样本点属于事件B,即事件B已发生,以此为条件,再随机从Ω中选出一个样本点属于事件A的概率,即在事件B发生的条件下事件A发生的概率就是定义在事件B发生的条件下事件发生的条件概率。

定义 设A、B是定义在同一样本空间Ω中的两事件,且P(B)>0,则称

为事件B发生条件下,事件A的条件概率。

相应的,若P(A)>0,事件A发生条件下,事件B的条件概率可以定义为

虽然P(A/B)与P(A)都是求事件A发生的概率,但一般情况下,P(A/B)≠P(A)。因为计算事件A发生的概率P(A)时,是在整个样本空间下,而在考察事件B发生条件下,事件A的条件概率P(A/B)时,实际上仅局限于事件B的范围,其样本空间不同。

利用条件概率的定义可以得到:

这两个公式即为乘法公式,利用它们可以计算两个事件同时发生的概率,且可以推广到有限个事件积的概率形式:

设A1,A2,……,An为n个 事 件,且P(A1,A2,……An)>0,则

三、条件概率与乘法公式在汉字拼写纠错中的应用

在文献查询、汉字拼写纠错等众多涉及到自然语言处理的领域,都需要知道一个由若干单个文字构成的复杂序列是否能被人理解,即拼写是否正确,处理这个问题,我们可以使用统计模型来解决。

设S是由若干文字构成的语言序列,具有一定的实际意义,A1,A2,……,An为构成这个语言序列的n个文字。若S能够被人理解即拼写无误,是一个正确的句子或词语,则其在人们正常的拼写或输入时出现的可能性很大。用数学的语言来说就是S发生的概率P(S)很大。反之,若S拼写有误,则人们正常的拼写或输入时出现的可能性很小,也就是P(S)很小。

利用乘法公式,则这个语言序列出现的概率为:

其中P(A1)表示构成这个语言序列的第一个字A1出现的概率,P(A2|A1)表示在第一个字出现条件下,第二个字出现的概率,依此类推。

例如,想在网络中搜索关于“条件概率”的相关信息,但在搜索引擎中输入“条件概律”,搜索引擎会提示正确的输入应该是“条件概率”,其原理如下:

设输入“条件概律”为事件S,输入“条”、“件”、“概”、“律”四个字分别为事件A1,A2,A3,A4。首先计算P(S),因“条件概律”这个语言序列中有错别字,即人们在正常的拼写或输入时出现的可能性很小,也就是说P(S)应该是一个很小的值。搜索引擎程序可根据预先设定好的参照值判断出S这个词语输入有误。然后计算P(A1),P(A2|A1),P(A3|A1A2)以及P(A4|A1A2A3)。因正确的书写应是“概率”,而非“概律”,故P(A4|A1A2A3)的值应当是一个非常小的值,通过与参照值的对比可以发现错别字为“律”。进而按照中文发音习惯,用同发“律”音的字与之替换,直到P(S)最大,即S这个语言序列出现的可能性最大,则它应该是正确的词语。

对于上述各概率值的计算以及参照值的选取,可根据对用户在输入数据时的大量机读文本进行统计后确定,例如可预先设定参照值为万分之五,若某一语言序列S出现的概率P(S)小于万分之五,则我们可以认为其中包含错别字。

四、结 论

事实证明,统计语言模型在机器语言翻译、拼写纠错、语音识别等方面比其他方法更行之有效,培养概率思维,对帮助人们正确观察事物的本质,进而用数学方法解决看似不可能的问题大有帮助。在当今网络如此发达、信息化程度如此之高的大环境下,学生利用搜索引擎获取知识早已不足为奇,若将此例融入大学数学的教育中,既可以帮助学生更加深刻地理解条件概率与乘法公式这部分内容,又可以让学生知道他们常用的搜索引擎工作的部分原理,从而激发学生学习数学、应用数学的能力。

[1]茆诗松.概率论与数理统计[M].北京:高等教育出版社,2004.

[2]吴赣昌.概率论与数理统计[M].北京:中国人民大学出版社,2006.

[3]吴军.数学之美[M].北京:人民邮电出版社,2012.

[4]吴军.浪潮之巅[M].北京:电子工业出版社,2011.

猜你喜欢

样本空间搜索引擎乘法
算乘法
概率统计中样本空间刍议
我们一起来学习“乘法的初步认识”
《整式的乘法与因式分解》巩固练习
把加法变成乘法
古典概型中一道易错题的思考
全概率公式的教学方法研究
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究