信息熵的介绍及应用
2013-09-03田源
田源
【摘 要】以信息论的概念及其应用探讨为目的,首先通过提出想要对“信息”这一概念进行量化的想法,介绍了“信息量”概念的提出以及完善到“信息熵”的过程,进而介绍了“信息熵”的概念,简述了信息论这一学科的启蒙和发展。通过一个友谊赛比赛结果的例子贯穿了文章前半部文,并且运用信息量以及信息熵的计算方法对结果进行了计算和比较;在文章后半部分提出了一个经典问题,首先给出了一个信息熵极值定理的证明,之后运用信息熵的理论给出了这一问题的解决方法。
【关键词】信息 信息量 信息熵 不确定性 概率
【中图分类号】C931.6【文献标识码】A【文章编号】1672-5158(2013)07-0512-02
1、信息量化及信息熵的提出
1.1 信息的量化
通常情况下我们无法准确感知“信息”(Information)这个抽象词语。而能够被量化的事物永远比只能被抽象形容的事物更加容易被人们理解和接受。例如,“今天一场足球友谊赛的比分是巴西4:0德国”就比“今天巴西在决赛上大胜德国队”更加能引起听者的共鸣。由此可见,若“信息”这一抽象概念能够被量化,将十分有助于我们理解它的深刻含义。
1.2 信息熵的提出
依然以上述友谊赛为例,假设甲乙丙三人都是球迷,当天的球赛甲因为有事而没有看到,此时他向乙、丙二人询问结果。乙说:“球赛不是平局”。丙说:“巴西队赢了”。显然,乙所提供的信息只能帮助甲排除掉两队平局的情况,而丙提供的信息则帮助甲排除了“两队踢平”和“德国队胜”这两种情况,从而提供了比乙更多的信息。通过这个例子,丙因为帮甲缩小了可能的范围而提供了更多的信息。在数学上,我们把这称为消除“不确定性”(Uncertainty)。很显然,信息的量化过程极有可能与不确定性相关。
1928年,R.V.L.哈特莱首先提出信息定量化的初步设想,他将消息数的对数定义为“信息量”(information content)。若信源有m种消息,且每个消息是以相等可能产生的,则该信源的信息量可表示为I=log m。至于为什么用对数作为信息量的计算,随后的香农(C.E.Shannon)在他的论文“通信的数学理论(A Mathematical Theory of Communication)”中给出了解释。
事实上,R.V.L.哈特莱对信息量的定义过于理想化,因为在现实中,绝大多数的信源输出的消息都是随机的,即是说“信源有m种消息,且每个消息是以相等可能产生的”这种情况是极少存在的。直到1948年香农( C. E. Shannon)提出了“信息熵”(entropy of information)的概念,奠定了“信息论”这一新学科的基础,才完善了“信息量”的概念。
2、香农的信息论理念
2.1 香农对信息量化的完善
香农(C.E. Shannon)信息论中,信息是用不确定性的量度定义的,这与本文最开始提到的直观例子相符合:一个消息的可能性愈小,其信息愈多;而消息的可能性愈大,则其信息愈少。事件出现的概率小,不确定性就越多,信息量就大,反之则少。同时香农(C.E.Shannon)认为:信源输出的消息是随机的。即在未收到消息之前,是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后,尽可能多的解除接收者对信源所存在的疑义(不确定度),因此这个被解除的不定度实际上就是在通信中所要传送的信息量。香农(C.E. Shannon)亦给出了信息量的计算公式:
其中,K是正常数。
4、经典问题
4.1 硬币验假问题叙述
介绍过了信息的量化过程以及信息量和信息熵的概念后,我们先来看一例经典问题以及信息论的知识在其中的应用。
在12枚硬币中,有一枚假硬币的重量和其它11枚不同,除此之外12枚硬币的各项质地包括外形、颜色等完全相同。在只有一架天平且没有砝码的情况下,问最少几次可以找出重量不同的硬币。
4.2 问题分析
首先我们注意到:不知道假硬币的重量较其它硬币是轻是重给这一问题增加了难度,此时每枚硬币都可能是假硬币而且既可能轻也可能重,故而对于哪一枚硬币是假硬币这一事件来说总共有12×1×2=24种可能性;
而在每次称量硬币时,由于我们不知道假硬币是轻是重,所以无法通过天平的倾斜方向来判断假硬币的所在,所以会出现三种可能:
x1:假硬币在天平左边
x2:假硬币在天平右边
由于次数为一非负整数概念,故至少需要三次可以找出假硬币。
4.3.2 实际操作结果
首先将12枚硬币编号1~12,同时每四枚一组命名为第一组、第二组和第三组。第一次称量第一组和第二组,若:
(1)天平平衡,则:
(2)天平不平衡,不妨设第一组比第二组重量轻(即是说如果假硬币在第一组中,则1234中有一枚较标准硬币会轻;反之就是5678中有一枚较标准硬币会重)
当第二组比第一组重则情况与②相仿,不予赘述。
结束语
以上是对信息量以及信息熵的介绍和实际应用的一些讨论和研究,自信息量概念的提出到信息熵系统的完善,可以说是将信息论这门学科或者说信息这一概念完整而系统的表示出来了,使人们对“信息”的概念和作用都有了深刻的认识,在通信以及工程上都是一个伟大的贡献。
参考文献
[1] C.E.Shannon:《A Mathematical Theory of Communication》,1948
[2] 石峰,莫忠息:《信息论基础》 武汉大学出版社,2006
[3] 邓集贤,杨维权,司徒荣等:《概率论与数理统计》 高等教育出版社,2009