以信息论的视角理解信息科技课程的核心概念
2017-02-18张汶
张 汶
以信息论的视角理解信息科技课程的核心概念
张 汶
追溯信息科技课程的核心概念在创立之初的科学定义和论证,是理解这些概念的一把钥匙。基于信息论这一视角有助于超越具体的日常应用,从而深刻理解核心概念背后的科学原理。本文从信息论的三个定理和一个概念出发,阐述香农信息论对理解信息科技课程核心概念的现实意义。
信息论 信息科技 信息编码 信息压缩
回首3个世纪前,牛顿给一些意义模糊的词(如力、质量、运动等)赋予新的含义,将这些术语加以量化,以便能够放在数学方程中使用,由此开启了物理学的新时代。到了19世纪,“能(energy)”一词也开始经历相似的转变过程,物理学家将这个用来表示强度的词,使之数学化,而赋予了它在物理中的基础地位。“信息”这个词也一样,它也需要一次数学化的提炼,正是香农的信息论完成了这个极为重要的论证,在信息与不确定性、信息与熵,以及信息与混沌之间架起了桥梁,并最终为信息技术的发展奠定了坚实的基础,对计算机和网络的发展具有重要的指导意义。
一、信息论是理解信息科技课程核心概念的钥匙
信息论的提出是一个划时代的进步,但是信息论是一个有多重含义的学术用语,本文所指的信息论指“狭义信息论”,也即以香农为代表的科学家创立的信息论。香农信息论的核心内容可以概括为一个概念和三个定理,也就是信息熵的概念和三个编码定理。
(一)信息熵
对“信息”这一个既抽象又复杂的概念,有不下几十种定义,但是直到香农提出“信息的实质是消除随机不确定性”,“信息”才有了科学的定义。这一定义是极其深刻的,它是一个科学的定义,用数学语言来说,不确定性就是随机性,运用研究随机事件的数学工具——概率和随机过程来测度不确定性的大小。既然数学上已经证明了不确定性的大小能够度量,可见信息是可以测度的,熵本来源于物理中的热力学,用来描写系统的“混乱度”,香农在定义信息熵的时候借用了这个词,因此信息就有了明确的数学模型和定量计算的单位。
(二)编码定理
无失真信源编码定理,也称第一编码定理,是信源无损压缩编码的理论基础,其内容是:如果信源编码码率(编码后平均传送信源符号所需要的比特数)不小于信息源的熵,就存在无失真编码;反之,不存在无失真编码,第一编码定理解决的是信源无损压缩极限的理论问题。有噪信道编码原理,也称第二编码定理,是信道编码的理论基础,其内容是:如果信息的传播速率小于信道的容量,则总可以找到一种编码方式,使得当编码序列足够长时,平均错误译码概率任意小。通俗地说,信息的传播速率不可能超过信道的容量。互联网发展的各个阶段,实际上就是建立在不断拓宽带宽的基础上的,早期使用电话线,再到后来使用同轴电缆和光纤,都是围绕着不断增加信道容量而进行的。信道容量增加能提高传输率,人们才能从阅读文字,到看视频,整个互联网才能得到发展。在香农提出第二定律后,人类就开始有意识地不断扩展带宽。限失真信源编码定理,也称第三编码定理,是有损压缩编码的理论基础,其内容是,给定了允许的平均失真率后,只要码字足够长,总可以找到一种编码,使得当信源的编码码率大于或等于信息率失真函数时,码的平均失真小于或等于允许的平均失真度。这一定理解决了有损压缩极限的理论问题。
信息科技课程以信息处理为主线,“信息”这一概念是信息科技课程概念体系的重要支点,因为可以派生其他概念而具有基础性,可以聚合其他信息科技领域的概念而具有统领性。课程所有的重要概念都围绕“信息”这一最基础、最重要的概念展开,并由此生发出诸多具有核心价值的概念,如信息编码、信息压缩、信息安全、信息处理系统等。这些概念有机结合在一起支撑了学科课程的框架,而所有概念都可以在信息论中找到科学依据,因此可以将信息论作为一把理解核心概念的钥匙,用于深入理解概念的内涵以及概念之间的联系。
总之,香农信息论的信息熵和三个定理,具有数学严格化的特点,可以进行定量计算,信息论直接推动了通信技术的大发展,进而推动整个信息技术发展,逐步形成了信息技术领域内各个分支,使之成为独立的信息科学,也是当前高中信息科技课程核心概念的理论框架。
二、从信息论的视角解读课程的核心概念举例
(一)比特
从日常生活看,比特(bit)是信息量的度量单位,也是信息量的最小单位,时至今日它被如此频繁地使用,以至于逐渐成为一个基本量纲。学生对比特的认识从小学就开始了,他们在观察文件大小的过程中认识比特;到了初中,他们开始学习二进制,知道比特作为存储单位的基础作用,理解文件大小、硬盘容量、手机内存等;到了高中,学生又从网络传输速率中理解比特的作用。但是比特仅仅是用来表示信息存储或者传输的单位吗?它从何而来?它究竟与“不确定性”之间是怎样的关系?用来表示存储单位的“比特”和用来消除不确定性的“比特”是一样的吗?
从信息论的视角看待比特则可以超越作为日常生活对此的理解。日常生活中人们常说信息很多或者很少,但是却很难说清楚信息量究竟有多少,一本50万字的中文书究竟有多少信息量?一只股票的报价表在财务外行看来可能是数字乱码,而在专业投资者来说却有极大的价值,信息量又该如何计算?如果说信息有用,那么它的作用是如何客观、定量地体现出来?信息用途的背后是否有理论基础?后面这两个问题,几百年来没有人给出很好的解答,直到香农提出“信息熵”这一概念,他用类似于确定物理学热力熵的方程式来确定信息量。对于信息量的度量,香农给出了数学公式,如果随机变量X的概率密度函数为p(x),那么X的熵为:,变量的不确定性越大,熵也越大。采用的单位取决于对数所选取的底,此处使用以2为底的对数函数,则熵的量纲为比特,这也就是比特的来源。如果采用以e为底,则所得的信息量单位为奈特(nat);如果采用以10为底的对数,则所得的信息量单位为哈特(hart)。
以最基本的离散信源为例,事件a“小王今天吃饭了”发生的概率是99.99%,那么这个事件的自信息量是–log2a=–log20.9999=0.0001423bit,而事件b“某地今天地震”,其发生的概率是0.01%,它的自信息量是–log2b=–log20.0001=13.29bit。可见,事件b发生带来的信息量远大于事件a的发生带来的信息量,这也就印证了为什么地震的发生会让人吃惊,而某人吃饭却不会引起关注。
再以比赛冠军为例,若在1–32号球队中猜测谁是冠军,对方回答是或者否,则若第一次提问“冠军是1–16号之间吗?”若对方回答“是”,则继续在1–8号中猜测;若对方回答“否”,则继续在9–16号之间进行猜测,这样需要猜测5次就能猜中,也就是说这条信息量是5bit,也就是log232=5。如果64个球队,那么信息量是log264=6bit,这与“二分法”查找数据的思想非常类似。但是事实上更聪明的猜测方法是考虑不同球队的概率,因为不同的球队获得冠军的概率是不同的,有的球队是常胜冠军,有的球队则比较弱,因此从高概率的球队开始编号和猜测,则可能不需要猜5次就能获得结果,因为当每支球队夺冠的概率不同时,根据,“谁是冠军”的信息量就少于5bit。可见,信息量与消除不确定性密切相关,反过来用不确定性来计算信息量。
由上述可知,比特在信息技术中具有核心的地位。它不仅仅在日常生活中使用,用来描述文件大小、硬盘大小等特征,更重要的是充分理解它在度量信息量方面的价值,理解其背后科学的数学推理和证明。
(二)信息编码
信息编码是学生理解现实世界各种类型的信息如何被计算机识别的一个核心概念,也就是说“万物皆比特”是如何做到的?对这一核心概念的理解,日常教学中,往往着重于从不同信息的类型出发,理解英文字符、汉字、图像、声音等,如何用不同的编码方法使之数字化。
从信息论的角度理解信息编码,则可以超越具体的编码方式,理解不同编码方式背后的规律以及编码的极限。以汉字编码的输入码为例,学生常常有疑问,怎样的汉字编码是好的编码呢?能否将汉字的编码设计得更短一些,使输入更快更便捷?如果可以更短一些,那么短到多少,是否有极限?输入一个汉字需要敲击多少个键?从理论上分析,这需要用到香农信息论的第一定律。
GB2312简体中文字符集一共有6700多个常用汉字,如果不考虑汉字频率分布,用键盘上26个字母对汉字进行编码,两个字母的组合理论上只能对676个汉字进行编码,对6700个汉字进行编码则至少需要3个字母的组合,即编码长度为3,当然如果对常见的汉字使用更短的编码,对不太用的汉字使用较长的编码,则可以缩短每个汉字的编码长度。假定每个汉字出现的频率是p1, p2, p3,…, p6700,它们的编码长度是l1,l2, l3,…,l6700,则平均编码长度是:p1l1+ p2l2+ p3l3+…+p6700l6700。
按照香农第一定理,对于一个信息,任何编码的长度都不小于它的信息熵,因此上面平均编码长度的最小值就是汉字的信息熵,任何输入法都不可能突破信息熵所给定的极限,根据信息熵的公式可得:H= –p1log2p1– p2log2p2– … –p6700log2p6700。
如果对每个字进行统计,且不考虑上下文的相关性,可以估算出H的值在10bit之内,当然也取决于用什么语料库来做估计,如果假定输入法只能用26个字母输入,那么每个字母可以代表log226≈4.7bit的信息,也就是说输入一个汉字平均需要10/4.7≈2.1次键。如果把汉字组成词,再以词为单位统计信息熵,那么每个汉字的平均信息熵就会减少,这样平均输入一个字可以减少零点几次键盘。不考虑词的上下文相关性,以此为单位统计,汉字的信息熵大约是8bit。也就是说,以词为单位输入一个汉字平均只需要8/4.7≈1.7次键。如果再考虑上下文相关性,建立基于词的统计模型,就可以将汉字的信息熵降低到6bit左右,此时输入一个汉字只要敲6/4.7≈1.3次键。但是事实上没有一种输入法能接近这个效率,要接近信息论给定的极限,就要对汉字的词组根据词频进行特殊编码,而过于特殊的编码其实欲速则不达。此外,在个人电脑上,很难安装非常大的语言模型。因此,汉字的输入过程本身可以看成是个人和计算机的通信,好的输入法会遵循通信的数学原理,遵循信息论的原理。
信息编码的理论是计算机科学的关键组成。因此从信息论的角度理解无损压缩极限的理论问题,可以超越具体的编码方法,思考信息编码的一般规律。
(三)信息压缩
信息压缩因为可以减少存储空间和缩短传输时间,成为最为常用的技术。学生往往先作为信息压缩软件的使用者,操作常见的压缩软件(如WinZIP或WinRAR)对文件进行压缩,然后了解无损压缩和有损压缩的简单原理。可见人们对信息压缩的认识以感性的操作为主,尽管也能通过一些典型的压缩方法的示例理解原理,还缺少一个从整体上思考信息压缩的框架。
从信息论的角度理解信息压缩,不仅能理解各种有损或者无损压缩的实例,更能深入地理解信息压缩的思想方法,理解压缩软件背后的工作原理。以文本信息的无损压缩为例,大部分计算机中都使用标准码来表示文本,包括传统的固定长度编码ASCII和现代的变长编码Unicode。这两种情况下,每个字母都使用了相同长度的编码,因为通过寻找重复模式并基于文件上下文,用更短的编码代替这些模式,文本文件可以被压缩。例如,一个包含很多字母“f ”的文件,可以用新的、更短小的编码来替换它的编码,达到压缩文件的目的。新的编码取决于“f ”在文件中的出现频率,在“f ”频繁出现的文件中,这个编码可能是3位,而在“f ”不那么频繁出现的文件中,这个编码可能是5位,文件压缩算法会生成一个新编码到原始编码的转换表。日常生活中的“.ZIP”和“.RAR”格式的压缩就使用了这种策略,这种压缩策略的设计也不会将信息压缩至低于熵的阈值,若是低于阈值,则无法保证完全恢复的信息,这一无损压缩编码的理论基础,也称香农第一编码定理。
“有损压缩”也是“信息压缩”中一个十分重要的概念。根据信道编码定理,若信源是连续的(即取值是无限的、不可数的),则连续信源的绝对熵是无限大,如果要求无失真地传送连续信源,则信息传输率也必须为无限大,而带宽总是有限的,因此无法实现无失真的传输。实际上,有些情况下人们不需要完全无失真的消息,通常只需要类似的原始消息的再现,即允许存在一些失真,失真信源编码理论,通常称之为香农第三编码定理。这对于理解有损压缩如何既高效又可靠具有重要的意义。根据定理,可认为数字化并不是生成信息的一个完全拷贝,而是一种近似化过程,因为它会丢失一些信息,而丢失的信息的失真度可以控制在合适的范围内,这就可以更好地解释音频数据和视频数据的压缩技术(如JPEG或MPEG标准等)的原理。
因此,从信息论的视角理解信息压缩,有助于超越各种各样纷繁复杂的压缩方法,超越具体的压缩工具的使用,认识无损压缩的理论问题,从整体上思考信息压缩的可能性和极限问题,理解高效而可靠传输信息的数学原理。
三、从信息论的视角理解课程核心概念,需要转变思维方式
信息论不仅是一套通信理论,也是一种全新的方法论。它之所以能带来如此深刻的影响,也在于它蕴含着一些独特的思维方式,使通信问题的研究从经验转变为科学。因此从信息论的视角解读信息科技的核心概念,不仅要认识理论本身的逻辑,理解概念背后坚实的数学模型和论证,更重要的是要形成新的思维方式。
(一)形式化和定量计算
香农对通信的基本问题的深刻理解在于,将信息的语义因素和语用因素搁置起来,正如他本人曾说:“对于信息论的研究而言,信息的意义基本无关”,信息被剥除了语义和语用因素,还剩下什么?香农找到了关键,就是不确定性,只有单纯地考虑信息的形式因素,才便于建立模型,减少参数,突出问题的本质。这种形式化处理,对复杂的问题进行分解,去掉了具有个性化特点的、难以处理的语义和语用因素,巧妙地保留了容易用数学描述的通用形式,使得应用数学工具定量地度量信息成为可能。
而信息论以概率论为工具,刻画了信源产生的信息的数学模型,导出了度量信息的数学公式,给出了信道传输能力的容量公式,建立了一组信息传输的编码定理,论证了信息传输的一些基本界限,使通信从经验逐步走向科学。如果没有将信息进行定量研究,则它不可能成为一门科学。因此,要理解信息科技课程的概念体系,就要理解对信息进行形式化的方法,不能仅仅从使用者的角度看它的功能和操作,更重要的是理解各个概念背后的数学推理过程。
(二)不确定性和大数据
香农认为,一个实际的消息总是从可能发送的消息集合中选择出来的。他认为通信的基本问题是,在一点精确地或者近似地复现在另一点所选取的消息。此处“消息”可以理解为信息。“点”是一个精心选择的措辞,这意味着,信息的信源和信宿可以在时间或者空间上相分割,信息并不是创造出来的,而是选取出来的,一条信息就是一个选择,可能是从一副牌里选出一张牌,又或是从一个确定的码本中选出一组词。因此信息就是用来消除这种不确定性,至于要引入多少信息,则要看系统中的不确定性有多少,这种思路成为信息时代解决问题的一种基本方法。如果能找到因果关系是最好的结果,但问题往往是复杂的,在无法确定因果关系时,数据提供了解决问题的新方法,数据中包含的信息可以帮助人们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,这就是大数据的重要性。
尽管香农的信息论也存在诸多局限,但也在不断发展中,可以毫不夸张地说,没有信息论就没有今天的信息时代,信息论阐明了通信的基本问题,提出了通信系统的模型,给出了信息量的数学表达式。但是信息论博大精深,可以从信息论的“熵”这一概念和三个定理出发,建立形式化和定量分析的思维方式,理解随机性以及大数据对问题解决的价值,用计算思维解释信息科技课程中的核心概念,有助于真正理解信息科技课程中概念体系背后的本质和规律。
[1] Thomas M C, Joy A T.信息论基础[M]. 2版. 阮吉寿,张华,译.北京:机械工业出版社,2008.[2] 曹雪虹,张宗橙.信息论与编码[M]. 2版.北京:清华大学出版社,2009.
[3] 傅祖芸,赵建中.信息论与编码[M]. 2版.北京:电子工业出版社,2014.
[4] 樊昌信,曹丽娜.通信原理[M]. 6版. 北京:国防工业出版社,2006.
[5] 赵晓群.信息论基础及应用[M]. 北京:机械工业出版社,2015.
[6] 格雷克.信息简史[M]. 高博,译.北京:人民邮电出版社,2013.
[7] 吴军.数学之美[M]. 北京:人民邮电出版社,2012.
张 汶 上海市教育委员会教学研究室 200041