APP下载

函数的凹凸性与信息熵
——从2020 年新高考全国Ⅰ卷第12 题谈起

2023-12-18北京师范大学贵阳附属中学550081李鸿昌

中学数学研究(广东) 2023年21期
关键词:信息量压轴信息熵

北京师范大学贵阳附属中学(550081)李鸿昌

高考试题,特别是压轴题,凝聚了命题专家的智慧,富含数学的精神、思想与方法.剖析压轴题的命题立意、命题背景,探究试题的推广与各种解法之间的内在联系,是发展解题水平、达到解题目的的一条值得尝试的路径,也是体味数学源头的一种方法[1].下文笔者通过一道高考压轴题,谈问题的源头、背景与推广以及两道考题的背景和解法上的内在联系.

1.一道“新定义”考题

题目(2020 年新高考全国Ⅰ卷12 题·多选题)信息熵是信息论中的一个重要概念.设随机变量X所有可能的取值为1,2,···,n,且P(X=i)=pi>0(i=1,2,···,n),1,定义X的信息熵下列说法中正确的是()

A.若n=1,则H(X)=0

B.若n=2,则H(X)随着p1的增大而增大

D.若n=2m,随机变量Y所有可能的取值为1,2,···,m,且P(Y=j)=pj+p2m+1-j(j=1,2,···,m),则H(X)≤H(Y)

解析(答案:AC ) 对于A 选项,若n=1,则i=1,p1=1,所以H(X)=-(1×log21)=0,故A 选项正确.对于B 选项,若n=2,则i=1,2,p2=1-p1,所以H(X)=-[p1·log2p1+(1-p1)·log2(1-p1)].当当时,两者相等,所以B 选项错误.对于C 选项,若(i=1,2,···,n),则故H(X)随着n增大而增大,所以C 选项正确.对于D 选项,若n=2m,随机变量Y的所有可能的取值为1,2,···,m,且P(Y=j)=pj+p2m+1-j(j=1,2,···,m),则

因为pi>0,所以所以从而因此H(X)>H(Y),所以D 选项错误.

评析本题主要考查对新定义“信息熵”的理解和运用,考查分析问题和解决问题的能力,涉及对数运算、对数函数以及不等式基本性质的运用.

2.信息熵的起源

1948 年10 月,香农在论文《通讯的数学原理》一文中,提出了“信息熵”的概念,并用H=log2n来定义信息量,以此来“消除不确定性的东西”,实现对随机变量所含“信息量”的度量,让人们知道“原来信息是可以用来度量的”[1].设一个概率系统中有n个事件,每一事件发生的概率为pi(i=1,2,···,n),当事件i发生后,给我们的信息量为Hi=-log2pi.对n个事件构成的概率系统,整个系统的平均信息量为这个平均信息量就是信息熵.

3.信息熵的定义

设随机变量X所有可能的取值为1,2,···,n,且的信息熵对数的底数a根据情况可取e,2,10.

4.Jensen 不等式[3]

若f(x) 为区间I上的凸函数(即f′′(x) ≥ 0),则对∀xi∈I,λi>0 (i=1,2,3,···,n),有反之,若f(x) 为凹函数(即f′′(x)≤0),则有

5.试题推广

推广1熵极值不等式

若pi≥0,qi≥0(i=1,2,···,n)且则

证明因为f(x)=lnx是凹函数,由Jensen 不等式可得则得因此≥0.

推广2对数和不等式

若ai≥0,bi≥0 (i=1,2,···,n),则

证明设函数f(x)=xlnx,则f′(x)=lnx+1,所以f(x)是凸函数,由Jensen 不等式可得≥取则得到

推广3(熵的上界)最大离散熵定理

H(X)≤lnn.

证法1因为f(x)=lnx是凹函数,由Jensen 不等式可得得

证法2由对数和不等式,可得即H(X)≤lnn.

推广4信息不等式[4]

证明因为f(x)=lnx是凹函数,由Jensen 不等式可得则有

注如果P,Q分别是两个离散的概率分布,满足P(X=i)=pi,Q(X=i)=qi,pi>0,qi>0 (i=1,2,···,n),并且为相对熵(又称Kullback-Leibler 散度),记作D(P‖Q).推广4 的信息不等式即是D(P‖Q)≥0.

6.应用

例1(2005 年高考全国Ⅰ卷理科)

(1)设函数f(x)=xlog2x+(1-x)log2(1-x)(0 <x<1),求f(x)的最小值.

证明(2) 设g(x)=xlog2x,x∈(0,+∞),则g′(x)=所以g(x)为(0,+∞)上的凸函数,由Jensen 不等式,得

例2(2011 年高考湖北卷理科)

(1)已知函数f(x)=lnx-x+1,x∈(0,+∞),求函数f(x)的最大值;

(2)设ak,bk(k=1,2,···,n)均为正数,证明:

(i)若a1b1+a2b2+···+anbn≤b1+b2+···+bn,则

(ii)若b1+b2+···+bn=1,则

证明第(2)问中(i)的证明:设S=b1+b2+···+bn,由h(x)=lnx为(0,+∞)上凹函数,据Jensen 不等式,得

设g(x)=xlnx,则

g(x)在(0,+∞)上是凸函数,由Jensen 不等式,得

由h(x)=lnx为(0,+∞)上的凹函数,利用Jensen 不等式,得

评析从上述证明可知,例1 和例2 貌似不同,实则在解题方法、命题背景等方面有内在的联系.两道例题的本质是一样的,都有“信息熵”的背景,都利用了h(x)=lnx的凹性和g(x)=xlog2x的凸性.在上述解答中,函数取xlog2x或xlnx,并没有什么本质的区别.

猜你喜欢

信息量压轴信息熵
对2021年高考导数压轴题的多种解法
巧用同构法解决压轴题
基于信息熵可信度的测试点选择方法研究
十种解法妙解2020年高考导数压轴题
一道耐人寻味的中考压轴题
基于信息理论的交通信息量度量
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
如何增加地方电视台时政新闻的信息量
基于信息熵的IITFN多属性决策方法