函数的凹凸性与信息熵
——从2020 年新高考全国Ⅰ卷第12 题谈起
2023-12-18北京师范大学贵阳附属中学550081李鸿昌
北京师范大学贵阳附属中学(550081)李鸿昌
高考试题,特别是压轴题,凝聚了命题专家的智慧,富含数学的精神、思想与方法.剖析压轴题的命题立意、命题背景,探究试题的推广与各种解法之间的内在联系,是发展解题水平、达到解题目的的一条值得尝试的路径,也是体味数学源头的一种方法[1].下文笔者通过一道高考压轴题,谈问题的源头、背景与推广以及两道考题的背景和解法上的内在联系.
1.一道“新定义”考题
题目(2020 年新高考全国Ⅰ卷12 题·多选题)信息熵是信息论中的一个重要概念.设随机变量X所有可能的取值为1,2,···,n,且P(X=i)=pi>0(i=1,2,···,n),1,定义X的信息熵下列说法中正确的是()
A.若n=1,则H(X)=0
B.若n=2,则H(X)随着p1的增大而增大
D.若n=2m,随机变量Y所有可能的取值为1,2,···,m,且P(Y=j)=pj+p2m+1-j(j=1,2,···,m),则H(X)≤H(Y)
解析(答案:AC ) 对于A 选项,若n=1,则i=1,p1=1,所以H(X)=-(1×log21)=0,故A 选项正确.对于B 选项,若n=2,则i=1,2,p2=1-p1,所以H(X)=-[p1·log2p1+(1-p1)·log2(1-p1)].当当时,两者相等,所以B 选项错误.对于C 选项,若(i=1,2,···,n),则故H(X)随着n增大而增大,所以C 选项正确.对于D 选项,若n=2m,随机变量Y的所有可能的取值为1,2,···,m,且P(Y=j)=pj+p2m+1-j(j=1,2,···,m),则
因为pi>0,所以所以从而因此H(X)>H(Y),所以D 选项错误.
评析本题主要考查对新定义“信息熵”的理解和运用,考查分析问题和解决问题的能力,涉及对数运算、对数函数以及不等式基本性质的运用.
2.信息熵的起源
1948 年10 月,香农在论文《通讯的数学原理》一文中,提出了“信息熵”的概念,并用H=log2n来定义信息量,以此来“消除不确定性的东西”,实现对随机变量所含“信息量”的度量,让人们知道“原来信息是可以用来度量的”[1].设一个概率系统中有n个事件,每一事件发生的概率为pi(i=1,2,···,n),当事件i发生后,给我们的信息量为Hi=-log2pi.对n个事件构成的概率系统,整个系统的平均信息量为这个平均信息量就是信息熵.
3.信息熵的定义
设随机变量X所有可能的取值为1,2,···,n,且的信息熵对数的底数a根据情况可取e,2,10.
4.Jensen 不等式[3]
若f(x) 为区间I上的凸函数(即f′′(x) ≥ 0),则对∀xi∈I,λi>0 (i=1,2,3,···,n),有反之,若f(x) 为凹函数(即f′′(x)≤0),则有
5.试题推广
推广1熵极值不等式
若pi≥0,qi≥0(i=1,2,···,n)且则
证明因为f(x)=lnx是凹函数,由Jensen 不等式可得则得因此≥0.
推广2对数和不等式
若ai≥0,bi≥0 (i=1,2,···,n),则
证明设函数f(x)=xlnx,则f′(x)=lnx+1,所以f(x)是凸函数,由Jensen 不等式可得≥取则得到
推广3(熵的上界)最大离散熵定理
H(X)≤lnn.
证法1因为f(x)=lnx是凹函数,由Jensen 不等式可得得
证法2由对数和不等式,可得即H(X)≤lnn.
推广4信息不等式[4]
证明因为f(x)=lnx是凹函数,由Jensen 不等式可得则有
注如果P,Q分别是两个离散的概率分布,满足P(X=i)=pi,Q(X=i)=qi,pi>0,qi>0 (i=1,2,···,n),并且为相对熵(又称Kullback-Leibler 散度),记作D(P‖Q).推广4 的信息不等式即是D(P‖Q)≥0.
6.应用
例1(2005 年高考全国Ⅰ卷理科)
(1)设函数f(x)=xlog2x+(1-x)log2(1-x)(0 <x<1),求f(x)的最小值.
证明(2) 设g(x)=xlog2x,x∈(0,+∞),则g′(x)=所以g(x)为(0,+∞)上的凸函数,由Jensen 不等式,得
即
例2(2011 年高考湖北卷理科)
(1)已知函数f(x)=lnx-x+1,x∈(0,+∞),求函数f(x)的最大值;
(2)设ak,bk(k=1,2,···,n)均为正数,证明:
(i)若a1b1+a2b2+···+anbn≤b1+b2+···+bn,则
(ii)若b1+b2+···+bn=1,则
证明第(2)问中(i)的证明:设S=b1+b2+···+bn,由h(x)=lnx为(0,+∞)上凹函数,据Jensen 不等式,得
设g(x)=xlnx,则
g(x)在(0,+∞)上是凸函数,由Jensen 不等式,得
即
由h(x)=lnx为(0,+∞)上的凹函数,利用Jensen 不等式,得
即
评析从上述证明可知,例1 和例2 貌似不同,实则在解题方法、命题背景等方面有内在的联系.两道例题的本质是一样的,都有“信息熵”的背景,都利用了h(x)=lnx的凹性和g(x)=xlog2x的凸性.在上述解答中,函数取xlog2x或xlnx,并没有什么本质的区别.