面向6G的语义通信*
2021-08-03牛凯戴金晟张平姚圣时王思贤
牛凯,戴金晟,张平,姚圣时,王思贤
(1.北京邮电大学泛网无线通信教育部重点实验室,北京 100876;2.鹏城实验室,广东 深圳 518000;3.北京邮电大学网络与交换技术国家重点实验室,北京 100876)
0 引言
2019年11月3日召开的6G技术研发工作启动会,标志着我国6G研发正式提上日程。芬兰奥卢大学的6G白皮书[1],列出了6G的主要性能指标:峰值传输速率达到100 Gbps~1 Tbps;通信时延50~100 μs;超高可靠性:中断概率小于10-6;超高密度:连接设备密度达到每立方米大于100;超大容量:采用THz频段,大幅度提高网络容量。总体而言,6G系统的性能指标,相比5G将提升10到100倍。
在未来第六代(6G)移动通信系统中,用户的智能需求将被进一步挖掘和实现,并以此为基准进行技术规划与演进布局。6G不仅包含5G涉及的人、机、物这3类服务对象,还引入第四类服务对象—灵(Genie)[2]。作为人类用户的智能代理,灵存在于虚拟世界,基于实时采集的大量数据和高效机器学习技术,存储和交互用户的所说、所见和所思,完成用户意图的获取以及决策的制定。由此可见,未来6G移动通信需要服务人-机-物-灵四类对象,同时满足低时延高可靠、高频谱效率、高密度大连接的性能要求。
自从1948年香农奠基信息论[3]以来,现代通信技术,特别是移动通信技术的发展已经逐步逼近通信理论极限,例如信源编码技术已经逼近了信源熵/率失真函数,LDPC码、极化码等先进信道编码技术已经逼近信道容量。建立在概率信息基础上的通信系统,迫切需要技术突破与变革,才能应对未来6G移动通信的发展需求。
近年来,语义信息(Semantic Information)研究成为学术界的关注热点。基于语义信息的数据传输将是非常有竞争力的一种6G候选技术。本文旨在介绍面向6G传输需求的语义通信技术,展望语义信息处理的应用前景。
1 语义信息论简介
从认识论观点看,信息分为三个层次:语法、语义和语用。经典信息论只研究语法信息,在研究范畴、研究层次与研究维度方面存在局限,从而限制了信息与通信系统性能的持续提升。扩展信息研究的层次,从语法信息深入到语义信息,将为通信系统优化提供新的研究角度,具有重要的变革意义。
1.1 语义信息概念探索
在经典信息论诞生后不久,人们就展开了语义信息论的研究。1953年,Weaver[4]考虑了信息分析的三个层次,他指出“与发射机预期含义相比,语义问题更关心接收机对收到信息含义的统一性解释”。Weaver的先驱工作启发了人们对语义信息的探索与研究。
Carnap与Bar-Hillel提出了语义信息论[5-6]的概念框架,试图对传统通信理论进行补充。他们认为语句中含有的语义信息,应当基于语句内容的逻辑概率来定义。Barwise与Perry进一步提出了场景逻辑原则定义语义信息[7]。Floridi提出强语义信息理论[8],指出Carnap语义信息理论中,语句矛盾将具有无穷大的信息。2011年,Alfonso进一步引入了类真性概念[9],对语义信息进行度量。钟义信从信息的三位一体特征出发,对语义信息理论进行总结,证明语义信息表征具有唯一性[10]。
尽管人们一直在进行语义信息的研究探索,但与经典信息论相比,语义信息的理论框架远未成熟,语义信息的定义与度量也尚未达成一致。最近二十年,脑科学与认知科学取得了巨大进展,特别是神经认知科学的发展,对神经网络与深度学习理论产生了深远影响。最近,华为公司提出的后香农时代十大问题[11],将语义信息论列为首要的基础理论问题。人们对语义信息的度量、提取与表征的关注越来越多,这一方向有望成为6G移动通信的基础理论之一。
1.2 语义信息度量
正如Weaver所指出的,语义信息不仅与发送者有关,更与接收者的理解有关,因此具有概率性与模糊性的双重不确定性。事实上,具有语法与语义特征的信源均为广义信源,既具有随机性,又具有模糊性,单纯的随机和模糊不能全面刻画广义信源特征。
经典信息论建立在概率论基础上,不考虑信息的内容和含义,它主要对信息的随机性进行度量,称为信息熵,确切地说,是概率信息熵。但现实生活中,最常用的便是自然语言信息,也即语义信息,其典型特征是模糊性。比如:高、矮、胖、瘦、大概、差不多等,这些语义描述是模糊变量而不是随机变量,需要借助模糊集合论作定性和定量分析。
1972年,De Luca与Termini[12-13]首先研究了纯模糊性引入的不确定性,把概率信息熵移植到了模糊集合上,给出了模糊熵的定义。他们将随机与模糊这两方面不确定性的联合熵定义为总熵,但这个定义不便于推广。1982年吴伟陵进一步推广了模糊熵概念,提出了广义联合熵、广义条件熵与广义互信息[14],建立了语义信息的基本度量方案。
原则上,已知概率分布,选择合适的隶属函数,对于给定信源,就可以计算信源的概率熵与模糊熵,从而度量信源的语法与语义信息。但是由于语义信息蕴含在语法信息中,隶属函数通常都是复杂的非线性形式,并且可能动态变化,因此式(2)的广义熵形式只具有理论意义,难以对语义通信进行实际指导。文献[15]提出了语义基(Seb, Semantic Base)的思想,基于神经网络模型,提取语义特征,用于语义信息度量,避免了隶属函数选择的困难问题,是值得深入研究的新思路。
基于概率与模糊二重不确定性的广义熵以及广义互信息,对于面向6G的语义通信系统优化,具有重要的理论指导意义。但这些语义信息的定量指标分析仍然是开放问题,还需要随着语义信息论的发展,逐步明确并加以完善。
2 语义通信系统框架
所谓语义通信(Semantic Communications),是指从信源中提取语义信息并编码,在有噪信道中传输的通信方式。传统的语法通信,要求接收端译码信息与发送端编码信息严格一致,即实现比特级的无差错传输。而语义通信与之相反,并不要求译码序列与编码序列严格匹配,只要求接收端恢复的语义信息与发送语义信息匹配即可。由于放松了信息传输的差错要求,语义通信有望突破经典通信系统的传输瓶颈,为6G移动通信提供新的解决思路[15]。
学术界对于语义通信已经有一些初步研究。Xie等人[16]针对文本信息传输提出了基于深度学习的语义通信系统(DeepSC),初步考虑了信源-信道联合编码,使接收端从语义角度恢复文本。针对文本信源,Farsad等人[17]设计了基于双向长短期记忆模型(BiLSTM)的语义编解码方案,本文作者提出了改进方案[21],可以达到满意的语义误词率(WER, Word Error Rate)性能。针对图像信源,Gunduz与Kurka等人基于卷积神经网络,设计了多种模拟式的语义编解码方案[18-20],具有显著的压缩效率,并且能够对抗无线信道传输中的差错。
如前所述,在6G移动通信的各种场景中,人-机-物-灵四类通信对象之间会产生大量不同形态的数据,各种对象之间的通信不再仅仅是传输比特数据,而是借助其“智能”特性实现以“达意”为目标的语义通信。智能任务复杂多变,语义通信对实现6G业务对象间的高效通信与准确控制具有重要意义,有着广阔的研究和应用前景。
面向6G移动通信的语义通信系统如图1所示,在发送端,信源产生的信息首先送入语义提取模块,产生语义表征序列,接着送入语义信源编码器,对语义特征压缩编码,然后送入信道编码器,产生信道编码序列,送入传输信道。在接收端,信道输出信号首先送入信道译码模块,输出的译码序列再送入语义信源译码器,得到的语义表征序列再送入语义恢复与重建模块,最终得到信源数据送入信宿。
图1 面向6G的语义通信系统结构
在语义通信系统中,信道编译码器属于经典通信系统,而语义提取与编码模块则属于语义通信系统,经典通信信道通过统计转移概率建模,而语义信道则通过语义标签之间的逻辑转移概率来建模。
语义通信与经典通信最重要的差异在于,语义编码与译码模块基于海量数据训练的知识库,通过深度学习网络,提取与重建语义信息,该过程对经典信号传输提供强先验知识,有效提升传输有效性和可靠性。在发送端,语义提取模块基于知识库和深度学习网络,对信源消息提取语义特征。其中,语义提取模块根据信源冗余特性,采用不同结构的深度学习网络模型。例如,时序以及文本信源采用循环神经网络(RNN)网络模型、图像信源采用卷积神经网络(CNN)模型、图数据源采用图卷积网络(GCN)模型。在接收端,语义综合模块基于知识库和深度学习网络,对接收的语义信息进行重建。若信源具有多模态或异构性,则语义提取编码时还需要对多源数据进行语义综合。收发两端共享云端知识库,通过数据驱动的方法赋予神经网络特定场景下的先验知识。
定义知识库K,设信源消息集合为X,语义信息集合为S,语义消息码序列构成的集合为U,信宿接收码序列集合为V,重建语义信息集合为S′,信宿译码消息集合为Y。
当H(S) 与香农信道容量类似,语义信道容量定义为可以实现任意小语义误差的最大传输速率: 其中,I(S;S′)为S与S′之间的互信息,H(Y)为接收端语法信息Y的熵。 基于语义信道容量或语义率失真函数的通信系统优化,为6G移动通信高谱效、高可靠通信提供了新的技术思路。但是,如前所述,现有语义信息论研究在语义信息度量与优化指标方面还没有明确结论。因此,语义信息熵、语义信道容量、语义率失真函数建模与评估还是开放问题,需要进一步深入研究。 在语义通信系统结构的基本框架下,本文针对典型文本和图像信源,采用不同的语义编解码器,根据语义评价指标,设计对应的语义通信系统结构。 对于文本信源,传输的目的是传递文本表达的内容及含义,而文本的组织方式,如助词、连接词、标点符号的使用是实现通畅且符合语法规则表达文本内容的手段。因此文本信源除具有统计冗余外,还含有额外的语义冗余。文本信源可采用双向长短期记忆(BiLSTM)神经网络模型进行语义提取与关联建模[17,21],如图2所示: 图2 基于BiLSTM网络的文本语义编码传输示意 文本语义编码传输的评估指标包括: (1)误词率(WER)。误词率可以用归一化Levenshtein距离(编辑距离)评估。 (2)双语评估替换分数(BLEU, Bilingual Evaluation Understudy)可评估任意两段文本之间的差异性。连续n个单词(n-gram)准确率越高,恢复语义越准确。BLEU为n-gram准确率的加权得分,定义如下: 其中Pn为n-gram的准确率,wn为权重系数。 图3给出了在占用相同带宽条件下,传统编码与文本语义编码在AWGN信道下的传输性能对比,其中文本信源采用BiLSTM模型进行编码,信道编码采用LDPC码,码率R=0.75。子图(a)为WER性能,子图(b)为BLEU分数。如图3(a)所示,语义编码传输方案的误词率远低于传统信源信道编码方案,如Huffman编码,定长5 bit编码与RS编码。图3(b)给出了文本语义编码在不同句长条件下的平均BLEU分数和长句(30词)的重建分数。由图可知,与传统的Huffman+RS编码相比,语义编码传输的BLEU分数有大幅度提升,特别是在低信噪比条件下,能显著改善传输可靠性。 图3 传统编码与文本语义编码的性能对比 下面给出文本语义编码在AWGN信道中传输的一个样例: 原始文本:I hope that even more study courses will be set up which offer this as an integral part of the course. 5bit编码+RS编码重建文本:i t!pe dhat evmn moqe qtudy aourses will ba gt up which offer dfis as an integzal part of xgm cpurse. 语义编码重建文本:I hope that even more study reading can be applied, which already this as an integral part of the course. 对比原始文本与5 bit编码+RS编码重建文本、语义编码重建文本可知,由于传统编码存在差错,因此重建文本存在语义错误。而语义编码能够很好地对抗信道传输差错,其重建文本与原始文本的含义一致。 图4 图像语义编码传输框架 将语义提取与编码网络、语义分析与综合网络级联信道编译码模块在无线信道中进行联合训练,采用随机梯度下降算法迭代更新网络的参数,网络的损失函数L建模为: 其中α和β用于权衡两种失真。 模型的训练集采集自真实工业场景的监控摄像头,分辨率为256×256,训练500 000次迭代后使用1 080p分辨率进行微调。训练过程固定学习率为0.000 2,当loss稳定时对学习率进行一次0.1倍的衰减。在帧内编码模式(全I帧)下与H.264经典编码方案进行比较,信道编码为LDPC码。由于经典的逐像素比较指标如峰值信噪比(PSNR)、多尺度结构相似度(MS-SSIM)[22]往往与用户的真实感知相去甚远,本文采用基于深度学习的图像相似度指标LPIPS[23]用于评估图像的感知相似度,仿真参数配置如表1所示: 表1 仿真参数配置 由表可知,H.264编码级联LDPC信道码方案虽然在PSNR评价指标上占据优势,但在用户感知相似度(LPIPS)接近的情况下,语义编码方案的编码速率仅有H.264编码方案的1/5,因此前者相比后者,能大幅度降低传输带宽开销,从而显著提升了频谱效率。 图5给出了AWGN信道下两种编码方案的重建样本对比。可以看出H.264+LDPC重建图像(子图(c))产生了差错传播现象,而语义编码传输方案(子图(b))对信道差错更鲁棒,且重建质量与在主观感受上没有差距。 图5 H.264编码与图像语义编码对比示例 本文简述了语义信息论以及语义编码通信技术的基本原理。语义编码通过对信源语义信息的深度挖掘与充分利用,有望突破经典信息论的约束,为6G移动通信的高频谱效率与高可靠传输提供新型解决思路。 目前,语义通信技术仍然在快速发展中,语义信息论有众多基本概念与基础问题亟待讨论与完善,针对多种信源媒体特征的语义编译码方案层出不穷,但编码方案的优化设计与适用场景还需要深入探讨。总而言之,面向6G的语义通信技术,是一个新的研究领域,存在大量的理论与应用问题,需要学术界同仁共同推动完成。3 语义通信初步结果
3.1 文本信源的语义编码传输
3.2 图像信源的语义编码传输
4 结束语