可扩展分层次编译码的语义通信系统
2023-09-19张聿远赵海涛魏急波曹阔张亦弛罗鹏刘月玲梅锴
张聿远,赵海涛,魏急波,曹阔,张亦弛,罗鹏,刘月玲,梅锴
(国防科技大学电子科学学院,湖南 长沙 410073)
0 引言
Weaver[1]于1953 年在香农信息论[2]的基础上,对通信的定义进行了重要补充,提出了包含语义通信在内的通信3 个层次的概念。1) 语法层次,围绕如何准确地传输通信符号的问题展开,即经典香农信息论框架;2) 语义层次,围绕如何使传输符号精确地传达信息含义展开;3) 语用层次,围绕如何利用接收到的信息含义以其期望的方式有效影响行为而展开。语义通信从信息含义[3]的角度出发,将长期通信过程中积累的用户个性化信息(如用户需求、情感和用语习惯等个性化特征)作为共享知识进行存储,并在通信交互过程中不断动态更新知识库以便更加准确地刻画用户特点,实现面向对象的个性化智能物联通信服务,是未来智能体之间一种必然的通信方式[4]。
徐文伟等[5]在其提出的后香农时代十大挑战问题中,将建立语义信息论作为当前信息通信行业亟须解决的首要问题。张平院士[6]在展望未来6G 移动通信技术时指出,6G 将拓展传统的香农信息理论,构建完备的语义信息度量、压缩和传输的理论体系。张亦弛等[7]提出了一个面向智能体的语义通信架构。为促进语义通信的实用化发展,国内外学者针对图像和语音信号展开研究,尝试搭建语义通信平台进行实验验证。刘传宏等[8]以图像分类任务为例,设计并构建了面向智能任务的语义通信平台。Weng 等[9]针对所提语音传输语义通信系统架构DeepSC-ST,开发了用于概念验证的软件演示平台。为迎接未来更加智能化的、万物互联[10]的无线通信时代,实现信息通信行业的深层发展,迫切需要在语义通信领域实现理论与技术突破。
利用人工智能技术赋能,语义通信有望解决传统通信模式难以满足智能化通信需求的问题[8],在工业互联网、远程医疗和智慧城市等传输数据量大而通信资源紧缺的通信场景中有巨大潜力[11]。自然语言处理(NLP,natural language processing)技术作为人工智能领域的重要组成部分,在语义特征提取和语义处理方面取得了长足的发展,尤其以ChatGPT(chat generative pre-trained transformer)为代表的生成式预训练语言模型[12],在理解和学习人类语言的基础上可以做到与真正人类几乎无差异的聊天交流,展现出未来智能语义通信的巨大潜力。在此背景下,语义通信逐渐成为一大研究热点,涌现出很多激动人心的研究成果[13-30],但大部分研究成果主要依靠理论分析和仿真进行验证,缺乏一个通用可扩展的、经过真实信道的语义通信验证系统来推动语义通信的进一步发展和实用化。
为了构建一个通用的语义通信验证系统,并兼顾语义通信系统的通用性和可扩展性,本文设计了一个可进行实验验证的传输系统。本文综合考虑了上下文知识与传输符号对通信性能的影响,设计了一种能够有效兼容语法层次通信技术并且可进行实验验证的语义通信系统。通过联合语法层和语义层进行分层次编译码,所提语义通信系统能够面向具体通信场景进行扩展,鲁棒性和适应性得到提升。
1 相关研究现状
随着语义通信得到广泛关注和重视,国内外学者分别针对文本、语音和图像等信源展开了研究。不同类型信源的语义特征各不相同,因而需要构建与之相匹配的语义编码方式,并在接收端将其语义准确恢复或者完成某项智能任务,成为当前语义通信系统相关研究的主要内容。
1.1 针对文本信源的语义通信系统
文本信源在形式上相对简单,不具备类似于由音色相似性或图像模式重复性带来的特征稀疏性。另一方面,文本包含的单词词性、上下文知识、语法句法结构和文本情感等深层知识却非常丰富,这些因素导致文本信源的语义特征的提取和恢复难度更大。深度学习(DL,deep learning)模型作为一项数据驱动的新兴人工智能技术,其强大的知识学习能力和非线性特征映射能力恰好与语义通信结合上下文知识处理信息含义的需求不谋而合,因而成为大多数学者构建语义通信系统的重要工具。其次,NLP 模型对文本主题、句法和情感等背景知识具有高效的特征提取与处理能力,是语义特征提取和语义信息处理的重要工具。Zhang 等[13]提出了一种基于词义的语义编码策略和上下文语义关联的译码策略,采用深度学习模型来获取作为背景知识的上下文特征,并将该特征作为输入以求解联合概率模型,该策略下的语义编码、上下文特征学习和概率模型求解过程相对独立,实现了模块化语义通信系统方案的构建。Yao 等[14]采用端到端神经网络进行文本语义传输,提出了一种迭代语义编译码设计方案,以应对信道的时变特性。该方案中的语义编译码模块采用了Bi-LSTM 和Transformer 这2 种神经网络架构,通过语义译码器和信道译码器之间的相互迭代来修正信道引发的语义歧义。Xie 等[15]采用Transformer 架构将文本映射到语义空间,将部署在收发两端的编码器和译码器进行联合优化,通过最小化语义错误来恢复语句含义。在此基础上,针对物联网设备算力有限和模型参数传输带宽受限的问题,Xie 等[16]提出了一种轻量化的分布式语义通信系统L-DeepSC,通过权值裁剪和量化手段有效缩减网络尺寸和参数,使其能够在参数减少的情况下保持稳定的语义相似度。文献[17]在一对多广播通信场景中引入用户情感需求,并采用情感识别模型完成对多用户文本信息的区分。
1.2 针对语音信源的语义通信系统
相较于形式简单而内涵丰富的文本信息,语音信号包含说话人音色、谐波结构和持续时间等大量声纹特征,在语音恢复时需要完整地将语音信源的时域细节特征进行还原。其次,语音信源也可以从频域维度来挖掘和重构语音语义。针对语音信源的语义传输,Weng 等[18]采用基于通道注意力的SE-ResNet 模块设计了一种语义编译码系统,命名为DeepSC-S。该系统基于端到端的神经网络架构设计,通过注意力机制来学习和获取语音信号传输所需的关键语义信息,并为其分配高权值以保证关键语义的准确恢复。文献[9]将语音合成技术引入语音语义通信系统,将语音信号的语义特征通过由总卷积神经网络(CNN)、门控循环单元(GRU)和Dense 等网络层构成的编译码网络转化成文本(即语音识别),再利用Tacotron2 模型将文本信息重构成语音样本序列(即语音合成),从而实现语音信号的传输,并达到了传输符号数与语义通信系统性能的良好折中。Han 等[19]提出了一种高度语义聚焦的语音传输通信系统,利用基于注意力机制的软对齐模块和去冗余模块,使网络只传输与语义相关的信源信息,以实现高效的语音传输。与文献[9]类似,该系统也采用语音识别得到的解译文本来辅助语音合成,并构建语义校正器对文本进行语义和语法纠错,实现了基于背景知识的语音信源消歧。
1.3 针对图像信源的语义通信系统
相较于全连接神经网络,基于卷积核的局部连接和权值共享机制在处理图像信息上具有明显优势,这主要是因为图像信息具有局部相关性和模式重复性。在以卷积神经网络为代表的深度学习助力下,计算机视觉技术取得了长足的发展,相关模型已在图像识别、视觉问答和目标检测等多个子领域得到广泛应用,同时也是图像语义特征提取、处理和传输的重要工具。文献[20]设计了一种端到端一体化、多层语义感知的无线图像传输系统MLSC,该系统将图像整体的语义信息和局部的空间细节语义信息分别提取后进行拼接融合,通过多层级图像语义信息的整合以更好地对抗信道干扰。Hu 等[21]分析了图像语义噪声的产生机理,采用以 Vision Transformer 为基础的自编码器架构和对抗训练方式,从而降低了语义噪声。Xie 等[22]针对视觉问答(VQA,visual question answering)智能任务,设计了一种可处理图像和文本多模态信息的语义通信系统DeepSC-VQA。进一步,Xie 等[23]将图像检索(IR,image retrieval)任务、机器翻译(MT,machine translation)任务和VQA 相结合,提出一种面向任务的多用户语义通信系统MU-DeepSC。然而,上述基于端到端一体化联合设计的语义通信系统严重依赖于收发端共享的背景知识,在实际传输过程中可能存在数据分布动态变化和接收端任务未知的问题。针对此问题,Zhang 等[24]分别定义了数据恢复和任务执行2 个损失函数,并采用生成对抗网络学习动态更新后的数据分布,使模型能够更好地适应变化的任务和数据环境。
2 分层次语义通信系统设计
2.1 可扩展分层次编译码
为了能与现有通信技术进行嵌套与结合,本文采用分层次编译码的方式来搭建语义通信系统。通过语义和语法层次相分离的方式实现语义通信与传统通信的结合,并进一步通过搭建通用可扩展的验证系统来实现语义通信的实用化。如图1 所示,所提分层次编译码的语义通信系统架构并未改变传统通信的结构和编译码方式,只是增加了基于共享知识库的语义编码和语义译码模块,语法层次则由传统通信的信源编码、信道编码和调制等模块实现,从而实现了2 个层次编译码的分离。
图1 分层次编译码语义通信系统基本架构
分层次编译码语义通信系统利用其语义层次和语法层次的分离性,能够实现面向语义和语法层次的扩展,本文基于该基本架构搭建的可扩展分层次语义通信系统如图2 所示。该系统在语义层次从单词词性的角度出发,利用不同词性单词之间的语义距离较大的特点对单词进行组合编码,通过面向文本主题、情感等角度对词组进一步分类,或者引入句法结构和知识图谱来扩展词汇的组合模式,增加语义知识的丰富度,可实现语义层次的算法扩展。在语法层次,因词性编码是从词汇本身语义距离的角度对单词层级的文本进行分组,并不影响语法层次单词到比特数据的转换,故语法层各模块能够有效兼容香农信息框架下的无差错比特传输技术,该系统的信源编码、调制解调模块可嵌套已有成熟的编码、调制方式,并且可进一步增加信道编译码模块以提升比特数据的传输可靠性,从而实现面向语法层次的模块扩展。
图2 可扩展分层次语义通信系统
语义层次编译码通过对共享知识的挖掘,在传统通信基础上实现传输性能的进一步提升。如图1所示,在比特级无差错传输的语法层次部分,是符合传统的经典信息论且存在香农极限的;在语义层次部分,现有学者尝试利用语义信息来突破香农极限,比如通过挖掘传输信息本身蕴含的上下文知识作为共享知识来提升通信可靠性。这些知识本身并没有作为额外的数据在信道中传输,而是通过共享知识库的形式进行存储,并作为辅助信息在语义层级的编译码中发挥作用。因此,挖掘并利用这一额外的上下文知识进行语义译码和纠错,能够在经典通信的基础上进一步提升通信可靠性,从而使语义通信系统存在“突破”香农极限的可能,但在语法层次的经典通信过程中,信息的传输依旧是符合香农信息论且存在香农极限的。
2.2 语义编码方法
考虑到不同词性单词之间的语义距离较大,若将不同词性的单词分配给同一码字,接收端能够利用深度学习技术轻松地区分这些单词。因此,本文系统在发送端利用单词的词性差异构建编码表,实现信息的压缩,并减小同一码字单词出现在相同语境下的概率,便于接收端依据共享知识能更好地筛选出正确单词。
第一步,利用单词词性对单词进行分类和编码。综合考虑有效性和计算复杂度,本文所提系统考虑了名词类n、动词类v、形容词类a和其他类o共4 类词汇,对Brown 语料库中的MB个词汇标注其单词类型。需要说明的是:该方法不局限于分类类型数目只为4,若想进一步提升压缩率,可将其他类划分成副词、代词等类型,或从文本主题和情感等角度继续分类,但类型数目增大会增加译码的复杂度。第二步,将4 类词汇依据其在语料库中出现的频率进行降序排序。第三步,将排列好的词汇序列按类合并成NB(NB≤MB)个叶子节点。每个叶子节点包含每个类别中排序相同的4 个不同词性的单词,即取每类词汇中均处于第i个频次的单词,组成第i个叶子节点,并取每个叶子节点所含4 个单词的频次之和作为其权重,如表1 所示。第四步,从频率最低的叶子节点向高频率节点依次构建二叉树。具体而言,先取权重最低的两节点合并成新节点,并给这两节点按权重高低分别分配标签1 和0,新节点权重为两节点权重之和。第五步,重复叶子节点的合并过程直至NB个节点全部分配完毕,形成基于词性的二叉树码表。
表1 叶子节点权重示例
第一步到第三步实现了词性编码,利用不同词性单词之间语义距离较大的特点对单词进行了组合编码,使单词组合成叶子节点(例如,boy→{boy、be、own、and})。第四步和第五步实现了语法层次的Huffman 编码,以叶子节点为单位,按其频次高低生成二叉树码表,为每个叶子节点分配对应的0/1比特码字(例如,{boy、be、own、and}→010011)。
2.3 语义译码方法
在接收端,语义译码模块先利用神经网络模型学习共享知识,再将模型输出作为先验共现概率,用于后续动态规划求解全局最优序列。然后,从不同词性单词组成的叶子节点中筛选出正确单词,实现基于共享知识的语义译码。对于长度为n的语句L=(w1,w2,…,wn),n∈N+,其中,wi(i∈[1,n])对应的是4 类单词。语义译码的过程可表示为利用共享知识,在所有单词序列 (w1,w2,…,wn)排列组合成的候选语句集合S中进行筛选,挑选出联合概率Pe(L) 最大的序列作为最佳译码结果L*,即
其中,L*为筛选得到的最优序列,Pe(L) 为序列L中单词w1,w2,…,wn出现的联合概率,也可简称为共现概率。具体而言,该译码算法主要包括共享知识学习、语义译码建模和动态规划求解三步。
考虑到句子中的每个单词都不是相互独立存在的,组成词组的相邻词汇之间往往具有一定的语义关系,这种上下文相互依赖的语义关系能够帮助接收端合理地推测出正确单词,从而实现语义准确恢复。数据驱动的神经网络模型可以通过网络训练,学习语料库上下文的语义依赖关系,即依据相邻词汇计算得到中心词为某一单词的共现概率Pc,从而判断出哪些单词出现在同一语境的概率最大。接收端通过加载预训练的模型权值和结构信息,可将发送端学习到的上下文知识共享至接收端,不需要重复训练。本文系统所采用的神经网络模型由连续词袋模型构成,结构如图3 所示。其中,H表示隐藏层神经元的个数,本文系统选取H=300,MB表示词汇表的大小,N(N<<n)表示上下文窗口大小。考虑输入大小为N-1的上下文窗口的连续词袋模型,则神经网络的输入为N-1个上文单词的独热编码向量,输出为中心词的独热编码向量,取输出层独热编码前处于(0,1)区间的概率作为共现概率Pc。
图3 神经网络模型结构
对序列L所有的排列组合S进行筛选时,由于可选的译码组合状态过多(共有4n种组合结果),遍历所有候选序列难以快速获取全局最优解。因此,本文采用N-gram 语言模型对联合概率Pe(L) 的求解过程进行建模,该模型假设中心词仅与之前N-1个单词相关,那么在计算最后一个单词的条件概率时,则不需要考虑在之前所有单词条件下的概率,而只需计算前N-1个单词条件下的概率。则最优序列L*的判别规则与神经网络输出的条件概率Pc的关系可以表示为
语义译码建模简化了问题式(1)的求解规模,将上下文窗口的影响范围限制在上文有限个词汇之内,并且每个单词的决策依赖于之前N-1个单词的状态,同时也影响其后有限个状态的决策(之后N-1个单词)。综上,可采用动态规划算法将该问题转化成前后关联的具有链状结构的多阶段决策过程,将式(2)的目标函数分解成若干子问题,通过若干子问题的联合求解得到目标函数的解。具体而言,先通过遍历求解序列L中前N-1个单词的最优组合,再逐步扩展子问题的规模,即考虑前N个词汇的最优组合,并依次对其后n-N个词汇逐个进行决策,不断进行状态转移直至得到序列第n个单词的最优决策。记序列前N-1个词汇的最优组合为则第一个子问题的求解过程可表示为
2.4 复杂度分析
由于语义编译码模块中的二叉树码表在生成后就固定不再变化,且语义编码并未改变语料库单词数量。因此,二叉树码表的大小与传统Huffman编码码表一致,在将叶子节点进行编译码的过程中,相较于传统通信系统并未增加系统复杂度。
针对接收端语义译码模块的计算复杂度,定义N为上下文的窗口大小,j为动态规划子问题的序列长度。对于动态规划算法,每个码字可能对应P=4类词性单词中的某一个单词,则动态规划算法的空间复杂度可表示为
当对初始子问题进行求解,即首先对句子前N(即j=N)个单词进行解译时,所提算法的时间复杂度恰好为N个位置的P类单词的排列组合PN。进一步,当动态规划的子问题的规模由N+1逐渐增加至n时,其时间复杂度为O(n-N)P2N。将初始和后续子问题求解过程的时间复杂度叠加,即可得到总的时间复杂度为
综上,相较于传统通信系统,所提语义通信系统在语义编码部分没有增加计算复杂度,在语义译码模块中增加了一定的计算复杂度,但当给定上下文窗口大小N时,时间复杂度不会随着句子序列长度的增加而指数增长。因此,所提语义通信系统的总复杂度是可控的。
3 验证系统设计与实现
3.1 体系架构
本文所提分层次编译码语义通信系统的验证系统包括4 个部分,分别为硬件系统、软件平台、编译码算法、评价体系,其体系结构如图4 所示。第一部分是硬件系统,该部分由USRP X310、数模转换、可调衰减器、模数转换、主机等模块组成,语义编译码和数据处理在主机中进行,以达到信道环境可控和软硬件数据接口相匹配的目的。第二部分是语义通信软件平台,该平台集成了传输文本选择、数据类型转换、硬件模块驱动和错译文本对照的功能,并将语义编译码模块和评价指标融入其中,使该平台在实现数据处理和传输的同时,还能直观地显示算法性能和当前的系统通信状态。第三部分是编译码方法,本文系统在发送端采用词性编码以提高通信系统有效性,在接收端基于共享知识选择共现概率最大的候选文本序列作为解译序列。第四部分是语义评价指标,采用评价信息压缩能力的动态文本编码比特数目、BLEU 分数[31]、METEOR分数[32]和BERT 相似度[33]指标,以充分验证系统的有效性和可靠性。词性编码和基于共享知识的译码方法作为所提语义通信系统的核心,依赖于硬件系统进行数据转换和波形传输;语义通信软件平台作为硬件驱动和算法调用的关键接口,集成了从信号产生、发送到接收端采集、译码、评估的全过程。
图4 语义通信验证系统的体系结构
3.2 系统硬件结构搭建
所提语义通信实验系统的硬件组成包括USRP X310 模块、可调衰减器、PCIe-8371 扩展板和主控机,其线路连接如图5 所示。
图5 硬件系统实物
为兼容USRP X310 模块驱动和语义编译码所需的各类Python 工具包,所提验证系统将数据处理、射频收发和演示评估的功能集成于语义通信软件平台,在两台主控机上基于Labview 软件分别部署X310 模块收发驱动,并采用批处理文件的方式完成 Anaconda 环境下的 Python 代码调用。PCIe-8371 扩展板插在台式机主板内,用以实现台式机与USRP X310 设备之间的数据转换。
综上,语义通信系统的具体通信流程包括:1) 发送端主控机进行语义编码后产生用于USRP设备发送的二进制数据信号;2) 二进制数据信号经PCIe-8371 扩展板和数据线送入USRP X310 模块,产生射频信号;3) 射频信号经可调衰减器和噪声影响后进入接收端USRP 模块;4) 接收端USRP 模块将采集得到的信号样本送入接收端主控机进行语义译码、纠错和性能评估。
3.3 收发端集成应用软件设计
基于共享知识的语义通信软件平台包括发送端和接收端两部分,均采用Labview 软件进行界面设计和功能集成。图6 为语义通信软件平台发送端界面,可分为以下4 个部分。第一部分为可选择的发送文本,这些文本内容均取自NLTK 自然语言处理库中的Brown 语料库,并截取自不同的段落。第二部分为传统Huffman 编码与语义编码的总比特数,此处显示的是当发送文本为A 时,采用Huffman编码和语义编码所需的比特数分别为 1 474 和1 275。第三部分为整个语义系统的流程框架,阐述了从发送端文本选择到接收端性能评估的传输全流程。第四部分为文本发送状态显示按钮和发送文本A 的具体内容,用于显示USRP X310 模块是否已开始发送编码比特,以及发送的文本内容信息。在语义通信软件平台设计的过程中,为便于开发者调试,软件平台还增加了发送参数、USRP X310 硬件控制和代码调试等参数显示和硬件控制功能,使开发人员能够快速定位故障节点,修正错误模块或代码。
图6 语义通信软件平台发送端界面
图7 为语义通信软件平台接收端界面,该界面包括4 个部分。第一部分为经典通信Huffman 与基于上下文的语义通信的恢复文本和译码状态显示按钮,图中文本内容为虚线的部分表示与发送原文不符,译码完成后对应的译码状态按钮绿灯亮起。第二部分为2 种系统的信道条件对比,本文在相同传输环境下进行实验以保证对比实验的公平性。第三部分为2种通信系统在BLEU、METEOR和BERT相似度评价指标下的性能对比,实线表示所提语义通信系统的评价分数,虚线表示传统Huffman 通信的评价分数。第四部分为接收信号的其他相关数据图像,从左至右依次为快速傅里叶变换谱和信号星座图。语义图像软件平台集成了信号处理、硬件驱动、性能评价和模块调试的功能,具有良好的数据综合分析能力和模块可扩展性。
图7 语义通信软件平台接收端界面
4 实验结果与分析
为验证所提语义验证系统在实际通信过程中的有效性和可靠性,将所提语义通信系统和传统通信系统均采用相同的信源文本并在同一个信道中进行文本传输,两者的区别仅在于是否采用语义层级的编译码模块。
4.1 有效性分析
词性编码依据不同词性单词之间语义距离较大的特点,为4 类单词组成的叶子节点分配同一码字,待编码的符号数由语料库总单词数减少为叶子节点数目,因而词性编码表的平均码字长度小于Huffman编码表。将实验系统中的文本A~E(文本均节选自Brown 语料库)分别进行词性编码和Huffman 编码,实验文本编码后比特数对比如图8 所示。
图8 实验文本编码比特数对比
从图8 中可以看出,相较于Huffman 编码,不同文本在采用词性编码后的传输数据量均有所减少,5 个文本的压缩比特数为13.50%~14.83%,这表明采用语义编码可以实现传输信息的进一步压缩。数据压缩比与语料库不同词性单词的分布比例和具体节选文本段落等因素相关,各种词性分布越均匀,其语料库的压缩率越高。
会计故意性信息失真是指会计活动当事人(包括国有企事业、非公有制企业、上市公司、中介服务机构)出于各种目的,利用会计规范给会计活动当事人的灵活性,事先经过周密安排而从主观上故意有偏向性或诱导性的提供信息或者违背会计规范,制造假账,而造成的信息失真。[1]会计故意性信息失真分为二类:第一类如银广厦、琼民源的财务报告完全是无中生有、恶意编造,违背社会道德和法律;第二类是利用内外串通,共同操纵、利用信息不对称和财务技能的优势共同作弊。
4.2 可靠性分析
为综合对比分析语义通信与传统通信在单词和句子层级下的实际性能,分别采用统计相同单词数目的BLEU 分数、扩展至同义词的METEOR 分数和基于句子语义相似度的BERT 相似度分数,对2 种系统的译码性能进行对比分析。BLEU 分数[31]是通过计算两段文字中n元词组同时出现的占比来得到的,主要用于两段文字错误单词个数的比对。METEOR 分数[32]在BLEU 分数的基础上进一步考虑了同义词、单词的单复数等词形变化,在评价时更注重词汇的含义。BERT 相似度分数[33]是基于BERT 预训练模型,计算2 个词向量之间余弦相似度的一种语义相似度度量指标,相较于BLEU 分数和METEOR 分数更接近人类的直观判断评价。3 种评价指标均比较的是发送信息和恢复信息之间的语义相似度,能够从不同角度展现出通信系统的可靠性。当可调衰减器参数设置为60~67 dB 时,BLEU、METEOR 和BERT 相似度这3 种指标的变化情况如图9 所示,其中,文本L 和文本S 分别表示长语句和短语句文本。从图9 中可以看出,在BLEU、METEOR 和BERT 相似度这3 种评价指标下,语义译码的结果均明显优于Huffman 通信系统,特别是在信道衰减相对较差的66~67 dB 下,其性能优势尤其明显。这表明本文所提分层次编译码语义通信系统能有效提升通信的可靠性。在这3 类评价指标中,BLEU 分数相对较低,这是因为BLUE分数是对单词进行逐个比对的,METEOR 分数是在BLEU 基础上增加了同义词和词形等深层语义理解,而BERT 相似度计算的是2 个句子整体的语义相似度。其次,长语句文本L 采用语义编译码时的各项指标均优于短句子文本S,这是因为文本L 具有更多的长句,N-gram 语言模型在译码决策时可利用的上下文信息更多。然而,传统Huffman 编码未引入上下文知识进行文本解译,仅依照编译码表将比特信息逐个转换成解译单词,这导致Huffman 译码得到的2 个文本的性能指标相差不大。
图9 3 种指标随信道衰减的实验结果
表2 给出了信道衰减器参数为64 dB 时所提语义通信系统和传统通信Huffman 系统译码后的恢复文本。其中,加粗斜体的单词表示译码错误,Amask表示不在词性译码表或语法层级的信源编译码表中,并且没有实际含义,用于信息传输错误导致没有对应译码单词时填补空白位置。从表2 中可以看出,语义译码文本中存在with、round、to 这3 个单词译码错误,相较于Huffman 译码方法的12 个错误单词减少了的错误,其主要原因是所提语义通信系统在共享知识的辅助下恢复文本,能够在信道较差的情况下纠正部分译码错误,在语义层级上进一步提升传输可靠性。
表2 2 种通信方式的译码文本对比
5 结束语
针对现有语义通信研究大多处于仿真阶段的现状,本文从语义层和语法层相对分离的角度,设计了一种分层次编译码的语义通信系统,并基于USRP X310 搭建了一个能够兼容香农信息框架的、可面向语义和语法层次进行扩展的语义通信验证系统。该系统以语义通信软件平台为调控核心,实现了基于词性的语义编码、基于上下文辅助的语义译码算法、传统通信底层传输框架和语义评价指标的集成与应用。在该系统的支撑下,语义通信系统能够继续面向文本主题、上下文知识等角度挖掘深层语义知识,也可以直接嵌套现有的成熟可靠通信技术,具有良好的可扩展性。通过文本传输实验测试,所提语义通信验证系统能有效改善通信系统的有效性和可靠性。然而,本文所提语义通信系统目前只运用了上下文知识、词性标注2 种语义处理方式,在下一步研究中可考虑将情感、主题、句法等语义处理手段移植到该验证系统中。此外,本文基于分层结构的语义编码方法并未考虑信道特征的影响,在后续的研究过程中,将语义和信道特征综合考虑并进行统一的编译码设计,也是未来值得研究的方向之一。