基于信息论的语义通信：理论与挑战

2023-05-13 08:44施雨轩SHIYuxuan吴泳澎WUYongpeng张文军ZHANGWenjun

中兴通讯技术 2023年2期

施雨轩/SHI Yuxuan，吴泳澎/WU Yongpeng，张文军/ZHANG Wenjun

（上海交通大学，中国上海200240 ）

2019 年底，5G 移动通信网络的正式商用为人、机、物的互联开创了崭新的通信范式。人们对下一代移动通信网络的愿景，不仅体现在通信、感知、计算泛在融合的硬性需求中，还体现在人、机、物、灵（genie）互相联结的超大规模架构中[1]。“万物智联”的通信范式将通信领域的边界从物理世界拓宽到数字世界，实现高效、智能与大规模的传输网络。与此同时，新一代通信网络也给现有的网络运营与设备铺设带来极大挑战。据国际电信联盟（ITU）预测：全球移动数据流量的年增长速率将会在2030 年达到55%，数据总量将会提升至现在的100 倍，远超5G 的体量。此外，人们多维度、多途径的通信需求会带来数据模态的多样化（语音、图像、视频）、任务需求的多样化、智能业务的多样化，这些都会成为现有架构的难点。为了解决这些难点，人们将关注点从“如何精确恢复传输的符号”转移到“如何精确恢复传输的语义”[2]。语义层传输即语义通信，是一种关注传输符号中蕴含信息的通信范式。这种通信范式能利用语义关联性去除冗余数据，并且在接收端通过背景知识库来恢复语义，以执行特定任务。需传输的抽象语义概念的数据量通常远小于精确的特征数据量，因此基于该范式的通信可以极大地提升传输效率。

采用SPSS 17.0软件处理数据,采用卡方检验和t检验对两组患者的数据进行比较,P<0.05为差异具有统计学意义。

语义通信的首次提出可以追溯到C. E. SHANNON 与W.WEAVER 的开创性的著作《The Mathematical Theory of Communication》中[2]。逻辑概率在经典信息论中对统计概率的替换，是信息论先贤们对语义信息度量的理解[3]。语义熵、语义信道容量[4]、语义反馈[5]以及背景知识[6]等相关概念相继引入，极大地推动了语义传输的理论研究。然而这些工作主要基于逻辑概率的测度，难以拓展到文本以外的应用场景。近年来，深度学习及其应用（如自然语言处理、语音识别和计算机视觉）的最新进展为多模态语义通信的实现提供了可能，同时信源信道联合编码（JSCC）[7]被认为是一种语义通信的可达方案，用于捕获和传输语义特征。基于以上方法，一系列为多模态数据[8-10]传输而开发的语义通信框架引起业界广泛的关注。上述的语义通信方案在已有的架构上取得不错的表现，但由于缺乏语义表示的通用数学模型，语义通信的理论建模与从信息论视角的解读仍然是一个开放性问题。

白银文化的产生应归结于明代白银货币化的进程。根据成玉玲[6]的研究，明代白银货币化经历了大明宝钞的衰落和白银货币合法化两过程。具体如下：

基于以上讨论，本文从理论模型与可实现框架的综合视角来解读语义通信，并提出一个通用的语义通信理论模型。通过将语义通信过程建模为一个考虑间接信源的JSCC问题，我们可以利用经典信息论工具来分析该模型的性能极限，并作为现实编码方案/神经网络的设计依据。在该模型中，间接信源被视为不可观测的语义信息，直接信源则被视为可被捕获的外部信息，联合信源信道编码方案用于描述间接信源编码与语义感知的信道编码的结合。在给定有限/无限块长的设定上，基于模型对错误概率、率失真函数、编码方案进行分析，对现实语义通信框架的设计有着指导意义。

1 语义通信研究进展

现阶段语义通信的工作大致分为两部分：语义信息的理论工作，如度量定义、数学建模等；基于机器学习方法的语义提取与通信框架的相关工作。本节中，围绕这两个方面，我们重点介绍语义信息与语义通信的发展历史与研究进展。

1.1 无线网络面临的挑战与语义通信的发展动机

1949 年，C. E. SHANNON 与W. WEAVER 在《The Mathematical Theory of Communication》中正式提出了“语义层面的信息传输”的相关概念[2]。其中，W. WEAVER 将通信分为3个层级的问题：技术、语义与效率。作为旨在有噪信道上追求精确比特传输的范式，技术层级的通信已服务于面向内容交付的无线网络长达半个世纪之久。其明确的性能极限早已由香农理论给出，并被现有技术不断逼近。然而人们的通信需求却似乎永无极限：5G、6G 的不断迭代、通信需求的爆炸式增长、下游任务的多样化与智能化，都是现有无线网络亟需解决的难题。作为能够解决以上问题的未来基础通信范式之一，语义通信是一种不再关注精准比特恢复而是面向任务交付的新型范式。如图1所示，针对图像识别/分类任务，图中的孩童与摩托车被抽象为依赖于下游任务的语义概念，随后编码器对语义进行编码并通过信道进行传输。在接收端通过背景知识库恢复出来的并非是原有的精确像素。但利用恢复得到的语义依然可以轻松地完成图像识别或分类任务。需要注意的是，语义通信在很大程度上依赖于译码端的背景知识，因此可能会出现无碍于任务执行的比特层面的误差，例如收发两端摩托车的样式等。由于抽象出语义信息的数量级远小于传统通信，因此语义通信可以极大地提升通信效率。

1.2 语义信息的度量定义与数学建模

对语义信息进行刻画是语义通信中不可或缺的环节。不同语义信息的度量与定义，会对数据的语义提取、编码方案以及下游任务的执行等，产生重要的影响。

1.2.1 语义信息刻画及度量

1.理念创新——我国主流政治文化网上引导能力提升的先导。理念是行为的先导，先进的传播理念则是提升传播效果的观念因素和先导条件。适应中国转型深化期的特殊国情和互联网在我国迅速发展普及的实际，我国主流政治文化的传播必须进一步增强传播中的政治观念、群众观念和时代观念，树立以受众为中心，主动引导、开放包容的网络传播新理念。

3）U不可用，V可用，我们引入不同于码字W的辅助随机变量，可以得到：

称取预处理红枸杞粉2g(精确到0.0001)，在一定的料液比、超声时间、提取温度下进行超声提取，提取完毕，过滤，用乙醇溶液醇沉过夜(乙醇含量80%以上)、弃去上清液，蒸干后溶解定容、稀释后按照1.3.2.1所示方法测定吸光度，计算多糖含量。

其中，条件熵H(W|X)为码字中包含的语义不确定性，例如码字“苹果”蕴含了“水果”与“品牌”两种意思；为接收到码字基于逻辑概率的平均信息量。这篇启发性的文章促进了更多相关理论的产生。2020年，基于Rényi熵，M.KOUNTOURIS和N. PAPPAS[11]提出了通信系统中语义感知的信息度量方式；2021 年，A. CHATTOPADHYAY[12]等为了量化语义任务的复杂度，提出了用特定任务中最少需要回答的问题数量而非最少比特数（即熵）来刻画复杂度。

▲图1 针对图像识别任务的语义通信

1.2.2 语义信息的理论建模

随着语义信息理论的发展，人们开始基于经典的香农信息论来研究语义建模。2021年，LIU J. K.等[13]基于经典的间接信源编码模型来刻画语义感知的率失真函数。其中，语义信息被建模为间接信源，表征信息被建模为直接信源。与传统信源编码不同，该模型同时对语义信源与表征信息的重建有失真度的要求。2022 年，ZHANG P.[1]提出用“语义基”（Seb）的概念作为语义信息的表征框架，这样能够更好地描述发送数据的应用意图与不同模态；在文献[14]中，NIU K.等从联合典型的角度考虑了经典编码方案与语义编码方案的异同。与经典编码中信源序列S与码字序列X映射的唯一性不同，语义编码中不同的信源序列有概率映射到同一个码字上。这是由于针对特定任务，不同的信源序列可能拥有相近的“语义”，即在语义空间毗邻。图2[14]很好地解释了语义编码能够拥有更小码本空间的原因。由于背景知识库的存在，即使带有歧义的映射也能完成特定任务的无损传输，这也是语义通信的优势所在。文献[15]将语义信息与神经网络的隐含层变量联系起来，根据信息瓶颈理论将语义损失刻画到神经网络的损失函数中，以提高图像的传输表现。其基本原理是基于变分自编码器（VAE）中的证据下界，构建辅助分布用于近似较难计算的语义分布。

▲图2 经典编码传输与语义编码传输的对比（从序列典型性角度）［14］

1.2.3 基于机器学习方法的语义提取与通信框架

在特定情形下（如S与X联合高斯分布且失真测度采用均方误差），基于该模型的速率失真函数可通过线性最小均方误差估计（LMMSE）的线性特性以及代理（surrogate）②在联合高斯情形下，对S的失真约束可以退化为对X的失真约束。失真测度获得。

1）多模态数据的语义提取

文献[10]中，LIU J. K.提出刻画语义信息的信源编码模型。如图3所示[13]，信源的语义特征被刻画为不可见的信源S，S 服从分布PS且至信源可观测外部特征X 的转移概率为PX|S。与传统间接信源编码仅要求恢复不可见信源̂有所不同，译码端要求同时恢复语义重建与比特重建，失真测度函数分别对应要求的失真度约束。基于该模型，其速率-失真函数被表述为：

废旧农膜回收利用工作作为一项社会性公益事业，社会效益和生态效益显著，需要政府的扶持。农业环保部门应积极争取省市废旧农膜专项补助资金，同时区级配套资金，加大对废旧农膜回收利用企业的扶持力度，鼓励企业扩大回收规模，对现有设备进行技术改造升级，延长产业链，生产滴管、塑料筐、井盖等产品，增加产品附加值。政府层面与电力、交通等部门协商，落实电价优惠补贴政策，减免过路费等，减少加工运输成本，为回收加工企业注入终端动力。

阶级的联合必然发展为阶级民主。阶级间的联合与合作，为人民民主的实现提供了广泛的社会力量，保障了人民的政治地位和政治权利。统一战线不仅为人民民主提供了广泛的阶级基础和社会基础，而且为协商民主主体提供了多元社会力量。

语义信息能够对多模态数据语义进行处理，还可以与经典通信技术相结合。基于语义的混合自动重传请求（SRHARQ），在文献[9]中用于克服信道状态的动态变化，并获得了优于传统HARQ 的性能表现；DAI J. C.[10]等利用基于高斯噪声的非线性变换实现自适应语义通信框架，并可根据不同信道情况进行速率分配，以达到在无线信道中较好的传输效果。此外，应用于物联网（IoT）的云网络架构场景与后5G大规模连接场景中的相关框架也有优异的表现。

3）本地背景知识库设计

选择具有专业素养且口味互异的评价员20人,组成评价小组,对饮料的色泽、气味、口感进行评价。应用统计学的方法处理数据[9],所得感官评价方法如表1所示。

诊断多重共线性的方法常用的是方差膨胀因子（VIF）法，可根据方差膨胀因子（VIF）的大小进行判断。一般地，当0＜VIF＜10时可认为指标不存在多重共线性。借助SPSS，计算结果如表4：

在语义通信的场景中，一个优异的本地知识库是收发端进行语义提取和生成的重要因素。关于本地背景知识库的工作目前仍处于探索阶段。XIA L.[16]等从理论角度讨论了本地知识库匹配问题对语义通信中用户联合与带宽分配的影响。S. KADAM[17]等针对不同场景进行定制化的背景知识库的收集和获取，也就是说收发端仅在该案例下完成对知识库的利用。S. KADAM等在工作中考虑足球赛事解说的场景并构建语义知识库，显著提高传输效率。此外，聊天生成式预训练转换器（ChatGPT）[18]使用参数量巨大的模型和海量的优质原始数据，预训练出一个能够胜任各种场景、各种问题的语义交互知识库，使通用人工智能技术不再遥不可及。

业界的相关研究都验证了语义通信在6G 智能网络应用中的巨大潜力。因此，语义通信被视为实现“万物智联”愿景的重要助力。

2 语义通信理论建模

基于相关工作，我们不难发现，通用、完整的理论建模仍是语义通信领域的一大空白。为了对已有的语义通信框架提供适配的理论模型，本节中我们将着重讨论语义通信理论的数学建模。我们将点对点刻画语义信息的信源编码模型，拓展到JSCC模型，并给出特定场景的一些初步结论。

3.1 加强协会建设，完善中介服务。加强种苗行业协会建设，建立健全各级林木种苗协会或社会团体，充分发挥其在行业服务、行业自律、行业协调、行业代表等方面的职能。行业协会要以当地龙头企业为中心，通过签订合同等方式，规定各方权利和义务，吸纳小型种苗基地和个体育苗户成立本地区的种苗协会或种苗合作社，收集对本组织有用的技术、市场、法规、政策信息，为组织自身及其成员使用。

2.1 语义感知的信源编码模型

基于深度学习的语义提取模块，使得语义通信突破文本的桎梏，广泛活跃于语音、图片、视频等多模态的数据传输场景中。WENG Z. Z.等[8]提出了适用于动态信道的语音传输框架，其中利用自注意力机制的语义感知网络可以最小化语音传输中的语义错误；针对图片的传输， E.BOURTSOULATZE[7]等首次提出了基于深度学习的信源信道联合编码（D-JSCC）方案。该方案相当于在卷积自编码器中插入了一层不可训练的信道参数层，很快被证明对语义信息的提取有较好的帮助。例如，在JIANG P. W.等的工作[9]中，基于Transformer 的D-JSCC 模块被用于视频会议的语义传输，其任务需求是在恢复端恢复出表情保真的人脸信息。语义信息被理解为视频流帧间的残差信息，在译码端根据初始帧进行恢复。这种基于语义的视频处理方式能够较大地减少通信开销，并能确保下游任务一定的精确度。

▲图3 刻画语义信息的信源编码模型[13]

现代语义通信致力于建立完整、统一的数学表述。在此过程中，涌现大量语义感知的工程可实现框架[8-11]。接下来，我们分别从数据提取与通信设计两个角度对这些工作进行介绍。

2.2 语义感知的边信息编码模型

在实际应用场景中，上述的间接信源编码模型可以拓展为具有边信息的场景模型。

图4展示了具有边信息的语义信源编码模型。该模型在编码器与解码器端存在的背景知识库被建模为两个有限样本空间的随机变量U与V，即收发端在处理语义序列时利用两边的边信息进行编解码。考虑到背景知识的编码模型更贴近实际的语义通信模型，其速率-失真度函数RS(DS,DX)可通过求解拓展至长马尔科夫链的Wyner-Ziv问题来获得。基于该模型的退化情形如下：

▲图4 具有边信息的语义信源编码模型

1）U 与V 都可用且U=V，RS(DS,DX)退化至语义感知的条件率失真函数为

2）U与V都不可用，RS(DS,DX)退化至R(DS,DX)；

2）语义感知的通信设计

在前香农时代，人们更多关注的是基于自然语言的信息度量。1953 年，Y. BAR-HILLEL 和R. CARNAP[3]审视了W.WEAVER 的工作，发现了其中遗漏的语义问题，并基于逻辑概率的测度初步定义了语义信息。所谓逻辑概率，即事件为“真”的概率越大，则该事件的熵值就越小。直到2004年，针对这种概率测度，L. FLORIDI[6]发现了“Carnap-Bar-Hillel矛盾”，即基于逻辑概率定义的熵会导致任意事件与其补事件交集的混乱度变得无穷大。同时，他提出应该用“距离”这种非负的度量来衡量语义信息的信息量。此后，学者们更为关注语义信息的本质，而不再拘泥于自然语言层面的问题。2011 年J. BAO[4]在《Towards a Theory of Semantic Communication》一文中拓展语义相关的通信因素，阐明了语义噪声和语义信道的概念，并提出了一个语义通信框架来最小化语义错误。在此框架中，语义信道的容量刻画为：

公式（4）的失真度约束同语义感知的信源编码模型（公式（2））。对于具有边信息的任意信源模型，其率失真函数的闭式表达仍是一个开放问题。我们将该点对点的信源编码模型拓展至通信问题中，并提出一个泛用性较高的语义感知的JSCC模型。

2.3 语义感知的信源信道联合编码模型

在文献[19]中，我们引入了语义感知的JSCC模型，具体如图5。对可观测信源序列Xk进行JSCC 编码后，可以得到码字Yn，再经信道后得到码字Zn，之后译码为语义恢复Ŝ与观测恢复̂。其中，编码方案要求语义恢复与观测恢复的失真程度在给定阈值DS与DX范围内。与信源压缩模型不同的是，引入信道模型后，速率失真函数不再具备较高的参考价值。因此，我们定义错误事件与错误概率：

▲图5 语义感知的信源信道联合编码模型[19]

基于上述语义感知的JSCC 模型的错误概率的内外界能够反映语义与观测失真度约束对通信译码错误概率的影响，具有较高的研究价值。考虑到码字块长k →∞的渐进情况，错误概率内外界的具体推导由Csiszar 的单约束JSCC 发展为两约束JSCC：在长马尔科夫链的情形下，错误概率的逆定理即球填充外界（Sphere-packing Bound），可由最优列表译码得到；错误概率的正定理则可以通过构造考虑语义序列的高维随机箱（即随机编码）得到。值得一提的是，可达界可以通过删除较差码字得到更好的随机码本。该错误概率模型同样可以通过特定信源信道分布如信源联合高斯、信道瑞丽衰落、信道多输入多输出（MIMO）等得到更具体的表达式，并进行解析或数值求解。此外，除了错误概率，该模型可以推导错误指数（反应误码率下降的指数级速度），从收敛性角度指导损失函数的计算；推导可行速率区域，通过角点指导现实方案的设计等。

该JSCC 模型很大程度上适配了现有的语义通信工作模型，我们以现有的工程可实现框架为例：一方面，在文献[15]中，图片序列Xk蕴含语义特征Sk，经由JSCC编码后得到序列Yn，并经过信道传输接收得到加扰序列Zn，在译码端由恢复为图片像素̂，从而完成重建任务，再由恢复为语义特征进行分类任务，即为同时执行图像恢复与下游任务的语义通信框架②k指块长，即k张图片对应k个语义特征，且k张图片同时编码得到n长的码字。图片本身维度、语义特征序列的维度与块长没有关系。在现实语义通信场景中，我们通常需要X的维度大于Y的维度。。另一方面，将观测失真度约束取消即DX→∞，对应文献[9]中恢复视频信号的单任务语义通信框架；将语义失真度取消即DS→∞，对应以精准恢复比特为目标的传统通信框架；将JSCC 拆解为独立的两个编码器，，即采用分离信源信道编码（SSCC）的语义通信架构，见文献[12]。

可持续发展是全球出现能源危机以及全球环境问题时形成的一种可保障人们长久生存的主要理念。建筑业作为我国的支柱产业，消耗了大量的能源，因此，倡导绿色建筑，有利于节约资源，对人类的可持续发展具有重大意义。本文对绿色建筑的发展情况进行了分析与说明，并结合绿色建筑发展情况，对绿色建筑发展取得的成就及存在的问题进行了分析，提出了我国绿色建筑发展的基本应对策略，以便为后期绿色建筑发展提供借鉴。

3 挑战与问题

基于以上的介绍与讨论，本节将会从理论建模和实际应用两个角度，介绍语义通信在无线网络应用中的潜在挑战与开放性问题。

3.1 语义通信理论通用数学建模

现有语义信息的研究通常集中于测度定义与理论建模。本文中，我们介绍了一个具有研究价值的JSCC 模型，但其点对点的建模特性对现实场景的通信设计仍有影响，例如：在多用户场景、云/边缘场景、考虑边信息（即收发两端的语义知识库）场景中，语义通信的理论建模将会发生改变。因此，如何将语义通信在现实通用的场景中合理建模是一个挑战。首先，语义信息的具有隐藏信源的特性，因此在CEO问题（间接多用户信源编码模型中的率失真问题）、Wyner-Ziv 问题、多址接入（Multiple-Access Channel）、广播（Broadcast Channel）问题中引入间接信源是一种解决方案，但可达速率的边界、错误概率等的推导仍不清楚；其次，我们研究的是基于无限块长的编码模型，渐进等分性、联合典型工具对有限块长的性能损失研究是无法适用的。

3.2 语义传输与通信协议设计

大多数的语义通信框架集中于物理层的设计，语义与通信协议层结合的设计涉及较少。这是由于现有的下层协议设计大多是为了满足上层不同类型的需求，这会导致协议设计需要较高的泛用性。当语义通信执行特定下游任务时，现有的协议设计将会带来大量的物理层资源消耗。这会使得再好的物理层设计（如语义提取模块、信道CSI估计算法）都存在不必要的性能瓶颈。因此，语义觉知能力与现有通信协议的结合是一个亟待解决的问题。

3.3 跨模态语义融合传输架构设计

现有的语义传输更关注端到端的单一模态通信问题，例如：发送图片、接受图片、执行图片相关的下游任务。可以预见的是，在6G 的智能网络范畴内，跨模态的通信模式是一种必然，即发送端需要同时处理文本与视频或语音与图片等模态组合，随后在接收端执行多媒体的语义任务。对于这类需求，现有的框架大都无法满足，或是只能做到简单组合。因此对于宽泛的应用需求，如何满足跨模态的语义通信仍不明确。

3.4 本地背景知识库的设计与更新

对于语义通信的范式而言，本地知识库是完成低码率传输的一个重要保障。也就是说，语义通信的性能在很大程度上取决于收发两端的背景知识的重叠率与完备程度。除了背景设计之外，语句的含义或者知识库会随着时代的发展改变或迭代，因此需要周期性地更新以达到预期的语义通信性能。针对收发两端本地知识库的重叠比率、涵盖范围等，已有研究进行了初步的建模，但仍然存在泛化性较差、耗费资源过多等问题。因此如何高效地对本地背景知识库进行设计与更新是一个重大挑战。

4 结束语

本文中，我们对语义通信的研究现状与前景进行了讨论，并基于理论模型与机器学习展开了分析。首先，从刻画语义信息的间接信源编码模型出发，将间接信源视为不可观测的语义信息，直接信源视为可被捕获的外部信息，并介绍了两个具有研究价值的语义信源编码模型。接着，我们将其中点对点的信源编码模型拓展至语义感知的JSCC 模型中，并推导了初步性能边界。我们认为该模型对现有语义通信框架有较高的适配度，其性能极限分析对现有工作也有着有较大的指导意义。最后，指出现有语义通信框架面临的挑战与开放性问题。语义通信是继物理层通信之后的6G 无线网络新兴范式，在“万物智联”愿景时代中必然占有一席之地。