信源信道联合的新范式：语义通信

2023-05-13 08:44吕守晔LYUShouye戴金晟DAIJincheng张平ZHANGPing

中兴通讯技术 2023年2期

吕守晔/LYU Shouye，戴金晟/DAI Jincheng，张平/ZHANG Ping

（ 1. 北京邮电大学泛网无线通信教育部重点实验室，中国北京 100876；2. 北京邮电大学网络与交换技术国家重点实验室，中国北京 100876 ）

过去70年，现代通信已经从香农的理论概念发展为高效实用的成熟系统。随着移动通信的快速发展，人们逐渐形成一种思维定势：系统瓶颈在于信道容量，只要增加容量就可解决大部分问题。据此，在经典通信系统中，人们采取用复杂度换取性能的方式，主要通过模块堆叠和技术密集化来解决链路传输能力不足的问题。然而，随着技术的快速进步，该模式面临着重重阻力。具体而言，经典通信系统以信源信道分离编码（SSCC）为核心，采用模块化设计，将信源与信道分别进行优化。经过长时间的探索，信源与信道编码技术已分别逼近各自的理论极限。性能的进一步提升使得复杂度剧增且收效甚微，难以可持续发展。线性处理的方式限制了各模块性能的提升。此外，模块的最优并不等同于整体性能的最优，模块化的设计将带来性能损耗。

根据著名信息学家W. WEAVER[1]的观点，当前通信系统仅停留在技术层，未涉及更高的语义层面。得益于人工智能技术与算力技术，通信系统朝着智能内生的方向不断发展。从比特到语义的范式转变，将从根本上改变当前通信系统的现状，因此人们对语义通信的研究正当时。张平院士对语义信息的特征进行了分析，指出语义信息可以用高维空间的特征参量进行表征[2]。在此基础上，张平院士提出“智简”理念[3]，以及由信源信道联合语义处理得到的新特征驱动的语义通信框架。牛凯等深入研究了从经典通信到语义通信的范式转变，提出语义通信系统的基本框架[4-5]。秦志金等探索了基于深度学习的语义通信理论、框架[6]，提出任务驱动的多用户语义通信系统[7]。戴金晟等将信源语义信息处理与通信传输技术结合，提出由语义引导的信源信道编码统一框架[8]。

本文总结了信源信道联合编码（JSCC）的发展历程，介绍了基于非线性变换JSCC 的语义通信系统框架。语义通信系统引入了“非线性变换”和“非线性编码”两个新机制，将通信范式升级到语义层面，使系统能够以更低的数据传输要求提供相同的端到端服务质量。考虑到噪声等条件对实际性能的影响，语义通信系统围绕着“有限带宽”和“有损传输”两大关键特性进行设计。语义通信系统框架中主要包含两类范式：

1）直接编码：以降低系统失真为优化目标，通过非线性处理得到信源表征，并将其信源压缩为定长编码，实现固定速率的JSCC。

2）变换编码：以端到端率失真函数为优化目标，通过对非线性变换提取的数据紧致语义表征进行变分熵建模，准确估计数据的语义熵分布，从而实现变速率的JSCC。

1 JSCC的发展历程

在信源信道编码定理中，香农证明：当R(D)< C 时，存在一种信源信道编码方式使得端到端传输的失真≤D；反之，不存在信源信道编码使端到端传输失真≤D。根据该定理，香农给出了如图1所示的两类信源信道编码范式：

1）SSCC：将信源数据压缩为最有效表征，再将该表征编码为适合传输的符号；

2）JSCC：利用合适的编码器直接将信源数据映射为适合信道传输的符号。

理论上，当信源和信道均达到渐进均分特性（AEP）时，最优设计的信源编码与信道编码的组合等价于最优设计的信源信道联合编码，这是著名的“信源信道分离定理”。“分离定理”为后续通信系统的工程研究提供了重要指导，在理论上证明了信源压缩技术和信道传输技术分离优化的可实现性，极大降低了工程设计的复杂度。

然而，还存在着一些似乎违反“分离定理”的情况。以中文文本的传输过程为例，经典通信系统先通过最高效的信源编码得到原始文本的表征，再将所得表征通过先进的信道编码压缩后进行传输。变长码在信道编码中已广泛应用，因此当信道条件恶劣导致信道译码发生差错时，信源译码将会出现严重错误，这导致原始文本语义内容无法被理解。这种现象被称作“悬崖效应”。反之，若通过信道直接传输原始文本，我们可能会失去部分字符，但依然可以大致理解文本的含义。这种现象说明，由于避免了译码过程中的差错传播效应，在未经压缩和信道编码的条件下直接传输信源数据，反而可以较好地保留信源语义信息。其根本原因是信源的结构冗余，天然适配了信道条件。这一观察启发了人们对于信源信道联合编码技术的研究。这些复杂度和码长有限的实际场景，难以满足“分离定理”中码长不受限的假设，无法实现AEP特性。

▲图1 两类信源信道编码范式

从端到端的过程出发，研究者们围绕提升频谱利用率这一核心目标，对JSCC 进行设计。联合编码充分利用端到端传输过程中的信源冗余，提升传输系统整体性能。由于历史局限，香农在1948年提出的经典信息论中[9]并未对联合编码技术的设计给出指导。很长一段时间，JSCC 的研究仅停留在理论概念层面。

图2 为JSCC 技术的发展脉络，清晰地展示了各时期的关键技术。联合编码的范式完成了从基于显式概率模型的经典方案向面向语义的现代方案转变，实现了从线性处理到非线性处理的进步。经典方案以高效信道编码为蓝本，采用显式概率模型进行编码器的设计。受限于解析求解能力，经典方案依赖线性处理方式进行编码，无法关注到更深层次的特别是非线性的信源信息。通过人工神经网络的引入，现代方案弥补了经典方案在技术上的不足，具备了非线性处理能力。通过非线性变换，现代方案得到原始数据在语义隐空间的紧致表征，从而实现了对信源语义信息的提取与挖掘。

▲图2 JSCC技术发展脉络

2 经典JSCC

由于技术限制，针对早期的经典通信系统，人们难以设计出性能优异的联合编码框架。20 世纪90 年代，因具备较高的抗干扰、抗衰落能力，以Turbo码、低密度奇偶校验码（LDPC）为代表的高效信道编码得到了学术界和工业界的广泛关注。研究者对高效信道编码进行了不断探索，从而将香农的概念设想变为实际的经典联合编码方案。本节回顾了经典信源信道联合编码中两条重要分支：信源信道联合解码与对偶式结构，并对各技术路线进行了总结。

2.1 信源信道联合解码

联合解码仍采用分离编码中模块化的设计理念，通过联合优化解码过程的方式，提升整体系统性能。在实现上，联合解码采用经典信源解码（如基于上下文的自适应算术解码）与高效信道编码级联的组合形式。

早期的联合解码使用隐马尔可夫信源与因子图结合的形式进行联合解码[10-12]。面向结构简单的信源，联合解码的方式取得了不错的性能增益。受限于隐马尔可夫信源的表达能力，后续研究将更加聚焦于实际信源的应用，譬如JPEG 2000[13-14]、语音信源[15]等。随着信源复杂度的提升，联合解码无法取得理想的性能增益，且会引起较大的复杂度提升。此外，联合解码并未跳出分离编码的框架，经典信源解码同高效信道编码之间并不总是匹配的，无法实现理想的端到端优化。

联合解码是早期人们对联合编码的一次尝试。联合解码没有实现真正的联合编码结构，而是对分离编码的完善和补充，因此并未摆脱分离编码所带来的影响。基于分离编码的设计结构限制了联合解码性能的进一步提升。

2.2 对偶式结构

2010 年， VERDÚ 等提出双低密度奇偶校验码（DLDPC）模型[16]，利用对偶式结构首次真正实现了端到端编码传输框架。

LDPC 的编码过程可以看作是一个利用生成矩阵G，将信源编码后的序列b 编码为待传输符号序列c 的线性映射。解码过程利用校验矩阵H，将接收到的符号序列ĉ译为序列b̂。从码长变化的角度，生成矩阵G 将短码编为了长码，校验矩阵H将长码编为了短码，二者互为对偶式处理。信源编码将长码编为短码，从效果上看，与LDPC 码的译码过程一致。

基于这一思想，对偶式结构创新性地使用信道编码中的对偶式处理代替经典通信系统中的信源编码，利用校验矩阵实现了信源压缩。在对偶式结构中，信源与信道编码具备统一的模型结构，能够被耦合为一个模块，这解决了联合解码信源与信道解码器不匹配的问题。

基于高效信道编码器，JIN L. Q.等还提出了信源信道联合极化（DPolar）方案[17]。通过实验对比，对偶式结构取得了更加优异的性能增益，但并未超过最先进的分离编码方案。如前文所述，经典联合编码的基础是仅具有线性处理能力的高效信道编码器，特征提取仅限于线性层面。线性处理方式导致性能提升空间受限，通信模块亟待向非线性处理方式转型，以寻求赋能通信系统长期可持续发展的新范式。

3 面向语义通信的JSCC

在经典编码的方法中，不论是基于分离式的信源信道编码，还是基于高效信道编码的经典JSCC，其编码策略都注重信源的结构状态，依靠显式概率模型进行设计。在面向人类感知和智能类机器任务时，经典编码缺少对语义信息的提取和处理，难以提升编码增益。语义编码传输将表征学习、信源编码、信道编码三者进行匹配融合，根据优化目标进行端到端设计，实现数据高保真传输。其中，表征学习是对信源语义特征的有效提取，是语义编码传输过程中最关键的一步。信源信道联合编码实现对语义特征高效、鲁棒传输。整个链路的各个模块使用非线性设计处理方式，进一步提高语义提取和编码保护能力。

3.1 直接编码传输

语义编码传输的一种方法是直接编码传输，如图3 所示。这类编码方法在发送端将语义特征提取、信源编码和信道编码封装为编码器模块，在接收端将信源信道解码和语义特征融合封装为译码器模块，从而实现端到端的一体设计。编码器和译码器模块均可部署为深度神经网络（DNN），以便学习信源空间到编码信号空间的非线性映射。这种方法普遍被称为Deep JSCC[18-20]，本质上属于自编码器（AE）架构。考虑到对信道传输失真的影响，神经网络中间包含一个不可训练的噪声引入层，从而提高了编解码器对抗信道噪声、衰落等不利因素的能力。

基于香农信息论的思想，Deep JSCC 编码实际上是高维信源矢量到低维编码传输矢量的映射。以图像信源为例，编码器fe将输入图像x ∈Rm，通过参数化函数fe(⋅; φf)，映射到复值信道输入s ∈Rk。其中，通常有k < m，称ρ = k/m 为信道带宽比（CBR）。编码操作之后，JSCC 序列s 被直接送入噪声信道，信道向传输序列引入随机误差，记为W( ⋅; ν)，信道参数封装在ν 中。接收序列为̂= W(s; ν)，转移概率为pŝ|s。以典型的加性高斯白噪声（AWGN）信道为例，̂= W(s; σn)= s + n，其中n ∼N(0,σ2Ik)，σ2代表平均噪声功率。解码器fd将信道输出序列̂通过函数fd( ⋅; ϕf)重建为信源矢量̂。编码和解码函数通过最小化端到端失真d(x,̂)进行联合优化。

Deep JSCC 通过自编码器框架对信源数据进行降维，这在本质上属于定长编码。在经过训练之后，编码和解码函数的编码码长k对于给定的信源样本x是确定的。这种方式可以避免变长编码在译码时遇到的差错传播问题，防止在信道条件发生突变时，Deep JSCC系统发生“悬崖效应”。已有的实验结果表明，以Deep JSCC为代表的直接编码方式仅对极低分辨率图像（32×32，CIFAR10 数据集）产生明显的编码增益，超出信道容量可达条件下的经典分离编码方案（特别是在低信噪比条件下）。这种性能优势的核心原因是基于深度学习的非线性编码方式可以灵活适配各种信源分布。与之相对的是，Deep JSCC 仅考虑训练样本分布和失真，没有考虑信源内部在语义复杂度方面的差异。这导致编码效率低，在编码长度k、信道信噪比（SNR）逐渐增大时会表现出性能饱和。受限于单一编解码器处理能力，随着信源维度的增加，Deep JSCC 的性能将会退化，甚至弱于经典分离编码方案。目前业界主流的图像、视频编码压缩方法（例如JPEG、BPG（H.265）[21]等），均针对高分辨率图像、视频设计，不面向低维度数据优化。因此，直接编码传输所带来的性能增益不具有普遍性。

3.2 变换编码传输

虽然降维可以被看作是一种简单的压缩形式，但并不等同于压缩。因为压缩的目标是在发送方和接收方共享的先验概率模型（熵模型）下尽可能降低表示的熵，而不仅仅是降维。语义编码传输的另一种方法是变换编码传输。这种方法首先将信源矢量x通过非线性变换，映射到语义空间上的隐表征y，之后对y 进行信源信道联合编码传输。由于非线性变换的解相关作用，语义隐空间上y 的各维之间相关性减弱，从而便于进行语义熵估计。熵估计的结果可用于指导变速率的信源信道联合编码，从而提高系统整体编码传输效率。

3.2.1 传输系统框架

如图3 所示，语义非线性变换编码兼具非线性变换和JSCC 两者的优势，因此被称为非线性变换信源信道联合编码（NTSCC）[22]。在编码器端，信源矢量x 先通过非线性解析变换ga( ⋅; φg)，产生深层语义特征图y。之后，y 被送入信源信道联合编码器fe( ⋅; φf)，得到信道输入矢量s。以AWGN信道为例，s直接经过信道，通过信道传输方程W( ⋅; σn)，转换为信道输出矢量。译码器端执行相反的操作：经过信源信道联合解码器fd( ⋅; θf)首先恢复为语义特征图，之后合成变换gs( ⋅; θg)，将重建为信源输入。整个过程如公式（1）：

▲图3 面向语义通信的信源信道联合编码框架

不同于Deep JSCC的定长编码方案，非线性变换使得语义特征y的变分熵估计成为可能。此处，使用DNN构建的参数化方程py( ⋅; φ)来构建语义熵模型，计算得到y每一个维度yi值的概率。编码器fe进而根据语义熵大小−logpy( ⋅; φ)对每个yi分配编码码率，编码获得长度不等的si。因此，信道输入s的总维度是依据传输数据语义内容复杂程度动态变化的，这使NTSCC实现“变速率编码传输”。系统的优化目标可以定义为：

公式（2）中，λ表示控制速率和失真两者权衡的超参数，R表示总信道传输速率（可定义为信道宽带比CBR，CBR=信道传输符号数/信源维度，信道传输符号数为所有si长度总合），D 表示端到端失真，可采用不同的度量指标，比如衡量图像质量的峰值信噪比（PSNR）、多尺度结构相似度（MS-SSIM）等。为了实现语义通信中人类感知优化的目标，需要提高收端重构信源x̂的全局主观感知质量。我们可以在公式（2）中引入感知失真评价项，比如引入基于DNN的可学习感知图像块相似度（LPIPS）[23]和生成对抗网络的鉴别器打分度量，从而能够更好地提高主观上的端到端的传输性能。

3.2.2 系统性能

为了评估语义变换编码传输系统的性能，针对不同分辨率的开源图像数据集CIFAR10 （32×32 像素）、Kodak（768×512 像素）和CLIC2021（2 048×1 890 像素），我们在AWGN 信道下使用NTSCC 传输系统进行传输测试，并与Deep JSCC 方案和经典分离式信源信道编码方案比较。分离式方案采用了以JPEG、JPEG 2000、BPG（H.256 视频编码标准的帧内图像编码方案）和VTM（H.266视频编码标准的测试模型）为代表的图像信源编码方案，并结合实际应用的5G 标准LDPC 码，形成通信传输系统（分别记为“JPEG +5G LDPC”“JPEG 2000 + 5G LDPC”“BPG + 5G LDPC”和“VTM + 5G LDPC”）。NTSCC 选择从Open Images 数据集中随机采样的500 000张图片作为数据集。在训练过程中，这些图片被随机裁剪成大小为256×256像素块。性能评价指标采用应用广泛的像素级度量指标（例如：PSNR 和MSSSIM）和最近兴起的基于深度学习的感知度量指标LPIPS。其中，更高的PSNR/MS-SSIM 指数意味着更好的传输表现，更低的LPIPS代表更小的损失。

以2021 年发布的包含高分辨率图像数据的具有挑战性的可学习图像压缩数据集（CLIC2021）为例，图4的实验结果表明，在信噪比为10 dB的AWGN信道上，NTSCC的失真表现为在各个信道传输速率上均优于Deep JSCC，并且两者的性能差距会随着图像分辨率和传输速率的增大而逐渐增大。特别地，在更贴近人类感知的MS-SSIM 和LPIPS 指标下，分离式方案普遍差于信源信道联合的语义通信方案。在PNSR 和MS-SSIM 指标下，图4 展示了NTSCC 相较于“VTM+ 5G LDPC”方案的性能优势。如图4（a）、图4（b）中的箭头指示，公式的第1项表示在同等传输速率下的平均失真增益，第2项表示在同等失真下的平均传输速率节省。两个指标的计算采用了文献[24]和[25]中提出的性能评价公式。图4（c）中的语义通信模型以感知指标LPIPS进行优化，箭头上方的数字代表平均速率节省。显然，感知优化的NTSCC 在性能上远优于其他方案。为了直观地展示出NTSCC的传输效果，图5选择了城市街景视频序列的传输来进行可视化结果对比。我们从这些结果中发现，即使是在相似的PSNR指标下，使用NTSCC传输的图像也能够显示出更好的视觉质量。

▲图4 10 dB的加性高斯白噪声（AWGN）信道条件下，各个度量指标随信道带宽比的变化（CLIC2021）

▲图5 城市街景视频序列传输的可视化效果对比

4 结束语

本文围绕着线性处理到非线性处理的变革，介绍了信源信道联合编码发展历程中的关键技术。我们总结了基于非线性变换信源信道联合编码的语义通信系统框架，引入了“非线性变换”和“非线性编码”两个新机制。利用这两个机制，语义通信系统框架的系统传输性能够得到有效的提升。