1. 项目概述当雷达与通信信号“撞车”时如何让它们各回各家在车联网、无人机集群或者未来的智能交通系统中一个基站往往需要同时扮演两个角色既要像雷达一样发射探测信号感知周围车辆、行人的距离和速度又要像通信基站一样接收来自车辆的数据通信信号传输指令或状态信息。这种将通信与雷达感知功能集于一体的系统被称为联合通信与雷达系统。听起来很美好对吧一个设备干两件事节省频谱和硬件资源。但现实很骨感当雷达的探测回波和车辆的通信信号同时涌入接收机它们会在时域和频域上“扭打”在一起形成一锅“信号乱炖”。如何从这锅乱炖中清晰、准确地分离出各自的“原料”——也就是雷达信号和通信信号成了决定整个系统性能成败的“咽喉要道”。传统的“厨师”——盲源分离技术比如FastICA、JADE这些算法在处理一些“清淡小炒”信号简单、噪声低时还行。但一旦环境变得“烟熏火燎”低信噪比或者信号本身“食材”复杂、重叠严重时频域混叠它们的分离效果就会大打折扣端上来的菜要么串味干扰大要么糊了失真严重。最近我们团队把目光投向了深度学习厨房里的一位“新锐厨师”——变分自编码器。VAE本质上是一个生成模型它不像传统方法那样直接去“猜”信号是什么而是先去学习信号“应该长什么样”的潜在规律和概率分布。打个比方传统BSS像是凭经验用手从一盆混在一起的乐高积木里分拣而VAE则是先学会乐高积木各种形状和颜色的概率分布模型然后根据这个模型更智能、更鲁棒地把它们归类。我们的核心工作就是首次将这种无监督的VAE模型引入到JCR这个特定的“后厨”里专门用来分离雷达感知信号和数据通信信号。我们不仅验证了VAE的可行性还精心调配了多种“掩码”技术来优化分离后的“摆盘”最终在低信噪比这种恶劣环境下取得了比传统BSS方法更出色的“出菜”效果。2. 核心思路为什么是变分自编码器2.1 传统盲源分离的瓶颈与VAE的破局思路在深入VAE之前有必要先看看传统盲源分离方法在JCR场景下为何会“水土不服”。以独立成分分析为代表的BSS方法其核心假设是源信号相互统计独立。在理想情况下这确实有效。但JCR系统面临的环境要苛刻得多动态时变与复杂调制通信信号如我们使用的4-ASK具有快速变化的瞬时幅度而雷达信号如LFM线性调频信号则在频率上线性扫过。它们的统计特性在短时窗内可能并不满足严格的独立性假设。低信噪比挑战在远距离通信或弱目标探测场景下接收信噪比可能很低。BSS算法对噪声非常敏感在强噪声背景下其估计信号独立性的能力会急剧下降导致分离失败或性能恶化。时频域混叠这是最棘手的情况。当雷达信号与通信信号的频带部分或完全重叠时它们在时频域通过短时傅里叶变换观察会交织在一起。传统的时域或频域滤波方法完全失效而BSS方法在处理这种高度相关的混叠信号时也常常力不从心。变分自编码器提供了一种截然不同的范式。它不依赖于信号间的统计独立性先验而是通过无监督学习从大量混合信号样本中直接学习每个源信号在潜在空间中的概率分布特征。VAE的编码器将高维的混合信号比如一个时频图压缩到一个低维的、连续的潜在空间解码器则负责从这个潜在空间中采样并重构出信号。关键在于VAE在训练过程中通过优化一个称为证据下界的损失函数迫使潜在空间的分布接近我们预设的简单分布如标准正态分布同时又要能很好地重构输入。这个过程无形中让VAE学会了“解纠缠”——即把混合信号中不同的、独立的特征因子编码到潜在空间的不同维度或不同区域。注意这里说的“无监督”是指训练时不需要提供每个混合信号对应的纯净源信号作为标签。VAE只需要看到大量的混合信号样本就能自己摸索出分离的规律。这在实际应用中极具价值因为获取纯净的、已知对应关系的雷达与通信混合信号样本是非常困难甚至不可能的。2.2 β-VAE在重构精度与特征解耦间寻找平衡标准的VAE有时会过于专注于完美地重构输入而忽略了潜在空间特征的可解释性和解耦性。为了解决这个问题我们引入了β-VAE。它在VAE的损失函数中引入了一个超参数β用于调节“重构误差”和“潜在空间正则化”两项之间的权重。重构误差衡量解码器输出的混合信号与原始输入混合信号之间的差异使用拉普拉斯似然对应L1损失来衡量它对异常值更鲁棒能产生更清晰的重构。KL散度衡量编码器学到的潜在空间分布与预设的标准正态分布之间的差异。增大β值会迫使潜在空间的分布更接近标准正态分布这通常能促进不同特征如雷达特征、通信特征在潜在空间中的解耦。在我们的实验中我们将β设置为10并在训练初期让其从0线性增长到10。这个“热身”策略非常重要可以避免模型在训练早期就陷入“后验坍塌”——即编码器忽略输入直接输出一个接近先验的分布导致学习失败。通过调整β我们让模型在“尽可能还原混合信号”和“让潜在特征变得规整、可分离”之间找到了一个最佳平衡点这是实现高质量信号分离的理论基础。3. 系统架构与信号建模搭建我们的“分离厨房”3.1 整体处理流程我们的信号分离系统是一个端到端的处理管道其核心流程可以概括为以下几步下图清晰地展示了从原始混合信号到最终分离结果的全过程flowchart TD A[接收混合时域信号 x(t)] -- B[短时傅里叶变换 STFT] B -- C[得到混合时频谱 X(t, f)] C -- D[幅度归一化br作为VAE输入] D -- E[VAE编码器] E -- F[潜在空间 Zbr学习信号分布] F -- G[VAE解码器1] F -- H[VAE解码器2] G -- I[输出时频谱 D1(t, f)] H -- J[输出时频谱 D2(t, f)] I -- K{应用掩码技术} J -- K K -- L[得到估计源时频谱 Ŝ1, Ŝ2] L -- M[逆短时傅里叶变换 ISTFT] M -- N[输出分离的时域信号 ŝ1(t), ŝ2(t)]整个系统的输入是天线接收到的混合时域信号x(t)输出则是分离后的雷达信号和通信信号的时域波形。VAE模型在这个流程中扮演了最核心的“分离引擎”角色。3.2 信号模型与数据集构建要训练和测试模型首先需要定义我们要分离的“食材”是什么。我们主要关注两类信号雷达感知信号采用线性调频信号。其数学表达式为s1(t) A1 * exp(j * [π * μ * (t - t0)² 2π * fc1 * t])。其中μ是调频率决定了频率随时间线性变化的速度fc1是载频。LFM信号因其大的时间带宽积具有良好的距离分辨率和抗干扰能力是雷达中的常用波形。数据通信信号采用4级幅度键控信号。其表达式为s2(t) a2(t) * exp(j * 2π * fc2 * t)。其中a2(t)的幅度在四个电平{-0.5, -1, 0.5, 1.5}中变化携带通信信息。我们使用滚降系数为0.5的升余弦滤波器对其进行脉冲成形以限制其频谱。数据集生成是关键一步。我们通过改变LFM和4-ASK信号的载频例如LFM: 0 6 10 MHz 4-ASK: 2 8 12 MHz生成多种频率组合的混合信号共形成9种不同的混合模式。每种模式在多个信噪比下生成样本。我们将时域混合信号通过STFT转换为时频图取其幅度并归一化到[0 1]区间作为VAE的输入特征。最终我们构建了一个包含1080个样本的数据集每个样本是128频点×67时间帧重塑后的8576维向量。这样的设计确保了模型能学习到不同频偏关系下的信号混合特征增强其泛化能力。3.3 VAE网络结构设计我们的VAE网络结构是性能的保障其设计兼顾了表达能力和训练稳定性编码器输入层接收8576维的特征向量。随后是5个全连接隐藏层神经元数量依次为700 600 500 400 300。每个全连接层后都接有批归一化层和ReLU激活函数。批归一化能加速训练并提升稳定性ReLU则提供非线性。编码器最终输出潜在变量Z的均值μ和对数方差log(σ²)两个向量。采样层利用重参数化技巧从N(μ σ²I)分布中采样得到40维的潜在向量ZDz20 K2 每个信号源对应20维。重参数化使得采样过程可导允许梯度反向传播。解码器两个解码器结构对称是编码器的镜像。每个解码器以20维的潜在向量zk为输入经过与编码器反向的全连接层300 400 500 600 700神经元最终通过一个Sigmoid激活函数的输出层重构出8576维的源信号时频幅度估计Ŝk。两个解码器的输出相加应尽可能接近输入的混合时频幅度。训练细节使用Adam优化器学习率设为0.001。损失函数即ELBO其中重构损失采用L1损失拉普拉斯似然KL散度权重β按前述策略设置。这个结构足够深能够捕捉信号的高维特征同时又通过BN和合适的激活函数保证了训练的可行性。两个独立解码器的设计是物理上实现信号分离的关键它们被迫从共享的潜在空间中学习并重构出不同的信号成分。4. 分离效果优化器掩码技术的深入解析与应用VAE解码器直接输出的时频图Dk(t f)可以看作是模型对第k个源信号幅度的一个“粗糙估计”。直接对其做逆STFT得到的时域信号往往包含残留噪声或来自另一信号的泄漏。掩码技术的核心思想是利用这个粗糙估计Dk(t f)结合原始的混合时频谱X(t f)计算一个介于0到1之间的权重矩阵即掩码然后将其作用于原始的混合时频谱或其幅度/相位从而“过滤”出更纯净的源信号估计。我们系统性地评估了两种现有掩码和三种我们新提出的掩码其公式和设计动机如下Mask 1 (比例掩码)Ŝk ISTFT( (Dk / ΣDk) ⊙ |X|_N ⊙ e^(j·phase(X)) )这是最直观的掩码将每个解码器输出归一化作为从混合信号中分配能量的权重。它假设解码器输出能相对准确地反映各信号分量在时频点上的能量占比。Mask 2 (维纳滤波掩码)Ŝk ISTFT( (Dk² / ΣDk²) ⊙ |X|_N ⊙ e^(j·phase(X)) )在Mask 1的基础上对Dk取平方这类似于维纳滤波的思想更强调强分量能进一步抑制噪声和弱泄漏在信噪比较高时效果更好。Mask 3 (高次幂阈值掩码)Ŝk ISTFT( Mk ⊙ (Dk⁴ / ΣDk⁴) ⊙ |X|_N ⊙ e^(j·phase(X)) )这是我们提出的改进。将Dk提升到4次方能更大程度地放大主导信号、抑制次要信号。同时引入一个阈值矩阵Mk将Dk中大于某阈值如0.1的值置1小于该值的置0。这个操作相当于一个二值化门限能极其有效地在低信噪比下剔除背景噪声只保留确信度高的信号区域。Mask 4 (二值化硬掩码)Ŝk ISTFT( Gk ⊙ X ) 其中Gk由(Dk / ΣDk) ⊙ |X|_N二值化得到。 这是一种更“硬”的掩码。它直接对归一化的能量权重进行二值化生成一个0/1矩阵然后与原始的复数混合频谱X相乘。这种方法在信号频域不重叠时非常干净利落但如果频域有重叠硬切割会导致严重的频谱泄漏和失真。Mask 5 (直接相位复用)Ŝk ISTFT( Dk ⊙ e^(j·phase(X)) )这是复杂度最低的方法。直接使用解码器输出的幅度Dk配上混合信号的相位phase(X)进行逆变换。它完全依赖于VAE对幅度谱的估计质量。我们发现对于LFM这类结构简单的雷达信号该方法效果出奇地好且计算量最小但对于4-ASK这类复杂通信信号效果较差。实操心得掩码选择指南经过大量测试我们总结出以下经验对于数据通信信号如4-ASK在低信噪比环境下Mask 3带阈值是首选。其高次幂和阈值处理能强力抑制噪声显著提升SDR和SAR。在高信噪比下Mask 1、2、3无阈值性能接近可根据计算资源选择。对于雷达感知信号如LFMMask 5是性价比最高的选择。因为LFM信号在时频图上结构清晰、连续VAE能很好地估计其幅度谱直接复用相位即可获得高质量重构省去了复杂的掩码计算。当信号仅在时域混合、频域分离良好时可以尝试Mask 4它能得到非常干净的分离结果但前提是频域必须几乎没有重叠。阈值的选择阈值通常设置在0.1到0.3之间需要通过验证集进行微调。过高的阈值会损失信号细节过低则去噪效果不佳。5. 性能对决VAE vs. 传统BSS算法我们设计了两个核心场景来全面评估VAE与传统BSS算法如FastICA JADE SOBI等的性能。5.1 场景一时频域双重混叠的“地狱难度”在这个场景下LFM信号中心频率0MHz带宽10MHz与4-ASK信号中心频率2MHz的频带发生部分重叠。这意味着在时频图上两者完全交织在一起是分离任务中最困难的情况。实验结果分析低信噪比SNR 15 dB是VAE的绝对主场。以0 dB SNR为例VAE采用Mask 3在恢复LFM信号时其信号失真比达到了13.5 dB而表现最好的传统BSS方法SOBI仅为2.4 dBVAE带来了超过11 dB的惊人增益。对于4-ASK信号VAE也取得了约6 dB的SDR增益。这充分证明了VAE生成模型在强噪声环境下通过学习数据底层分布所带来的鲁棒性优势。高信噪比下的性能饱和。当SNR高于15 dB后VAE的性能提升曲线变得平缓而传统BSS方法的性能则持续改善并逐渐接近甚至在某些指标上超越VAE。这是因为在高信噪比下信号本身很强噪声干扰变小此时信号间相互干扰互耦成为主要矛盾。由于信号在时频域完全重叠这种互耦非常严重而VAE在训练时可能没有充分学习到这种极端干扰模式导致其分离性能遇到瓶颈。相反基于统计独立性的BSS方法在信号纯净时其理论假设更接近实际情况因此能发挥更好。掩码的威力对比VAE直接输出和使用Mask 30.1阈值的结果SDR有1-3 dB的提升SAR源与伪影比提升更明显。这说明掩码后处理对于提升最终输出信号质量尤其是减少分离引入的人为伪影至关重要。5.2 场景二仅时域混叠的“标准难度”在此场景下LFM信号中心频率0MHz与4-ASK信号中心频率12MHz在频域上是分离的仅在时域叠加。这模拟了频谱资源分配良好但时间上同步传输的情况。实验结果分析VAE全面碾压。在这个相对简单的场景下VAE在所有信噪比水平上均大幅领先传统BSS方法。例如在10 dB SNR时VAE恢复LFM和4-ASK信号的SDR分别达到24.6 dB和16.7 dB而ExComplexFastICA仅分别为10.5 dB和11.6 dBVAE取得了14 dB和5 dB的领先优势。原因解读当时频图上的信号已经具备较好的可分性时VAE强大的特征提取和重构能力得以完美发挥。它能够清晰地学习到两种信号在时频图上的独特“纹理”LFM的斜线 vs. 4-ASK的块状纹理并准确地进行分离和去噪。而传统BSS方法在处理这种虽不重叠但统计特性可能仍有关联的信号时其分离上限本身就不如基于深度学习的VAE。计算复杂度对比我们记录了各方法的平均分离时间。JADE和SOBI最快仅需毫秒级ExComplexFastICA和ACMNysm次之我们提出的VAE方法含掩码和逆STFT耗时约63毫秒CQAMsym最慢达127毫秒。VAE的耗时主要在前向传播计算虽然比最快的BSS方法慢一个数量级但在许多实时性要求不极端的JCR应用如车辆环境感知更新率在10-100Hz中是可接受的其带来的性能提升是值得的。6. 实战扩展利用VAE进行同频干扰检测JCR系统在实际工作中还可能遇到来自其他设备的同频段干扰信号。我们探索了将训练好的VAE模型用于干扰检测的可能性。方法步骤正常分离将接收到的含干扰的混合信号假设包含LFM、4-ASK和干扰信号输入VAE。由于VAE只训练过分离两个信号它的两个解码器会尽力去解释混合信号通常会将能量最强的两个主要成分LFM和4-ASK分离出来。重构“干净”混合将两个解码器的输出相加并归一化得到VAE所“认为”的、不含干扰的“干净”混合信号的时频幅度估计。生成干扰掩码将上述“干净”混合时频幅度与原始混合信号的归一化幅度进行比较。在“干净”估计中能量很低小于阈值如0.1但在原始混合中能量较高的时频点就很可能是干扰信号所在的位置。据此生成一个二值干扰掩码Ik。提取干扰将此掩码应用于原始的复数混合频谱X(t f)再进行逆STFT即可得到估计的干扰信号时域波形。我们在混合信号中加入巴克码波形作为干扰进行测试。实验表明该方法能以约91%的准确率检测并提取出干扰信号。那9%的失误主要发生在干扰信号的中心频率与训练集中某个源信号频率巧合地接近时VAE可能会将其误判为已知信号的一部分。这提示我们在训练阶段引入更多样化的干扰信号样本可以进一步提升模型的干扰识别与抑制能力。7. 避坑指南与参数调优经验在实际复现或应用此方法时以下几个坑点需要特别注意训练数据的关键性VAE的性能极度依赖于训练数据是否具有代表性。必须确保训练集覆盖了所有可能遇到的信号类型如不同调制方式、频偏范围、信噪比范围以及信号功率比。如果实际应用中存在训练时未出现的信号模式如一种新的雷达波形模型性能可能会显著下降。建议采用数据增强技术如添加随机频偏、时延、幅度缩放等来扩充训练集提升模型鲁棒性。β值的选择与“热身”策略β值控制着解耦的强度。β太小如接近0模型退化为普通自编码器分离效果差β太大如远大于10重构质量会严重下降导致输出信号失真。我们采用从0线性增加到目标值如10的“热身”策略是稳定训练、避免后验坍塌的标准操作。可以尝试不同的增长周期如5 10 20个epoch以找到最优设置。潜在空间维度Dz的设定Dz是每个源信号对应的潜在向量维度。并非越大越好。维度太低模型表达能力不足无法有效编码信号特征维度太高不仅增加计算量还可能导致过拟合或让模型学到一些无关的噪声特征。我们通过实验发现对于本文中的LFM和4-ASK信号Dz20是一个较好的平衡点。对于更复杂的信号可能需要适当增加。STFT参数的影响短时傅里叶变换的窗长、窗类型和重叠率直接影响时频图的分辨率和特征。窗长太短频率分辨率低LFM的斜线特征会变模糊窗长太长时间分辨率低4-ASK的突发特征会变平滑。我们经过测试选择了能较好权衡两者的一组参数。在实际应用中需要根据待处理信号的具体参数如带宽、符号速率重新调整STFT参数。低信噪比下的过拟合在极低信噪比下训练时模型容易学习到噪声的特定模式而非信号本身导致在未见过的噪声样本上表现差。解决方法在训练数据中使用多样化的噪声样本不仅限于高斯白噪声可加入色噪声、脉冲噪声等并采用早停法根据验证集性能而非训练集损失来决定停止训练的时机。基于变分自编码器的信号分离方案为复杂电磁环境下联合系统的信号处理打开了一扇新的大门。它不再依赖于苛刻的统计假设而是让数据自己“说话”通过深度网络学习信号的本质特征。尽管在计算效率上略逊于传统算法但其在低信噪比和复杂混叠场景下展现出的强大鲁棒性和优异性能使其在车联网、无人机感知通信一体化等对可靠性要求极高的应用中具有不可替代的潜力。未来的工作可以着眼于设计更轻量化的网络结构、探索在线自适应学习机制或者正如原文所展望的研究VAE与传统BSS方法的混合模型以期在性能与效率之间找到更完美的平衡点。
基于变分自编码器的联合通信与雷达信号盲源分离技术
1. 项目概述当雷达与通信信号“撞车”时如何让它们各回各家在车联网、无人机集群或者未来的智能交通系统中一个基站往往需要同时扮演两个角色既要像雷达一样发射探测信号感知周围车辆、行人的距离和速度又要像通信基站一样接收来自车辆的数据通信信号传输指令或状态信息。这种将通信与雷达感知功能集于一体的系统被称为联合通信与雷达系统。听起来很美好对吧一个设备干两件事节省频谱和硬件资源。但现实很骨感当雷达的探测回波和车辆的通信信号同时涌入接收机它们会在时域和频域上“扭打”在一起形成一锅“信号乱炖”。如何从这锅乱炖中清晰、准确地分离出各自的“原料”——也就是雷达信号和通信信号成了决定整个系统性能成败的“咽喉要道”。传统的“厨师”——盲源分离技术比如FastICA、JADE这些算法在处理一些“清淡小炒”信号简单、噪声低时还行。但一旦环境变得“烟熏火燎”低信噪比或者信号本身“食材”复杂、重叠严重时频域混叠它们的分离效果就会大打折扣端上来的菜要么串味干扰大要么糊了失真严重。最近我们团队把目光投向了深度学习厨房里的一位“新锐厨师”——变分自编码器。VAE本质上是一个生成模型它不像传统方法那样直接去“猜”信号是什么而是先去学习信号“应该长什么样”的潜在规律和概率分布。打个比方传统BSS像是凭经验用手从一盆混在一起的乐高积木里分拣而VAE则是先学会乐高积木各种形状和颜色的概率分布模型然后根据这个模型更智能、更鲁棒地把它们归类。我们的核心工作就是首次将这种无监督的VAE模型引入到JCR这个特定的“后厨”里专门用来分离雷达感知信号和数据通信信号。我们不仅验证了VAE的可行性还精心调配了多种“掩码”技术来优化分离后的“摆盘”最终在低信噪比这种恶劣环境下取得了比传统BSS方法更出色的“出菜”效果。2. 核心思路为什么是变分自编码器2.1 传统盲源分离的瓶颈与VAE的破局思路在深入VAE之前有必要先看看传统盲源分离方法在JCR场景下为何会“水土不服”。以独立成分分析为代表的BSS方法其核心假设是源信号相互统计独立。在理想情况下这确实有效。但JCR系统面临的环境要苛刻得多动态时变与复杂调制通信信号如我们使用的4-ASK具有快速变化的瞬时幅度而雷达信号如LFM线性调频信号则在频率上线性扫过。它们的统计特性在短时窗内可能并不满足严格的独立性假设。低信噪比挑战在远距离通信或弱目标探测场景下接收信噪比可能很低。BSS算法对噪声非常敏感在强噪声背景下其估计信号独立性的能力会急剧下降导致分离失败或性能恶化。时频域混叠这是最棘手的情况。当雷达信号与通信信号的频带部分或完全重叠时它们在时频域通过短时傅里叶变换观察会交织在一起。传统的时域或频域滤波方法完全失效而BSS方法在处理这种高度相关的混叠信号时也常常力不从心。变分自编码器提供了一种截然不同的范式。它不依赖于信号间的统计独立性先验而是通过无监督学习从大量混合信号样本中直接学习每个源信号在潜在空间中的概率分布特征。VAE的编码器将高维的混合信号比如一个时频图压缩到一个低维的、连续的潜在空间解码器则负责从这个潜在空间中采样并重构出信号。关键在于VAE在训练过程中通过优化一个称为证据下界的损失函数迫使潜在空间的分布接近我们预设的简单分布如标准正态分布同时又要能很好地重构输入。这个过程无形中让VAE学会了“解纠缠”——即把混合信号中不同的、独立的特征因子编码到潜在空间的不同维度或不同区域。注意这里说的“无监督”是指训练时不需要提供每个混合信号对应的纯净源信号作为标签。VAE只需要看到大量的混合信号样本就能自己摸索出分离的规律。这在实际应用中极具价值因为获取纯净的、已知对应关系的雷达与通信混合信号样本是非常困难甚至不可能的。2.2 β-VAE在重构精度与特征解耦间寻找平衡标准的VAE有时会过于专注于完美地重构输入而忽略了潜在空间特征的可解释性和解耦性。为了解决这个问题我们引入了β-VAE。它在VAE的损失函数中引入了一个超参数β用于调节“重构误差”和“潜在空间正则化”两项之间的权重。重构误差衡量解码器输出的混合信号与原始输入混合信号之间的差异使用拉普拉斯似然对应L1损失来衡量它对异常值更鲁棒能产生更清晰的重构。KL散度衡量编码器学到的潜在空间分布与预设的标准正态分布之间的差异。增大β值会迫使潜在空间的分布更接近标准正态分布这通常能促进不同特征如雷达特征、通信特征在潜在空间中的解耦。在我们的实验中我们将β设置为10并在训练初期让其从0线性增长到10。这个“热身”策略非常重要可以避免模型在训练早期就陷入“后验坍塌”——即编码器忽略输入直接输出一个接近先验的分布导致学习失败。通过调整β我们让模型在“尽可能还原混合信号”和“让潜在特征变得规整、可分离”之间找到了一个最佳平衡点这是实现高质量信号分离的理论基础。3. 系统架构与信号建模搭建我们的“分离厨房”3.1 整体处理流程我们的信号分离系统是一个端到端的处理管道其核心流程可以概括为以下几步下图清晰地展示了从原始混合信号到最终分离结果的全过程flowchart TD A[接收混合时域信号 x(t)] -- B[短时傅里叶变换 STFT] B -- C[得到混合时频谱 X(t, f)] C -- D[幅度归一化br作为VAE输入] D -- E[VAE编码器] E -- F[潜在空间 Zbr学习信号分布] F -- G[VAE解码器1] F -- H[VAE解码器2] G -- I[输出时频谱 D1(t, f)] H -- J[输出时频谱 D2(t, f)] I -- K{应用掩码技术} J -- K K -- L[得到估计源时频谱 Ŝ1, Ŝ2] L -- M[逆短时傅里叶变换 ISTFT] M -- N[输出分离的时域信号 ŝ1(t), ŝ2(t)]整个系统的输入是天线接收到的混合时域信号x(t)输出则是分离后的雷达信号和通信信号的时域波形。VAE模型在这个流程中扮演了最核心的“分离引擎”角色。3.2 信号模型与数据集构建要训练和测试模型首先需要定义我们要分离的“食材”是什么。我们主要关注两类信号雷达感知信号采用线性调频信号。其数学表达式为s1(t) A1 * exp(j * [π * μ * (t - t0)² 2π * fc1 * t])。其中μ是调频率决定了频率随时间线性变化的速度fc1是载频。LFM信号因其大的时间带宽积具有良好的距离分辨率和抗干扰能力是雷达中的常用波形。数据通信信号采用4级幅度键控信号。其表达式为s2(t) a2(t) * exp(j * 2π * fc2 * t)。其中a2(t)的幅度在四个电平{-0.5, -1, 0.5, 1.5}中变化携带通信信息。我们使用滚降系数为0.5的升余弦滤波器对其进行脉冲成形以限制其频谱。数据集生成是关键一步。我们通过改变LFM和4-ASK信号的载频例如LFM: 0 6 10 MHz 4-ASK: 2 8 12 MHz生成多种频率组合的混合信号共形成9种不同的混合模式。每种模式在多个信噪比下生成样本。我们将时域混合信号通过STFT转换为时频图取其幅度并归一化到[0 1]区间作为VAE的输入特征。最终我们构建了一个包含1080个样本的数据集每个样本是128频点×67时间帧重塑后的8576维向量。这样的设计确保了模型能学习到不同频偏关系下的信号混合特征增强其泛化能力。3.3 VAE网络结构设计我们的VAE网络结构是性能的保障其设计兼顾了表达能力和训练稳定性编码器输入层接收8576维的特征向量。随后是5个全连接隐藏层神经元数量依次为700 600 500 400 300。每个全连接层后都接有批归一化层和ReLU激活函数。批归一化能加速训练并提升稳定性ReLU则提供非线性。编码器最终输出潜在变量Z的均值μ和对数方差log(σ²)两个向量。采样层利用重参数化技巧从N(μ σ²I)分布中采样得到40维的潜在向量ZDz20 K2 每个信号源对应20维。重参数化使得采样过程可导允许梯度反向传播。解码器两个解码器结构对称是编码器的镜像。每个解码器以20维的潜在向量zk为输入经过与编码器反向的全连接层300 400 500 600 700神经元最终通过一个Sigmoid激活函数的输出层重构出8576维的源信号时频幅度估计Ŝk。两个解码器的输出相加应尽可能接近输入的混合时频幅度。训练细节使用Adam优化器学习率设为0.001。损失函数即ELBO其中重构损失采用L1损失拉普拉斯似然KL散度权重β按前述策略设置。这个结构足够深能够捕捉信号的高维特征同时又通过BN和合适的激活函数保证了训练的可行性。两个独立解码器的设计是物理上实现信号分离的关键它们被迫从共享的潜在空间中学习并重构出不同的信号成分。4. 分离效果优化器掩码技术的深入解析与应用VAE解码器直接输出的时频图Dk(t f)可以看作是模型对第k个源信号幅度的一个“粗糙估计”。直接对其做逆STFT得到的时域信号往往包含残留噪声或来自另一信号的泄漏。掩码技术的核心思想是利用这个粗糙估计Dk(t f)结合原始的混合时频谱X(t f)计算一个介于0到1之间的权重矩阵即掩码然后将其作用于原始的混合时频谱或其幅度/相位从而“过滤”出更纯净的源信号估计。我们系统性地评估了两种现有掩码和三种我们新提出的掩码其公式和设计动机如下Mask 1 (比例掩码)Ŝk ISTFT( (Dk / ΣDk) ⊙ |X|_N ⊙ e^(j·phase(X)) )这是最直观的掩码将每个解码器输出归一化作为从混合信号中分配能量的权重。它假设解码器输出能相对准确地反映各信号分量在时频点上的能量占比。Mask 2 (维纳滤波掩码)Ŝk ISTFT( (Dk² / ΣDk²) ⊙ |X|_N ⊙ e^(j·phase(X)) )在Mask 1的基础上对Dk取平方这类似于维纳滤波的思想更强调强分量能进一步抑制噪声和弱泄漏在信噪比较高时效果更好。Mask 3 (高次幂阈值掩码)Ŝk ISTFT( Mk ⊙ (Dk⁴ / ΣDk⁴) ⊙ |X|_N ⊙ e^(j·phase(X)) )这是我们提出的改进。将Dk提升到4次方能更大程度地放大主导信号、抑制次要信号。同时引入一个阈值矩阵Mk将Dk中大于某阈值如0.1的值置1小于该值的置0。这个操作相当于一个二值化门限能极其有效地在低信噪比下剔除背景噪声只保留确信度高的信号区域。Mask 4 (二值化硬掩码)Ŝk ISTFT( Gk ⊙ X ) 其中Gk由(Dk / ΣDk) ⊙ |X|_N二值化得到。 这是一种更“硬”的掩码。它直接对归一化的能量权重进行二值化生成一个0/1矩阵然后与原始的复数混合频谱X相乘。这种方法在信号频域不重叠时非常干净利落但如果频域有重叠硬切割会导致严重的频谱泄漏和失真。Mask 5 (直接相位复用)Ŝk ISTFT( Dk ⊙ e^(j·phase(X)) )这是复杂度最低的方法。直接使用解码器输出的幅度Dk配上混合信号的相位phase(X)进行逆变换。它完全依赖于VAE对幅度谱的估计质量。我们发现对于LFM这类结构简单的雷达信号该方法效果出奇地好且计算量最小但对于4-ASK这类复杂通信信号效果较差。实操心得掩码选择指南经过大量测试我们总结出以下经验对于数据通信信号如4-ASK在低信噪比环境下Mask 3带阈值是首选。其高次幂和阈值处理能强力抑制噪声显著提升SDR和SAR。在高信噪比下Mask 1、2、3无阈值性能接近可根据计算资源选择。对于雷达感知信号如LFMMask 5是性价比最高的选择。因为LFM信号在时频图上结构清晰、连续VAE能很好地估计其幅度谱直接复用相位即可获得高质量重构省去了复杂的掩码计算。当信号仅在时域混合、频域分离良好时可以尝试Mask 4它能得到非常干净的分离结果但前提是频域必须几乎没有重叠。阈值的选择阈值通常设置在0.1到0.3之间需要通过验证集进行微调。过高的阈值会损失信号细节过低则去噪效果不佳。5. 性能对决VAE vs. 传统BSS算法我们设计了两个核心场景来全面评估VAE与传统BSS算法如FastICA JADE SOBI等的性能。5.1 场景一时频域双重混叠的“地狱难度”在这个场景下LFM信号中心频率0MHz带宽10MHz与4-ASK信号中心频率2MHz的频带发生部分重叠。这意味着在时频图上两者完全交织在一起是分离任务中最困难的情况。实验结果分析低信噪比SNR 15 dB是VAE的绝对主场。以0 dB SNR为例VAE采用Mask 3在恢复LFM信号时其信号失真比达到了13.5 dB而表现最好的传统BSS方法SOBI仅为2.4 dBVAE带来了超过11 dB的惊人增益。对于4-ASK信号VAE也取得了约6 dB的SDR增益。这充分证明了VAE生成模型在强噪声环境下通过学习数据底层分布所带来的鲁棒性优势。高信噪比下的性能饱和。当SNR高于15 dB后VAE的性能提升曲线变得平缓而传统BSS方法的性能则持续改善并逐渐接近甚至在某些指标上超越VAE。这是因为在高信噪比下信号本身很强噪声干扰变小此时信号间相互干扰互耦成为主要矛盾。由于信号在时频域完全重叠这种互耦非常严重而VAE在训练时可能没有充分学习到这种极端干扰模式导致其分离性能遇到瓶颈。相反基于统计独立性的BSS方法在信号纯净时其理论假设更接近实际情况因此能发挥更好。掩码的威力对比VAE直接输出和使用Mask 30.1阈值的结果SDR有1-3 dB的提升SAR源与伪影比提升更明显。这说明掩码后处理对于提升最终输出信号质量尤其是减少分离引入的人为伪影至关重要。5.2 场景二仅时域混叠的“标准难度”在此场景下LFM信号中心频率0MHz与4-ASK信号中心频率12MHz在频域上是分离的仅在时域叠加。这模拟了频谱资源分配良好但时间上同步传输的情况。实验结果分析VAE全面碾压。在这个相对简单的场景下VAE在所有信噪比水平上均大幅领先传统BSS方法。例如在10 dB SNR时VAE恢复LFM和4-ASK信号的SDR分别达到24.6 dB和16.7 dB而ExComplexFastICA仅分别为10.5 dB和11.6 dBVAE取得了14 dB和5 dB的领先优势。原因解读当时频图上的信号已经具备较好的可分性时VAE强大的特征提取和重构能力得以完美发挥。它能够清晰地学习到两种信号在时频图上的独特“纹理”LFM的斜线 vs. 4-ASK的块状纹理并准确地进行分离和去噪。而传统BSS方法在处理这种虽不重叠但统计特性可能仍有关联的信号时其分离上限本身就不如基于深度学习的VAE。计算复杂度对比我们记录了各方法的平均分离时间。JADE和SOBI最快仅需毫秒级ExComplexFastICA和ACMNysm次之我们提出的VAE方法含掩码和逆STFT耗时约63毫秒CQAMsym最慢达127毫秒。VAE的耗时主要在前向传播计算虽然比最快的BSS方法慢一个数量级但在许多实时性要求不极端的JCR应用如车辆环境感知更新率在10-100Hz中是可接受的其带来的性能提升是值得的。6. 实战扩展利用VAE进行同频干扰检测JCR系统在实际工作中还可能遇到来自其他设备的同频段干扰信号。我们探索了将训练好的VAE模型用于干扰检测的可能性。方法步骤正常分离将接收到的含干扰的混合信号假设包含LFM、4-ASK和干扰信号输入VAE。由于VAE只训练过分离两个信号它的两个解码器会尽力去解释混合信号通常会将能量最强的两个主要成分LFM和4-ASK分离出来。重构“干净”混合将两个解码器的输出相加并归一化得到VAE所“认为”的、不含干扰的“干净”混合信号的时频幅度估计。生成干扰掩码将上述“干净”混合时频幅度与原始混合信号的归一化幅度进行比较。在“干净”估计中能量很低小于阈值如0.1但在原始混合中能量较高的时频点就很可能是干扰信号所在的位置。据此生成一个二值干扰掩码Ik。提取干扰将此掩码应用于原始的复数混合频谱X(t f)再进行逆STFT即可得到估计的干扰信号时域波形。我们在混合信号中加入巴克码波形作为干扰进行测试。实验表明该方法能以约91%的准确率检测并提取出干扰信号。那9%的失误主要发生在干扰信号的中心频率与训练集中某个源信号频率巧合地接近时VAE可能会将其误判为已知信号的一部分。这提示我们在训练阶段引入更多样化的干扰信号样本可以进一步提升模型的干扰识别与抑制能力。7. 避坑指南与参数调优经验在实际复现或应用此方法时以下几个坑点需要特别注意训练数据的关键性VAE的性能极度依赖于训练数据是否具有代表性。必须确保训练集覆盖了所有可能遇到的信号类型如不同调制方式、频偏范围、信噪比范围以及信号功率比。如果实际应用中存在训练时未出现的信号模式如一种新的雷达波形模型性能可能会显著下降。建议采用数据增强技术如添加随机频偏、时延、幅度缩放等来扩充训练集提升模型鲁棒性。β值的选择与“热身”策略β值控制着解耦的强度。β太小如接近0模型退化为普通自编码器分离效果差β太大如远大于10重构质量会严重下降导致输出信号失真。我们采用从0线性增加到目标值如10的“热身”策略是稳定训练、避免后验坍塌的标准操作。可以尝试不同的增长周期如5 10 20个epoch以找到最优设置。潜在空间维度Dz的设定Dz是每个源信号对应的潜在向量维度。并非越大越好。维度太低模型表达能力不足无法有效编码信号特征维度太高不仅增加计算量还可能导致过拟合或让模型学到一些无关的噪声特征。我们通过实验发现对于本文中的LFM和4-ASK信号Dz20是一个较好的平衡点。对于更复杂的信号可能需要适当增加。STFT参数的影响短时傅里叶变换的窗长、窗类型和重叠率直接影响时频图的分辨率和特征。窗长太短频率分辨率低LFM的斜线特征会变模糊窗长太长时间分辨率低4-ASK的突发特征会变平滑。我们经过测试选择了能较好权衡两者的一组参数。在实际应用中需要根据待处理信号的具体参数如带宽、符号速率重新调整STFT参数。低信噪比下的过拟合在极低信噪比下训练时模型容易学习到噪声的特定模式而非信号本身导致在未见过的噪声样本上表现差。解决方法在训练数据中使用多样化的噪声样本不仅限于高斯白噪声可加入色噪声、脉冲噪声等并采用早停法根据验证集性能而非训练集损失来决定停止训练的时机。基于变分自编码器的信号分离方案为复杂电磁环境下联合系统的信号处理打开了一扇新的大门。它不再依赖于苛刻的统计假设而是让数据自己“说话”通过深度网络学习信号的本质特征。尽管在计算效率上略逊于传统算法但其在低信噪比和复杂混叠场景下展现出的强大鲁棒性和优异性能使其在车联网、无人机感知通信一体化等对可靠性要求极高的应用中具有不可替代的潜力。未来的工作可以着眼于设计更轻量化的网络结构、探索在线自适应学习机制或者正如原文所展望的研究VAE与传统BSS方法的混合模型以期在性能与效率之间找到更完美的平衡点。