1. 项目概述面向未来的高效Turbo解码器设计在无线通信的物理层前向纠错FEC技术是确保数据在嘈杂信道中可靠传输的基石。Turbo码自诞生以来因其卓越的性能和灵活的码率长期占据着LTE等标准的核心地位。然而随着5G向6G演进以及机器对机器M2M、车联网V2X等新应用场景的涌现对解码器的吞吐量、延迟和能效提出了近乎苛刻的要求。传统的最大后验概率MAP类算法虽然性能优异但其内在的递归计算和数据依赖特性严重制约了硬件并行化的潜力成为提升吞吐量的主要瓶颈。面对这一挑战单纯优化算法或硬件架构往往收效有限。真正的突破点在于软硬件的协同设计与深度优化。这就像为一座复杂的工厂设计生产线不仅要改进单个机器的效率算法更要重新规划整个物料流转和工序衔接的流程架构与调度才能实现整体产能的飞跃。本文要探讨的正是这样一个从算法革新到架构创新的完整解决方案。我们聚焦于两个核心技术一是双面局部软输出维特比算法DS-LSOVA它从算法层面大幅简化了外信息计算这一关键步骤的复杂度二是迭代重叠交织器它从架构层面重构了数据流使得解码流水线中的前后半迭代能够无缝衔接、并行工作。两者的结合旨在为下一代高吞吐、低延迟通信系统打造一颗更强劲、更高效的“纠错心脏”。无论你是从事通信基带算法设计的工程师还是专注于高性能数字电路实现的架构师亦或是关注前沿编码技术的研究者这篇文章都将为你提供一个从理论原理到硬件实现细节的完整视角。我们将深入拆解DS-LSOVA如何巧妙地重构计算路径以降低复杂度剖析迭代重叠交织器如何通过精心设计消除数据依赖以实现真正的流水线满载并最终展示这些创新如何在22纳米工艺下转化为高达22%的面积效率提升。这是一次对Turbo解码器性能边界的实质性推进。2. 核心算法演进从Max-Log-MAP到DS-LSOVA要理解DS-LSOVA的价值我们必须先回到Turbo解码的核心战场。传统上Max-Log-MAPMLM算法因其在性能和复杂度间的良好平衡而被广泛采用。它通过在码网格图Trellis上进行前向α和反向β递归计算并结合分支度量γ最终计算出每个比特的后验概率对数似然比LLR。这个过程虽然被高度优化但其计算外信息即两个分量译码器之间交换的软信息的部分仍然涉及大量的比较、选择和加法操作尤其是在高基数Radix-2^r解码时复杂度会显著上升。2.1 Local-SOVALSOVA的破局思路LSOVA算法的提出是一次计算范式的重要转变。它不再严格遵循MLM那种基于网格状态State的递归计算框架而是转向基于路径Path的合并操作。你可以把MLM看作是在网格的每个节点上精确计算到达该节点的最优路径度量而LSOVA则是在一小段网格例如跨越k步上同时维护多条候选路径及其可靠性信息。LSOVA将一段网格上的解码过程抽象为对多个路径对象的“合并”Merge操作。每条路径包含三个要素路径度量值M代表该路径的优劣、硬判决序列u代表这段网格对应的解码比特、以及可靠性向量L代表每个硬判决比特的可靠程度。核心的“合并”操作接收两条路径输出一条新路径其规则是新路径的度量值取两者中的最大值即更优的路径硬判决序列继承自获胜路径而可靠性值则根据Hagenauer规则或Battail规则进行更新。这个合并操作的关键特性是满足交换律和结合律这意味着合并的顺序可以灵活安排为硬件优化打开了大门。通过巧妙的计算重排LSOVA将操作分为两个阶段加-比-选ACS阶段和软输出单元SOU阶段。在ACS阶段它将终点状态相同的路径先行合并这个操作可以隐式地完成前向状态度量α的计算。经过ACS阶段后每个网格状态只剩下一条最优路径。随后在SOU阶段这些来自不同状态的路径再被进一步合并最终产生软输出。由于ACS阶段已经完成了大量规约SOU阶段需要处理的路径数量仅与卷积码的约束长度ν有关而与解码的基数Radix无关这相比MLM是一个显著的复杂度降低。2.2 DS-LSOVA双向计算的精妙平衡DS-LSOVA在LSOVA的基础上更进一步。LSOVA的路径合并主要发生在反向度量计算过程中用于生成软输出。DS-LSOVA的核心思想是既然我们已经构建了一个用于合并路径的比较树何不物尽其用让它同时服务于前向和反向两个方向的计算具体来说DS-LSOVA修改了ACS阶段的合并规则。它不再在每次合并中都更新全部的可靠性值L和硬判决u而是采用了一种交替更新的策略。在偶数步或根据设计在特定的方向的前向ACS合并中计算并更新一部分比特的可靠性和判决在奇数步或另一方向的反向ACS合并中计算并更新剩余部分。这样从整体计算量上看ACS阶段的复杂度与LSOVA保持持平。真正的增益体现在SOU阶段。在LSOVA中SOU需要处理来自ACS阶段的一条“获胜”路径。而在DS-LSOVA中SOU同时接收来自前向ACS和反向ACS的两条“获胜”路径。它将这两条路径的度量值相加并将它们的硬判决向量和初步可靠性向量拼接起来形成一条跨越了两倍网格步长的“扩展路径”。然后它在这个扩展的路径集合上执行与LSOVA类似的树状合并操作。虽然合并的层数由ν决定没有减少但一次SOU操作同时完成了传统上需要两次计算分别对应前向和反向贡献才能完成的外信息生成工作。注意这里的“双向”并非指同时进行完全独立的前向和反向解码而是指在单次SOU计算中同时利用了前向和反向递归过程中产生的路径信息。这种设计避免了为两个方向分别构建独立的SOU比较树从而减少了硬件中比较器单元的总数量。这种设计带来的直接好处是硬件面积的节约。由于SOU是解码器中的关键计算单元其数量的减半相比于为每个网格步配置独立SOU的传统MLM架构能带来显著的面积收益。更重要的是这种面积节省是在不牺牲解码性能的前提下实现的。论文中的仿真结果表明DS-LSOVA的误帧率FER性能与传统的Max-Log-MAP算法基本吻合这对于追求极致能效的硬件设计而言是一个极具吸引力的权衡。3. 架构创新迭代重叠交织器与全流水线调度算法优化解决了计算单元内部的效率问题而要进一步提升整个解码系统的吞吐量和降低延迟就必须在系统架构和数据调度上下功夫。传统的全流水线迭代展开UXMAP解码器架构通过实例化多个半迭代HI流水线级来实现高通量但半迭代之间由于存在交织Interleaving和解交织De-interleaving操作会引入数据依赖和流水线气泡Bubble。3.1 迭代重叠的核心挑战与思路在UXMAP解码器中一个帧被分成多个窗口Window并行处理。第j个半迭代HI_j产生的用于下一个半迭代HI_{j1}的外信息Extrinsic Information必须经过交织器重新排序后才能被HI_{j1}使用。由于交织器的置换特性某个比特i的外信息在HI_j中产生的时刻生成时间G_UX(i)可能晚于它在HI_{j1}中被需要的时刻消费时间C_UX(i)。这就产生了先写后读Read-After-Write冲突为了满足这个时序约束架构中不得不插入延迟寄存器Delay Line来对齐数据导致流水线无法满负荷运转增加了整体解码延迟。迭代重叠Iteration Overlap的目标就是消除这些延迟让HI_{j1}在HI_j完成整个窗口处理之前就能开始工作实现真正的“背靠背”流水。这要求交织器的设计必须满足特定的前驱约束Precedence Constraint对于所有比特位置i其在HI_{j1}中的消费时间必须不早于在HI_j中的生成时间即 C_UX(i) - G_UX(i) 0。3.2 基于图样Protograph的ARP交织器设计为了实现这一目标论文采用了几乎规则置换ARP交织器并引入了一种基于图样Protograph的设计方法。ARP交织器的置换规则由三个参数定义一个与帧长K互质的整数P一个移位向量S和一个无序度Q。其索引映射公式为Π_ARP(i) (P * i S(i mod Q)) mod K。这里的核心是将交织器操作“分层”。将帧中的比特划分为Q个层Layer每层包含K/Q个比特。ARP交织器的特性保证了在交织前后比特所在的层号之间存在一个确定的映射关系。这个层与层之间的连接关系可以用一个二分图Bipartite Graph来表示这就是所谓的“图样”。论文的创新在于将迭代重叠所需的前驱约束公式22嵌入到这个图样的设计过程中。具体方法是将图样中的层数Q设置为等于UXMAP解码器的窗口大小WS。然后在搜索和优化ARP参数P, S时强制要求对于每一层l其在交织后映射到的层号Π(l) mod Q必须大于或等于其原始层号l mod Q。这个条件直观上保证了一个比特在非交织半迭代HI_j中总是先于其在交织半迭代HI_{j1}中所对应的位置被处理完毕从而满足了前驱约束使得外信息可以“生产即消费”无需等待。3.3 重叠架构带来的硬件收益当使用这种特制的“重叠交织器”时UXMAP解码器的硬件架构可以得到简化。在非重叠架构中每个X-Window处理一个窗口的计算单元的输入和输出都需要配备延迟线以协调交织带来的时序错位。而在重叠架构中除了第一个HI的输入和最后一个HI的输出仍需少量延迟用于帧同步外中间所有HI级之间的延迟线都可以被移除。HI_j的X-Window输出可以直接通过硬连线的交织/解交织网络送入HI_{j1}的X-Window输入。这种移除带来了双重好处一是降低了解码延迟因为数据在流水线中流动得更快二是减少了硬件面积因为大量的寄存器用于实现延迟线被节省下来。面积节省直接转化为更高的面积效率Throughput per mm²。论文的实现结果表明启用迭代重叠后在不同配置下能带来6%到11.5%的面积效率提升。实操心得设计重叠交织器时需要在“重叠能力”和“交织器随机性”之间进行权衡。为了满足严格的前驱约束交织器的设计自由度会受到限制这可能会轻微影响其搅乱比特顺序、打破错误图案的能力从而对纠错性能产生微小影响。论文中在窗口大小WS32、帧长K128的配置下观察到了约0.25 dB的性能损失。因此在实际系统设计中需要根据目标帧长、窗口大小和可接受的性能损失来谨慎选择交织器参数。对于较大的帧长这种约束对随机性的影响通常会更小。4. 硬件架构实现细节与设计折衷将DS-LSOVA算法与迭代重叠架构相结合需要精心设计相应的硬件模块。图6b-d清晰地展示了基于MLM、LSOVA和DS-LSOVA的X-Window架构差异这些差异直接反映了算法特性在硬件上的映射。4.1 各算法对应的X-Window架构剖析MLM基准架构图6b这是传统的、非重叠的参考设计。每个网格步Trellis Step包含独立的前向递归单元、反向递归单元和软输出计算单元。为了在一个滑动窗口内同时进行前向和反向计算并避免在窗口内传递分支度量架构中实例化了两个分支度量计算单元。此外图中标为1和2的流水线段是关键的延迟单元。1用于在窗口内部传递和同步信道LLR、外信息和状态度量2则用于在X-Window的输入/输出端对齐数据以应对交织带来的时序问题。这些延迟是满足非重叠调度所必需的。LSOVA架构图6c它在MLM架构的基础上修改而来。主要变化发生在窗口的右半部分反向递归部分这里的递归单元被替换为LSOVA特有的ACS单元。同时软输出单元也替换为基于路径合并的LSOVA SOU。我们在之前的工作[12]中已经证实LSOVA的计算单元ACS和SOU相比等价的MLM单元状态度量计算和LLR计算能节省可观的面积。因此本实现直接采用了那些经过优化的LSOVA计算单元IP。DS-LSOVA架构图6d这是本文提出的新架构。其最显著的特征是前向和反向递归单元采用了交替结构——一部分是LSOVA ACS单元另一部分是传统的MLM递归单元。这是因为DS-LSOVA算法要求在前向和反向ACS中交替更新可靠性信息。另一个关键区别在于图中标为1的流水线所承载的数据类型发生了变化。在MLM和LSOVA中这些流水线传递的是状态度量α β而在DS-LSOVA中它们传递的是完整的路径信息三元组M L u因为后续的SOU需要这些信息来进行双向路径合并。最大的面积节省来源于SOU数量减半。由于一个DS-LSOVA SOU能同时处理前向和反向的信息因此只需要配置传统数量一半的SOU实例即可。4.2 重叠架构的硬件简化当为重叠调度设计解码器时硬件可以得到进一步简化。如图4(b)所示在完全重叠的情况下HI_{j1}几乎紧跟着HI_j开始。此时图6中所有X-Window的输入/输出延迟线即标为2的部分都可以被移除。第一个HI的输入仍需缓冲以接收完整的帧数据最后一个HI的输出也需要缓冲以输出最终硬判决但中间所有HI级之间外信息和信道值可以直接从一个X-Window输出经过交织网络直接馈入下一个X-Window的输入。然而窗口内部用于同步状态/路径度量、信道值和内/外信息的流水线标为1的部分仍然需要保留因为它们用于窗口内部的滑动计算。这种简化直接转化为芯片面积的减少。移除这些全局的延迟寄存器阵列对于包含多个HI级的高并行度解码器来说面积节省是非常可观的。4.3 设计中的关键权衡与选择在实际实现中需要根据系统需求做出多项权衡窗口大小WS与帧长K的选择WS越大并行度越高理论上吞吐量越大。但WS增大会带来两个问题一是每个X-Window的内部逻辑更复杂面积更大二是如前所述对于固定的K更大的WS会给重叠交织器的设计带来更严格的约束可能损害交织器的随机性和最终的纠错性能。因此WS通常选择为K的约数并且需要仿真验证在目标信噪比下的FER性能。基数Radix的选择高基数如Radix-4 Radix-8解码能减少处理一个帧所需的时钟周期数从而降低延迟。但高基数意味着每个时钟周期要处理更多的网格分支计算单元如ACS的复杂度会呈指数增长显著增加关键路径延迟和面积。因此在追求高时钟频率的设计中Radix-4是一个常用的平衡点。论文中的所有实现均基于Radix-4。算法选择MLM vs. LSOVA vs. DS-LSOVAMLM成熟、性能稳定是可靠的基准但计算复杂度最高。LSOVA在保持与MLM相近性能的前提下通过算法重构降低了SOU的复杂度适合作为降低面积的直接替代方案。DS-LSOVA在LSOVA的基础上通过复用计算资源进一步优化面积是追求极致面积效率时的优选。但其架构稍显复杂交替的递归单元且性能需要在具体配置下仔细验证。5. 性能评估与结果分析论文在22纳米工艺节点上使用Synopsys Design Compiler对上述多种架构组合进行了综合以评估其面积效率。表3汇总了关键结果我们可以从中得出几个核心结论。5.1 面积效率的综合对比首先看算法层面的对比。在相同的帧长K128和窗口大小WS16配置下DS-LSOVA相比基准的MLM实现了约17%的面积节省。这充分证明了DS-LSOVA在降低计算复杂度方面的有效性。LSOVA作为中间方案其面积效率也优于MLM但略逊于DS-LSOVA约3%的差距。值得注意的是当窗口大小增大到WS32时DS-LSOVA相对于LSOVA的面积优势变得非常微小甚至略有劣势。这可能是因为在更大的窗口下DS-LSOVA中用于传递完整路径信息的内部流水线图6d中的(1)开销增大抵消了SOU数量减半带来的收益。其次看重叠架构带来的收益。在所有算法MLM LSOVA DS-LSOVA和配置下启用迭代重叠后面积效率均有提升提升幅度从6%到11.5%不等。这清晰地表明通过定制交织器消除流水线气泡是一种非常有效的硬件优化手段。最强的组合出现在DS-LSOVA与迭代重叠的结合上。以K128 WS16的配置为例采用重叠架构的DS-LSOVA解码器相比非重叠的基准MLM解码器实现了高达22%的面积效率提升。这意味着在相同的芯片面积下新设计的解码器能提供高出22%的吞吐量或者说在满足相同吞吐量需求时可以节省22%的芯片面积。这对于面积敏感的移动设备或需要集成大量解码器核心的基站芯片来说价值巨大。5.2 纠错性能验证任何硬件优化都不能以牺牲核心的纠错能力为代价。图5的误帧率FER曲线提供了性能保证。可以看到DS-LSOVA vs. MLM在相同的交织器无论是LTE标准QPP交织器还是论文设计的重叠交织器和迭代次数下DS-LSOVA的FER曲线与MLM几乎完全重合。这从根本上证明了DS-LSOVA算法在性能上是MLM的可行替代品其面积优化没有付出性能代价。重叠交织器 vs. LTE QPP交织器对于WS16的配置论文设计的重叠交织器与LTE标准交织器性能完全一致。对于WS32 K128的配置重叠交织器在FER10^-4处出现了约0.25 dB的损失。正如前文所分析的这是由于在较小的帧长下为了满足严格的重叠约束交织器的设计自由度受限导致其随机性略有下降。对于更大的帧长如K256这种性能损失预计会减小或消失。5.3 对实际系统设计的启示这些结果对面向5G-Advanced/6G、M2M、V2X的系统设计具有明确的指导意义对于超高吞吐量场景如基站接收机应优先考虑采用DS-LSOVA算法与迭代重叠架构的组合并选择适当的窗口大小如WS16。这能在保证与标准算法同等纠错能力的前提下最大化硬件资源利用率应对Tb/s量级的解码需求。对于面积和能效极度敏感的场景如物联网终端LSOVA是一个稳健的选择它在算法复杂度和硬件实现复杂度之间取得了很好的平衡且已被证明具有可靠的性能。交织器选择如果系统延迟要求极高必须采用重叠调度那么就需要使用定制的重叠交织器。在设计时需要根据帧长和性能目标通过仿真确定可接受的窗口大小WS以平衡重叠带来的硬件收益与可能存在的微小性能损失。如果延迟要求不那么苛刻使用成熟的QPP等标准交织器是更简单安全的选择。这项工作的价值在于它提供了一套完整的、经过硬件验证的优化工具箱。从算法DS-LSOVA到调度迭代重叠再到交织器设计基于图样的ARP最后到具体的硬件架构实现形成了一条贯穿软硬件的协同优化路径。它证明了通过深度的跨层设计即使是被认为难以并行的Turbo解码依然能在新一代通信系统中焕发强大的生命力。
从Max-Log-MAP到DS-LSOVA:Turbo解码器的算法革新与硬件架构优化
1. 项目概述面向未来的高效Turbo解码器设计在无线通信的物理层前向纠错FEC技术是确保数据在嘈杂信道中可靠传输的基石。Turbo码自诞生以来因其卓越的性能和灵活的码率长期占据着LTE等标准的核心地位。然而随着5G向6G演进以及机器对机器M2M、车联网V2X等新应用场景的涌现对解码器的吞吐量、延迟和能效提出了近乎苛刻的要求。传统的最大后验概率MAP类算法虽然性能优异但其内在的递归计算和数据依赖特性严重制约了硬件并行化的潜力成为提升吞吐量的主要瓶颈。面对这一挑战单纯优化算法或硬件架构往往收效有限。真正的突破点在于软硬件的协同设计与深度优化。这就像为一座复杂的工厂设计生产线不仅要改进单个机器的效率算法更要重新规划整个物料流转和工序衔接的流程架构与调度才能实现整体产能的飞跃。本文要探讨的正是这样一个从算法革新到架构创新的完整解决方案。我们聚焦于两个核心技术一是双面局部软输出维特比算法DS-LSOVA它从算法层面大幅简化了外信息计算这一关键步骤的复杂度二是迭代重叠交织器它从架构层面重构了数据流使得解码流水线中的前后半迭代能够无缝衔接、并行工作。两者的结合旨在为下一代高吞吐、低延迟通信系统打造一颗更强劲、更高效的“纠错心脏”。无论你是从事通信基带算法设计的工程师还是专注于高性能数字电路实现的架构师亦或是关注前沿编码技术的研究者这篇文章都将为你提供一个从理论原理到硬件实现细节的完整视角。我们将深入拆解DS-LSOVA如何巧妙地重构计算路径以降低复杂度剖析迭代重叠交织器如何通过精心设计消除数据依赖以实现真正的流水线满载并最终展示这些创新如何在22纳米工艺下转化为高达22%的面积效率提升。这是一次对Turbo解码器性能边界的实质性推进。2. 核心算法演进从Max-Log-MAP到DS-LSOVA要理解DS-LSOVA的价值我们必须先回到Turbo解码的核心战场。传统上Max-Log-MAPMLM算法因其在性能和复杂度间的良好平衡而被广泛采用。它通过在码网格图Trellis上进行前向α和反向β递归计算并结合分支度量γ最终计算出每个比特的后验概率对数似然比LLR。这个过程虽然被高度优化但其计算外信息即两个分量译码器之间交换的软信息的部分仍然涉及大量的比较、选择和加法操作尤其是在高基数Radix-2^r解码时复杂度会显著上升。2.1 Local-SOVALSOVA的破局思路LSOVA算法的提出是一次计算范式的重要转变。它不再严格遵循MLM那种基于网格状态State的递归计算框架而是转向基于路径Path的合并操作。你可以把MLM看作是在网格的每个节点上精确计算到达该节点的最优路径度量而LSOVA则是在一小段网格例如跨越k步上同时维护多条候选路径及其可靠性信息。LSOVA将一段网格上的解码过程抽象为对多个路径对象的“合并”Merge操作。每条路径包含三个要素路径度量值M代表该路径的优劣、硬判决序列u代表这段网格对应的解码比特、以及可靠性向量L代表每个硬判决比特的可靠程度。核心的“合并”操作接收两条路径输出一条新路径其规则是新路径的度量值取两者中的最大值即更优的路径硬判决序列继承自获胜路径而可靠性值则根据Hagenauer规则或Battail规则进行更新。这个合并操作的关键特性是满足交换律和结合律这意味着合并的顺序可以灵活安排为硬件优化打开了大门。通过巧妙的计算重排LSOVA将操作分为两个阶段加-比-选ACS阶段和软输出单元SOU阶段。在ACS阶段它将终点状态相同的路径先行合并这个操作可以隐式地完成前向状态度量α的计算。经过ACS阶段后每个网格状态只剩下一条最优路径。随后在SOU阶段这些来自不同状态的路径再被进一步合并最终产生软输出。由于ACS阶段已经完成了大量规约SOU阶段需要处理的路径数量仅与卷积码的约束长度ν有关而与解码的基数Radix无关这相比MLM是一个显著的复杂度降低。2.2 DS-LSOVA双向计算的精妙平衡DS-LSOVA在LSOVA的基础上更进一步。LSOVA的路径合并主要发生在反向度量计算过程中用于生成软输出。DS-LSOVA的核心思想是既然我们已经构建了一个用于合并路径的比较树何不物尽其用让它同时服务于前向和反向两个方向的计算具体来说DS-LSOVA修改了ACS阶段的合并规则。它不再在每次合并中都更新全部的可靠性值L和硬判决u而是采用了一种交替更新的策略。在偶数步或根据设计在特定的方向的前向ACS合并中计算并更新一部分比特的可靠性和判决在奇数步或另一方向的反向ACS合并中计算并更新剩余部分。这样从整体计算量上看ACS阶段的复杂度与LSOVA保持持平。真正的增益体现在SOU阶段。在LSOVA中SOU需要处理来自ACS阶段的一条“获胜”路径。而在DS-LSOVA中SOU同时接收来自前向ACS和反向ACS的两条“获胜”路径。它将这两条路径的度量值相加并将它们的硬判决向量和初步可靠性向量拼接起来形成一条跨越了两倍网格步长的“扩展路径”。然后它在这个扩展的路径集合上执行与LSOVA类似的树状合并操作。虽然合并的层数由ν决定没有减少但一次SOU操作同时完成了传统上需要两次计算分别对应前向和反向贡献才能完成的外信息生成工作。注意这里的“双向”并非指同时进行完全独立的前向和反向解码而是指在单次SOU计算中同时利用了前向和反向递归过程中产生的路径信息。这种设计避免了为两个方向分别构建独立的SOU比较树从而减少了硬件中比较器单元的总数量。这种设计带来的直接好处是硬件面积的节约。由于SOU是解码器中的关键计算单元其数量的减半相比于为每个网格步配置独立SOU的传统MLM架构能带来显著的面积收益。更重要的是这种面积节省是在不牺牲解码性能的前提下实现的。论文中的仿真结果表明DS-LSOVA的误帧率FER性能与传统的Max-Log-MAP算法基本吻合这对于追求极致能效的硬件设计而言是一个极具吸引力的权衡。3. 架构创新迭代重叠交织器与全流水线调度算法优化解决了计算单元内部的效率问题而要进一步提升整个解码系统的吞吐量和降低延迟就必须在系统架构和数据调度上下功夫。传统的全流水线迭代展开UXMAP解码器架构通过实例化多个半迭代HI流水线级来实现高通量但半迭代之间由于存在交织Interleaving和解交织De-interleaving操作会引入数据依赖和流水线气泡Bubble。3.1 迭代重叠的核心挑战与思路在UXMAP解码器中一个帧被分成多个窗口Window并行处理。第j个半迭代HI_j产生的用于下一个半迭代HI_{j1}的外信息Extrinsic Information必须经过交织器重新排序后才能被HI_{j1}使用。由于交织器的置换特性某个比特i的外信息在HI_j中产生的时刻生成时间G_UX(i)可能晚于它在HI_{j1}中被需要的时刻消费时间C_UX(i)。这就产生了先写后读Read-After-Write冲突为了满足这个时序约束架构中不得不插入延迟寄存器Delay Line来对齐数据导致流水线无法满负荷运转增加了整体解码延迟。迭代重叠Iteration Overlap的目标就是消除这些延迟让HI_{j1}在HI_j完成整个窗口处理之前就能开始工作实现真正的“背靠背”流水。这要求交织器的设计必须满足特定的前驱约束Precedence Constraint对于所有比特位置i其在HI_{j1}中的消费时间必须不早于在HI_j中的生成时间即 C_UX(i) - G_UX(i) 0。3.2 基于图样Protograph的ARP交织器设计为了实现这一目标论文采用了几乎规则置换ARP交织器并引入了一种基于图样Protograph的设计方法。ARP交织器的置换规则由三个参数定义一个与帧长K互质的整数P一个移位向量S和一个无序度Q。其索引映射公式为Π_ARP(i) (P * i S(i mod Q)) mod K。这里的核心是将交织器操作“分层”。将帧中的比特划分为Q个层Layer每层包含K/Q个比特。ARP交织器的特性保证了在交织前后比特所在的层号之间存在一个确定的映射关系。这个层与层之间的连接关系可以用一个二分图Bipartite Graph来表示这就是所谓的“图样”。论文的创新在于将迭代重叠所需的前驱约束公式22嵌入到这个图样的设计过程中。具体方法是将图样中的层数Q设置为等于UXMAP解码器的窗口大小WS。然后在搜索和优化ARP参数P, S时强制要求对于每一层l其在交织后映射到的层号Π(l) mod Q必须大于或等于其原始层号l mod Q。这个条件直观上保证了一个比特在非交织半迭代HI_j中总是先于其在交织半迭代HI_{j1}中所对应的位置被处理完毕从而满足了前驱约束使得外信息可以“生产即消费”无需等待。3.3 重叠架构带来的硬件收益当使用这种特制的“重叠交织器”时UXMAP解码器的硬件架构可以得到简化。在非重叠架构中每个X-Window处理一个窗口的计算单元的输入和输出都需要配备延迟线以协调交织带来的时序错位。而在重叠架构中除了第一个HI的输入和最后一个HI的输出仍需少量延迟用于帧同步外中间所有HI级之间的延迟线都可以被移除。HI_j的X-Window输出可以直接通过硬连线的交织/解交织网络送入HI_{j1}的X-Window输入。这种移除带来了双重好处一是降低了解码延迟因为数据在流水线中流动得更快二是减少了硬件面积因为大量的寄存器用于实现延迟线被节省下来。面积节省直接转化为更高的面积效率Throughput per mm²。论文的实现结果表明启用迭代重叠后在不同配置下能带来6%到11.5%的面积效率提升。实操心得设计重叠交织器时需要在“重叠能力”和“交织器随机性”之间进行权衡。为了满足严格的前驱约束交织器的设计自由度会受到限制这可能会轻微影响其搅乱比特顺序、打破错误图案的能力从而对纠错性能产生微小影响。论文中在窗口大小WS32、帧长K128的配置下观察到了约0.25 dB的性能损失。因此在实际系统设计中需要根据目标帧长、窗口大小和可接受的性能损失来谨慎选择交织器参数。对于较大的帧长这种约束对随机性的影响通常会更小。4. 硬件架构实现细节与设计折衷将DS-LSOVA算法与迭代重叠架构相结合需要精心设计相应的硬件模块。图6b-d清晰地展示了基于MLM、LSOVA和DS-LSOVA的X-Window架构差异这些差异直接反映了算法特性在硬件上的映射。4.1 各算法对应的X-Window架构剖析MLM基准架构图6b这是传统的、非重叠的参考设计。每个网格步Trellis Step包含独立的前向递归单元、反向递归单元和软输出计算单元。为了在一个滑动窗口内同时进行前向和反向计算并避免在窗口内传递分支度量架构中实例化了两个分支度量计算单元。此外图中标为1和2的流水线段是关键的延迟单元。1用于在窗口内部传递和同步信道LLR、外信息和状态度量2则用于在X-Window的输入/输出端对齐数据以应对交织带来的时序问题。这些延迟是满足非重叠调度所必需的。LSOVA架构图6c它在MLM架构的基础上修改而来。主要变化发生在窗口的右半部分反向递归部分这里的递归单元被替换为LSOVA特有的ACS单元。同时软输出单元也替换为基于路径合并的LSOVA SOU。我们在之前的工作[12]中已经证实LSOVA的计算单元ACS和SOU相比等价的MLM单元状态度量计算和LLR计算能节省可观的面积。因此本实现直接采用了那些经过优化的LSOVA计算单元IP。DS-LSOVA架构图6d这是本文提出的新架构。其最显著的特征是前向和反向递归单元采用了交替结构——一部分是LSOVA ACS单元另一部分是传统的MLM递归单元。这是因为DS-LSOVA算法要求在前向和反向ACS中交替更新可靠性信息。另一个关键区别在于图中标为1的流水线所承载的数据类型发生了变化。在MLM和LSOVA中这些流水线传递的是状态度量α β而在DS-LSOVA中它们传递的是完整的路径信息三元组M L u因为后续的SOU需要这些信息来进行双向路径合并。最大的面积节省来源于SOU数量减半。由于一个DS-LSOVA SOU能同时处理前向和反向的信息因此只需要配置传统数量一半的SOU实例即可。4.2 重叠架构的硬件简化当为重叠调度设计解码器时硬件可以得到进一步简化。如图4(b)所示在完全重叠的情况下HI_{j1}几乎紧跟着HI_j开始。此时图6中所有X-Window的输入/输出延迟线即标为2的部分都可以被移除。第一个HI的输入仍需缓冲以接收完整的帧数据最后一个HI的输出也需要缓冲以输出最终硬判决但中间所有HI级之间外信息和信道值可以直接从一个X-Window输出经过交织网络直接馈入下一个X-Window的输入。然而窗口内部用于同步状态/路径度量、信道值和内/外信息的流水线标为1的部分仍然需要保留因为它们用于窗口内部的滑动计算。这种简化直接转化为芯片面积的减少。移除这些全局的延迟寄存器阵列对于包含多个HI级的高并行度解码器来说面积节省是非常可观的。4.3 设计中的关键权衡与选择在实际实现中需要根据系统需求做出多项权衡窗口大小WS与帧长K的选择WS越大并行度越高理论上吞吐量越大。但WS增大会带来两个问题一是每个X-Window的内部逻辑更复杂面积更大二是如前所述对于固定的K更大的WS会给重叠交织器的设计带来更严格的约束可能损害交织器的随机性和最终的纠错性能。因此WS通常选择为K的约数并且需要仿真验证在目标信噪比下的FER性能。基数Radix的选择高基数如Radix-4 Radix-8解码能减少处理一个帧所需的时钟周期数从而降低延迟。但高基数意味着每个时钟周期要处理更多的网格分支计算单元如ACS的复杂度会呈指数增长显著增加关键路径延迟和面积。因此在追求高时钟频率的设计中Radix-4是一个常用的平衡点。论文中的所有实现均基于Radix-4。算法选择MLM vs. LSOVA vs. DS-LSOVAMLM成熟、性能稳定是可靠的基准但计算复杂度最高。LSOVA在保持与MLM相近性能的前提下通过算法重构降低了SOU的复杂度适合作为降低面积的直接替代方案。DS-LSOVA在LSOVA的基础上通过复用计算资源进一步优化面积是追求极致面积效率时的优选。但其架构稍显复杂交替的递归单元且性能需要在具体配置下仔细验证。5. 性能评估与结果分析论文在22纳米工艺节点上使用Synopsys Design Compiler对上述多种架构组合进行了综合以评估其面积效率。表3汇总了关键结果我们可以从中得出几个核心结论。5.1 面积效率的综合对比首先看算法层面的对比。在相同的帧长K128和窗口大小WS16配置下DS-LSOVA相比基准的MLM实现了约17%的面积节省。这充分证明了DS-LSOVA在降低计算复杂度方面的有效性。LSOVA作为中间方案其面积效率也优于MLM但略逊于DS-LSOVA约3%的差距。值得注意的是当窗口大小增大到WS32时DS-LSOVA相对于LSOVA的面积优势变得非常微小甚至略有劣势。这可能是因为在更大的窗口下DS-LSOVA中用于传递完整路径信息的内部流水线图6d中的(1)开销增大抵消了SOU数量减半带来的收益。其次看重叠架构带来的收益。在所有算法MLM LSOVA DS-LSOVA和配置下启用迭代重叠后面积效率均有提升提升幅度从6%到11.5%不等。这清晰地表明通过定制交织器消除流水线气泡是一种非常有效的硬件优化手段。最强的组合出现在DS-LSOVA与迭代重叠的结合上。以K128 WS16的配置为例采用重叠架构的DS-LSOVA解码器相比非重叠的基准MLM解码器实现了高达22%的面积效率提升。这意味着在相同的芯片面积下新设计的解码器能提供高出22%的吞吐量或者说在满足相同吞吐量需求时可以节省22%的芯片面积。这对于面积敏感的移动设备或需要集成大量解码器核心的基站芯片来说价值巨大。5.2 纠错性能验证任何硬件优化都不能以牺牲核心的纠错能力为代价。图5的误帧率FER曲线提供了性能保证。可以看到DS-LSOVA vs. MLM在相同的交织器无论是LTE标准QPP交织器还是论文设计的重叠交织器和迭代次数下DS-LSOVA的FER曲线与MLM几乎完全重合。这从根本上证明了DS-LSOVA算法在性能上是MLM的可行替代品其面积优化没有付出性能代价。重叠交织器 vs. LTE QPP交织器对于WS16的配置论文设计的重叠交织器与LTE标准交织器性能完全一致。对于WS32 K128的配置重叠交织器在FER10^-4处出现了约0.25 dB的损失。正如前文所分析的这是由于在较小的帧长下为了满足严格的重叠约束交织器的设计自由度受限导致其随机性略有下降。对于更大的帧长如K256这种性能损失预计会减小或消失。5.3 对实际系统设计的启示这些结果对面向5G-Advanced/6G、M2M、V2X的系统设计具有明确的指导意义对于超高吞吐量场景如基站接收机应优先考虑采用DS-LSOVA算法与迭代重叠架构的组合并选择适当的窗口大小如WS16。这能在保证与标准算法同等纠错能力的前提下最大化硬件资源利用率应对Tb/s量级的解码需求。对于面积和能效极度敏感的场景如物联网终端LSOVA是一个稳健的选择它在算法复杂度和硬件实现复杂度之间取得了很好的平衡且已被证明具有可靠的性能。交织器选择如果系统延迟要求极高必须采用重叠调度那么就需要使用定制的重叠交织器。在设计时需要根据帧长和性能目标通过仿真确定可接受的窗口大小WS以平衡重叠带来的硬件收益与可能存在的微小性能损失。如果延迟要求不那么苛刻使用成熟的QPP等标准交织器是更简单安全的选择。这项工作的价值在于它提供了一套完整的、经过硬件验证的优化工具箱。从算法DS-LSOVA到调度迭代重叠再到交织器设计基于图样的ARP最后到具体的硬件架构实现形成了一条贯穿软硬件的协同优化路径。它证明了通过深度的跨层设计即使是被认为难以并行的Turbo解码依然能在新一代通信系统中焕发强大的生命力。