基于嵌入式MTJ的p-bit硬件实现：用成熟技术开启概率计算新范式-尧图企业网站定制

1. 项目概述与核心价值在传统的计算架构里确定性是基石。一个与门AND输入“1”和“0”输出永远是“0”这是布尔逻辑的铁律。然而当我们试图让机器去解决优化、推理乃至逆向求解这类问题时这种绝对的确定性有时反而成了枷锁。想象一下你有一个复杂的密码锁只知道最终结果是“开启”但不知道是哪几个齿轮的正确组合传统的计算方式需要遍历所有可能性而一种能够“逆向思考”、从结果反推可能输入的硬件将极大地提升效率。这正是概率计算和可逆逻辑试图攻克的堡垒。其核心在于引入可控的随机性而实现这一点的关键硬件单元就是p-bit。p-bit或称概率比特可以看作是一个“可调谐的硬币”。它不像经典比特那样非0即1而是在某一时刻以一定的概率输出0或1而这个概率可以通过一个输入电压来连续、精确地控制。当输入电压为很大的负值时它几乎确定地输出0当输入电压为很大的正值时它几乎确定地输出1而在零电压附近它就像一个公平的硬币以50%的概率随机输出0或1。这种特性使得由大量p-bit互连构成的网络其整体状态能够以一种受控的、概率性的方式演化最终稳定到代表问题解决方案的状态上。这为硬件直接求解组合优化、贝叶斯推理乃至实现可逆逻辑运算如因子分解开辟了新路径。然而构建一个实用的p-bit并非易事。早期构想需要一种全新的三端可调随机数发生器RNG器件。2017年Kerem Camsari等人在IEEE EDL上发表的这篇论文提出了一种极具工程智慧的方案利用现有成熟的嵌入式磁隧道结MTJ技术通过巧妙的电路设计实现了一个功能完备的p-bit。这个方案的精妙之处在于它没有去发明一种新物理器件而是将已经用于嵌入式MRAM磁性随机存储器的、具有随机开关特性的低势垒MTJ与一个标准NMOS晶体管组合起来通过电路层面的“翻译”让MTJ的随机电阻波动表现为一个受输入电压控制的概率性电压输出。简单来说这篇工作的核心贡献是用“老”技术嵌入式MTJ晶体管实现了“新”功能p-bit。它证明了无需等待革命性的器件突破利用现有半导体工艺的“边角料”就能为CMOS世界注入概率计算的灵魂。这对于硬件加速机器学习、解决NP难问题以及探索新型计算范式具有重要的现实意义和启发性。2. p-bit原理与嵌入式MTJ方案深度解析2.1 从理想模型到物理现实p-bit的数学与物理本质要理解这个方案首先要搞清楚p-bit的理想行为是什么。论文中给出了其核心的数学模型这是一个类Sigmoid双曲正切函数mi(t) sgn( rand(-1, 1) tanh[Vi(t)/V0] )这里的mi(t)是第i个p-bit在时刻t的输出取值为1或-1对应逻辑1和0。Vi(t)是输入电压。V0是一个缩放常数决定了输入电压对输出概率影响的敏感度。rand(-1, 1)代表一个在-1到1之间均匀分布的随机数。这个公式非常直观地描述了p-bit的行为当Vi(t)远大于V0正很大时tanh[Vi(t)/V0]接近1。此时即使加上一个在[-1,1]的随机数结果也几乎总是正数sgn()函数输出1的概率极高。当Vi(t)远小于V0负很大时tanh[Vi(t)/V0]接近-1结果几乎总是负数输出-1的概率极高。当Vi(t) 0 时tanh[0]0输出完全由rand(-1,1)决定因此输出1和-1的概率各为50%。关键点在于这个模型描述的是一个“理想”的p-bit。在硬件实现中我们不需要也很难直接造出一个物理实体其输出严格服从这个数学公式。我们需要的是一个物理系统其宏观统计行为与这个公式匹配。这就是电路设计的用武之地。2.2 嵌入式MTJ一个现成的随机电阻论文选择的物理随机源是低势垒磁隧道结Low-Barrier MTJ。MTJ是自旋电子学中的核心器件由两层铁磁层夹着一层薄绝缘层隧道势垒构成。其中一层磁化方向固定参考层另一层自由层的磁化方向可以改变。当两层磁化方向平行时电阻低Rp反平行时电阻高Rap。隧道磁阻比TMR定义为(Rp - Rap)/Rap。传统MRAM中使用的MTJ其自由层具有较高的磁各向异性能垒以确保数据在无外界干扰下的长期稳定性非易失性。而这里使用的“低势垒”MTJ其能垒很低以至于在室温热扰动下自由层的磁化方向就会发生随机的、快速的翻转导致MTJ的电阻在Rp和Rap之间随机 telegraphic电报跳变或者对于圆形纳米磁体其磁化矢量在平面内连续随机旋转。这种器件已经被成功用作真随机数发生器TRNG。因此一个低势垒MTJ本身就是一个高质量的随机电阻发生器。它的瞬时电导Gi(t)可以表示为Gi(t) G0 * [1 mzi(t) * TMR/(2TMR)]其中G0是平均电导mzi(t)是归一化的瞬时磁化分量在-1到1之间随机波动。2.3 电路魔术将随机电阻变为可控概率电压现在我们有一个随机波动的电阻MTJ目标是得到一个输出概率受输入电压控制的电压信号。论文的方案极其简洁将这个MTJ作为晶体管的负载。具体电路如图1(a)所示一个低势垒MTJ连接在一个NMOS晶体管的漏极Drain和电源VDD之间。晶体管的源极Source接地栅极Gate接收输入电压VIN。我们关注的是漏极电压VDRAIN。这个电路的工作原理可以通过一个简化的定性分析来理解当VIN为负晶体管关闭晶体管通道电阻极大α GT/G0 → 0。此时无论MTJ的电阻如何随机波动VDRAIN都被上拉至接近VDD论文中设定为VDD/2因采用对称电源。当VIN为零晶体管处于线性区边缘晶体管电导GT被设计为约等于MTJ的平均电导G0α ≈ 1。此时VDRAIN由MTJ和晶体管的分压决定。由于MTJ电阻的随机波动VDRAIN也会随之大幅波动其平均值在VDD/2附近。当VIN为正晶体管充分开启晶体管通道电阻极小α → ∞。此时VDRAIN被强力下拉至接近地电位-VDD/2MTJ的电阻波动几乎被短路无法影响输出电压。注意这里的VDD/2和-VDD/2是论文中为了简化后续反相器设计而采用的对称电源方案。核心思想是VDRAIN的直流偏置点会随VIN在正负电源轨之间移动而其波动幅度在VIN接近0时最大。通过一个反相器或比较器对VDRAIN进行整形当VDRAIN高于反相器阈值时输出高电平逻辑1低于时输出低电平逻辑0。这样我们就得到了一个二值化的输出VOUT。整个过程的精妙之处在于VIN控制了晶体管这个“可变电阻”从而控制了MTJ随机波动被“看到”的程度。当晶体管关闭或完全开启时MTJ的噪声被抑制输出被“钉扎”在确定状态当晶体管工作在线性区时MTJ的噪声被放大并传递到输出表现为随机翻转。通过精心设计晶体管的跨导和MTJ的参数可以使VOUT为1的平均概率P(1)与VIN的关系非常接近理想的双曲正切函数tanh(VIN/V0)。电路完成了从“随机电阻”到“可控概率比特”的翻译工作。3. 核心电路设计与SPICE仿真验证3.1 器件选型与参数匹配要实现上述功能器件参数的选择至关重要。论文中基于14nm HP-FinFET的预测模型PTM进行仿真关键参数选择如下表所示组件参数取值/型号选择理由与考量晶体管工艺节点14nm HP-FinFET选择先进工艺节点以获得更陡峭的亚阈值斜率和更快的开关速度这对精确控制α参数和实现高速p-bit操作至关重要。MTJ自由层类型圆形面内纳米磁体无易磁化轴磁化矢量在面内连续随机旋转产生平稳的电阻波动而非 telegraphic 噪声更接近理想的随机源。直径~22 nm确保磁体处于单畴状态同时具有足够低的热稳定因子Δ ≈ 1以保证在室温下足够的翻转速率MHz-GHz量级。饱和磁化强度 (Ms)~1100 emu/cc典型的CoFeB材料参数。Ms和体积共同决定了热噪声的强度影响翻转速率。隧道磁阻比 (TMR)110%采用当时已实验验证的值。TMR越大电阻波动幅度 (ΔR) 越大转换到漏极的电压波动就越大有利于驱动后级电路。平均电阻 (R01/G0)数十 kΩ量级与晶体管在VIN≈0时的导通电阻匹配α≈1这是实现VIN0时输出概率为50%的关键。电阻过高会导致功耗和延迟增加过低则晶体管难以匹配。电源VDD±0.4V (对称)采用对称电源 (±0.4V) 是为了使后续反相器的逻辑阈值正好在0V简化设计便于将VDRAIN的波动直接转换为轨到轨的VOUT。实操心得参数匹配是核心在实际设计或仿真中最关键的步骤是晶体管的G0与MTJ的G0匹配。这需要在特定的偏置点通常是VDS VDD/2, VGS0下通过调整晶体管尺寸Width来实现。一个不匹配的设计会导致VIN0时P(1)严重偏离50%破坏整个p-bit的对称性。仿真时应首先进行DC扫描找到使α1的晶体管工作点。3.2 SPICE仿真流程与结果分析论文使用了一个将随机磁动力学与晶体管方程自洽耦合的SPICE模型进行仿真。对于我们复现工作可以采取一个简化的流程建立MTJ行为模型由于低势垒MTJ的翻转速率极高100MHz在电路仿真中完全模拟每一个磁翻转是不现实的。可以采用一个等效的随机电压源或随机电阻模型来表征其波动。例如可以生成一个带宽受限的随机噪声信号其幅度与TMR/(2TMR)*VDD成正比并将其叠加到VDRAIN的DC偏置上。更精确的方法是使用Verilog-A等硬件描述语言实现公式(3)描述的随机电导行为。搭建电路在Cadence Virtuoso或LTspice等工具中搭建图1(a)的电路。使用PTM或类似模型定义14nm FinFET。MTJ用上述行为模型替代。瞬态仿真固定VIN为一个值进行足够长时间的瞬态仿真例如1μs观察VDRAIN和VOUT的波形。统计特性提取对VOUT波形进行采样统计高电平逻辑1所占的时间比例即为该VIN下的输出概率P(1)。扫描输入改变VIN例如从-0.4V扫到0.4V重复步骤3和4得到P(1)随VIN变化的曲线。论文中的仿真结果图2完美验证了设计图2(a)展示了在某个VIN下VDRAIN的瞬态波动。虚线表示时间平均值可以看到平均值随VIN变化。图2(b)VOUT的平均值或P(1)映射到电压随VIN变化的曲线。散点是仿真结果虚线是tanh(VIN/V0)拟合曲线两者高度吻合V0约为50mV。这证明了电路实现了理想的p-bit特性。图2(c)展示了在不同VIN偏置下VOUT的瞬态波形。当VIN为负时输出稳定在低电平-0.4V当VIN为正时输出稳定在高电平0.4V当VIN接近0时输出在高、低电平间快速随机切换。注意事项噪声幅度与热噪声论文指出使用TMR110%的MTJ在漏极产生的电压波动可达200mV。这远大于室温下反相器输入电容~100aF上的热噪声约5mV。这意味着驱动后续数字电路的信号是强而干净的随机信号而不是被热噪声淹没的微弱信号。这是该方案可行性的物理基础。如果MTJ的ΔR/R太小产生的波动可能无法可靠地触发后级电路。4. 构建p-bit网络实现可逆AND门单个p-bit只是一个可控的随机数发生器。其威力在于互连成网络。论文通过实现一个可逆AND门生动地展示了这一点。4.1 网络互连原理基于玻尔兹曼机p-bit网络的互连遵循玻尔兹曼机或伊辛模型Ising Model的架构。每个p-bit的输入Vi由两部分组成一个外部偏置hi以及其他所有p-bit输出的加权和。Vi / V0 hi Σ_j (Jij * mj)这里mj是其他p-bit的输出1或-1。Jij是连接权重对称矩阵Jij Jjihi是偏置。这个公式就是公式(2)的再现。网络的功能如实现一个逻辑门完全由权重矩阵[J]和偏置向量{h}决定。对于AND门我们需要3个p-bitA, B输入和 C输出。其布尔逻辑关系为C A AND B。我们可以为这个三人系统定义一个“能量函数”E -J * (A*B A*C B*C) - h * (A B C)通过选择合适的J和h论文中引用自文献[27]可以使这个能量函数在满足C A AND B的状态即[A,B,C]为[-1,-1,-1],[-1,1,-1],[1,-1,-1],[1,1,1]时达到局部最小值。当网络中的p-bit根据其输入由其他p-bit的当前状态决定异步、随机地更新时整个网络的状态将以一定的概率在这些低能量状态即合法状态之间跳转。4.2 硬件实现电阻交叉阵列在硬件上如何实现这个加权求和Σ_j (Jij * mj)论文采用了经典的电阻交叉阵列架构如图3所示。每个p-bit的输出VOUT经过缓冲连接到一条行线。每条列线通过一个电阻R_ij连接到对应p-bit的输入求和节点。根据欧姆定律和基尔霍夫电流定律流入第i个p-bit输入节点的电流正比于Σ_j (VOUT_j / R_ij)。通过一个跨阻放大器图3中的理想运放配置将这个电流和偏置电流hi转换回电压Vi反馈给该p-bit的输入。权重Jij的实现权重值被编码在电阻R_ij的阻值中。Jij越大对应的R_ij应该越小电导越大这样第j个p-bit的输出对第i个p-bit的输入影响就越大。通过精心设计电阻网络可以物理地实现所需的[J]矩阵和{h}向量。4.3 可逆操作演示前向模式常规逻辑将输入p-bit A和B的偏置hA,hB设置为很大的正值或负值从而将它们“钳位”到特定的逻辑值如A1, B0。然后让网络自由演化。你会发现输出p-bit C会以极高的概率稳定到正确的结果C0。逆向模式可逆逻辑/因子分解这才是展示概率计算威力的地方。将输出p-bit C的偏置hC钳位到特定值比如对应逻辑0而放开A和B的钳位。让网络自由演化。你会观察到A和B的状态不会固定而是在所有能使C0的输入组合{00, 01, 10}之间随机切换。如图4的仿真所示统计一段时间内[A, B, C]的状态会发现[-1,-1,-1],[-1,1,-1],[1,-1,-1]这三个状态的出现概率大致相等而[1,1,1]状态几乎不出现因为C被钳位在-1。这相当于硬件在“求解”AND门的逆问题给定输出是0有哪些可能的输入对于AND门答案是三个。对于更复杂的电路比如乘法器逆问题就是因子分解这是一个经典的计算难题。p-bit网络通过其固有的概率搜索特性为这类问题的硬件加速提供了一种潜在途径。实操心得网络动力学与参数容差在实际仿真或硬件实现中p-bit网络的收敛速度和稳定性对参数非常敏感。各p-bit的V0、反相器阈值、电阻值的不匹配都会影响网络行为。仿真时需要引入一定的随机失配如MTJ的TMR、尺寸Ms的微小差异如图4所示以评估方案的鲁棒性。通常网络需要运行足够多的更新周期每个p-bit被随机选择更新数千至数百万次才能获得稳定的状态分布。5. 方案优势、挑战与扩展思考5.1 与传统方案及三端方案的对比特性本文嵌入式MTJ方案理想三端p-bit器件纯数字电路模拟器件需求利用现有成熟技术嵌入式MTJCMOS无需新材料或新工艺。需要发明全新的三端可调RNG器件制造工艺不成熟。仅需标准数字逻辑单元。随机源物理随机MTJ热涨落真随机不可预测。物理随机真随机。伪随机数生成器PRNG算法决定可预测。可调性通过外围电路晶体管实现概率调控调控范围宽线性度好。通过器件内部物理效应如自旋转移矩直接调控理论上更直接。通过改变比较阈值实现但随机性质量依赖PRNG。面积与能效1T1MTJ结构面积较小。静态功耗主要来自偏置的晶体管和反相器。取决于具体器件可能更紧凑。需要大量逻辑门和寄存器面积和功耗通常较高。速度受限于MTJ翻转速率MHz-GHz和电路RC延迟。可能更快取决于物理机制。受限于时钟频率和数字逻辑延迟。功能实现适合模拟玻尔兹曼机等概率模型天然并行。同左更原生。需要通过算法在时序逻辑中模拟本质上是串行的。核心优势本方案最大的吸引力在于其技术可行性。它巧妙地将一个存储领域MRAM的“副产品”——低势垒MTJ的随机特性通过成熟的CMOS电路设计转化为了计算领域概率计算所需的核心功能单元。这是一种典型的“跨界创新”和“变废为宝”。5.2 潜在挑战与工程考量MTJ工艺集成虽然嵌入式MTJ是成熟技术但通常用于高稳定性存储。制造低势垒、高均匀性、高TMR的MTJ阵列并保证其随机特性的一致性和可靠性是工艺上的挑战。功耗每个p-bit单元包含一个始终偏置在亚阈值区附近的晶体管和一个反相器存在静态功耗。对于大规模阵列百万甚至十亿级静态功耗可能成为瓶颈。论文中提到可以采用互补对称CMOS-like设计来减少静态功耗但这会增加面积和复杂度。速度与噪声MTJ的随机翻转速率限制了p-bit的更新速度。此外电路中的其他噪声源如1/f噪声可能会干扰MTJ产生的“有用”随机信号需要精心设计信号链。权重实现使用固定的电阻交叉阵列实现权重[J]意味着网络功能是硬连线的缺乏可编程性。要实现可学习的系统需要将电阻替换为可编程元件如忆阻器Memristor但这又引入了新的器件非理想性和可靠性问题。仿真与建模复杂度精确模拟包含数百上千个相互耦合的随机MTJ和晶体管的电路对仿真工具和计算资源要求极高。需要开发高效的宏模型或行为级模型来进行系统级评估。5.3 未来扩展与应用展望尽管面临挑战该方案为概率计算硬件指明了一条务实的发展路径混合计算架构将p-bit网络作为协处理器与传统的CPU/GPU/FPGA集成在同一芯片或封装内。传统处理器处理确定性的控制流和任务调度而将特定的组合优化、采样或推理任务卸载给p-bit网络进行硬件加速。近似计算与随机计算在图像处理、机器学习推理等容错应用场景中可以利用p-bit网络的概率特性进行超低功耗的近似计算。探索新型算法硬件p-bit的出现促使算法研究人员开发更适合这种非冯·诺依曼、概率性、并行的硬件原生的算法。材料与器件扩展正如论文末尾提到的产生随机电阻的物理机制不限于MTJ。任何具有随机开关或波动特性的两端器件如相变存储器、金属-绝缘体转变器件等都可以套用类似的电路框架来构建p-bit这为探索更多材料体系打开了大门。从我个人的工程实践角度看这项工作的魅力在于它用相对简单的电路桥接了物理随机性与计算逻辑。它提醒我们在追逐最前沿器件的同时回头审视现有成熟技术的“非常规”用途往往能带来意想不到的突破。将嵌入式MTJ从存储单元重新定义为计算单元这种思路的转变其价值不亚于发明一种新器件。在实验室里搭建第一个可逆AND门仿真模型并看到它正确运行的那一刻你能清晰地感受到一种新的、充满不确定性与可能性的计算范式正在从论文中的公式和波形图里一步步走向现实的硅世界。

相关新闻

老房装无管道室外新风，会有噪音和装修破坏问题吗？

别再死记硬背了！用这个C语言预测分析法程序帮你搞定《编译原理》实验

数据库死锁分析与解决实战

别再只会下载了！手把手教你用STLINK-V2/V3给STM32F4/F1在线调试（附断点、变量查看实战）

从Python脚本到Web API：手把手教你用Gin封装EasyOCR，打造自己的OCR识别服务

【RT-DETR实战】 075、半监督学习在RT-DETR中的应用：用少量标注数据撬动大模型性能

如何快速掌握mobilenetv2_100.ra_in1k：MobileNetV2与RandAugment的完美结合指南

深度解析RegNetY-3.2GF模型架构：regnety_032.ra_in1k的3大核心技术优势

Foobar2000极致音质解码方案：从代理插件到原生ASIO+DSD的进阶之路

容器化Nextcloud离线部署协作应用实战：以Collabora为例

草莓成熟度检测数据集VOC+YOLO格式1487张3类别有增强

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势