摘要随着GPT-4、Llama-3、ViT等大规模预训练模型参数量突破千亿级门槛传统全参数微调方法面临显存占用过高、存储成本激增以及多任务部署低效等严峻挑战。参数高效微调Parameter-Efficient Fine-Tuning, PEFT技术通过仅更新模型总参数量的0.01%至1%在保持预训练权重冻结的前提下实现高效的下游任务适配成为当前人工智能领域最具实践价值的研究方向之一。本文系统梳理了PEFT技术的核心方法论深入阐述了LoRA低秩分解、Adapter瓶颈结构、Prompt-Tuning软提示机制等关键技术的数学原理与架构设计结合医疗影像诊断、工业缺陷检测、低资源语言处理三大典型应用场景分析了PEFT技术的实际效果与面临的挑战并对模型轻量化、多模态融合、可解释性增强及伦理安全等未来发展趋势进行了前瞻性探讨。研究表明PEFT技术不仅显著降低了大模型的应用门槛更为人工智能的普惠化发展开辟了新路径。关键词参数高效微调低秩自适应适配器提示学习知识迁移1. 引言人工智能领域正经历一场由大规模预训练模型驱动的深刻变革。从自然语言处理领域的GPT-4、Llama-3到计算机视觉领域的Vision TransformerViT、Segment Anything ModelSAM这些具有数十亿乃至千亿参数的基础模型在多项任务上展现出前所未有的能力。然而这种规模即性能的发展范式也带来了严峻的工程挑战以Llama-3 70B为例其完整的模型权重存储需要超过140GB的显存空间而进行一次全参数微调则至少需要数百GB的GPU内存这使得绝大多数研究机构和企业望而却步[5]。传统的全参数微调Full Fine-tuning方法要求在训练过程中更新模型的所有权重并为每个下游任务保存一份完整的模型副本。在多任务部署场景下这种方法导致了严重的资源冗余——假设需要将同一基座模型适配到100个不同的垂直领域则需要存储100份完整的模型权重总存储成本将高达数十TB。此外全参数微调在数据稀缺场景下极易发生过拟合且存在灾难性遗忘问题即模型在学习新任务时会丧失预训练阶段获得的通用知识[2]。面对上述挑战参数高效微调PEFT技术应运而生。PEFT的核心思想是在保持预训练模型绝大部分权重冻结的情况下通过引入少量可训练参数通常占模型总参数的0.01%至1%来实现对下游任务的高效适配[5]。这种设计理念带来了多重优势首先训练时的显存需求大幅降低使得在消费级GPU上微调大型模型成为可能其次每个任务仅需存储少量的增量参数极大地降低了多任务部署的存储成本最后由于预训练权重保持不变模型能够更好地保留通用知识在数据稀缺场景下表现出更强的泛化能力和鲁棒性。近五年来PEFT技术在NeurIPS、ICML、ICLR、ACL等顶级学术会议上取得了突破性进展从早期的Adapter方法到如今广泛应用的LoRA及其变体从针对语言模型的设计到跨模态的扩展应用PEFT已发展成为一个体系完整、方法多元的技术领域。本文旨在为读者提供一份全面而深入的PEFT技术综述涵盖核心原理、前沿进展、典型应用与未来趋势以期为学术研究与工程实践提供参考。2. 相关工作2.1 参数高效微调技术的发展历程参数高效微调的思想可以追溯到迁移学习早期阶段。在深度学习兴起之初研究者发现预训练模型的浅层特征具有较强的通用性因此提出了冻结浅层、微调深层的策略。然而这种简单的分层冻结方法在面对大规模预训练模型时效果有限无法充分利用模型各层的表征能力。2019年Houlsby等人在ICML会议上首次提出了Adapter方法开创了插入式参数高效微调的先河[14]。该方法通过在Transformer的每一层中插入小型的瓶颈结构仅训练这些新增模块而保持原有参数冻结在保持性能的同时将可训练参数量压缩至原模型的约3%。Adapter的成功证明了大型预训练模型具有冗余的参数空间为后续研究奠定了理论基础。2021年见证了PEFT领域的多项突破。Li和Liang提出的Prefix-Tuning方法在ACL会议上发表该方法通过在每层Transformer的隐藏状态前添加可训练的连续向量以更少的参数实现了与全参数微调相当的生成任务性能[11]。同年Google Research的Lester等人提出了Prompt-Tuning进一步将软提示的概念简化至仅在输入层添加并在EMNLP会议上证明了当模型规模足够大时这种极简方法能够达到全参数微调的效果[15]。2022年微软研究院的Hu等人在ICLR会议上发表了具有里程碑意义的LoRALow-Rank Adaptation方法[12]。LoRA基于模型微调过程中的权重更新具有低秩特性这一假设通过将权重更新矩阵分解为两个低秩矩阵的乘积在不增加推理延迟的前提下实现了参数高效微调迅速成为工业界最广泛采用的PEFT方法。2.2 技术流派分类根据对模型架构的修改方式当前PEFT方法可划分为三大技术流派重参数化方法Reparameterization-based此类方法的核心思想是通过特定的数学变换对权重更新进行低秩约束。LoRA是这一流派的代表其假设微调过程中的权重变化ΔW可以表示为两个低秩矩阵B和A的乘积。后续的QLoRA、DoRA、AdaLoRA等变体在此基础上分别从量化、解耦、动态秩分配等角度进行了优化[13][16]。添加式方法Additive此类方法通过在原模型结构中插入额外的可训练模块来实现任务适配包括序列式如Adapter和并行式如Parallel Adapter两种形式。这类方法的优势在于模块化程度高便于实现多任务的灵活切换但会引入额外的推理延迟。选择式方法Selective此类方法不引入任何新参数而是选择性地微调原模型中的部分参数。BitFit是典型代表仅微调模型中的偏置项Bias参数量通常小于模型总量的0.1%[5]。尽管实现简单但这类方法在复杂任务上的性能往往不及前两类。3. 方法论3.1 LoRA低秩自适应及其变体LoRALow-Rank Adaptation的数学原理建立在一个关键假设之上大型预训练模型在适配下游任务时权重的更新矩阵具有较低的本征维度Intrinsic Dimension。具体而言对于预训练权重矩阵W₀∈ℝ^(d×k)全参数微调的目标是学习一个更新量ΔW使得微调后的权重WW₀ΔW能够在下游任务上取得最优性能。LoRA的核心创新在于将ΔW约束为两个低秩矩阵的乘积ΔW BA其中B∈ℝ(d×r)A∈ℝ(r×k)r为秩且rmin(d,k)。在训练过程中预训练权重W₀保持冻结仅更新矩阵A和B。由于r通常设置为4、8或16相比原始的d×k个参数LoRA仅需训练(dk)×r个参数参数效率提升了d×k/[(dk)×r]倍[12]。LoRA的另一重要优势在于推理时的零延迟特性。训练完成后可以将BA合并至预训练权重中WW₀BA推理时无需额外计算与原模型保持完全相同的计算图。QLoRA是Dettmers等人于2023年在NeurIPS会议上提出的LoRA改进版本[13]。其核心贡献在于引入了4-bit NormalFloatNF4量化格式将基座模型从16-bit量化至4-bit存储同时使用双量化技术进一步压缩量化常数的存储开销配合分页优化器处理显存峰值。这些技术的组合使得在单块48GB显存的GPU上微调65B参数的模型成为可能极大地降低了大模型微调的硬件门槛。DoRA进一步从权重分解的角度优化了LoRA的学习动态[1]。该方法将预训练权重W₀分解为幅值Magnitudem和方向DirectionV两个分量其中幅值为标量方向为单位向量。在微调时DoRA仅对方向分量应用LoRA更新而幅值则单独训练。这种解耦设计使得模型能够更稳定地调整权重方向避免了幅值和方向同时变化带来的学习不稳定问题。3.2 Adapter适配器架构Adapter方法通过在Transformer的每一层中插入小型的瓶颈结构来实现参数高效微调[14]。典型的Adapter模块包含三个组件下投影层Down-projection、非线性激活函数和上投影层Up-projection。其数学形式可表示为Adapter(x) x f(xW_down)W_up其中x∈ℝd为输入隐藏状态W_down∈ℝ(d×r)将输入投影至低维空间f(·)为非线性激活函数通常为GELU或ReLUW_up∈ℝ^(r×d)将表示投影回原始维度。r为瓶颈维度通常设置为64或128远小于隐藏维度d。Adapter模块通常插入在Transformer层的两个位置自注意力机制之后和前馈网络FFN之后。在微调时原始Transformer的所有参数保持冻结仅训练新插入的Adapter模块。由于瓶颈维度r较小每个Adapter模块的参数量仅为2×d×r总参数量通常占模型总量的1%至5%。Adapter的主要优势在于其模块化特性。不同任务的Adapter可以独立训练和存储在推理时通过简单的模块插拔即可实现任务切换。然而Adapter的引入会增加模型的深度每次前向传播都需要经过额外的投影计算因此会带来一定的推理延迟开销。3.3 Prompt-Tuning与Prefix-TuningPrompt-Tuning和Prefix-Tuning是基于软提示Soft Prompts的PEFT方法其核心思想是通过可学习的连续向量为模型提供任务特定的上下文引导。Prompt-Tuning由Google Research提出是一种极简的软提示方法[15]。该方法在输入词嵌入序列的开头添加一组可训练的软提示向量P∈ℝ^(l×d)其中l为软提示的长度通常为20至100d为隐藏维度。训练时仅更新这些软提示向量而模型的所有参数保持冻结。研究表明当模型规模超过100亿参数时Prompt-Tuning的性能能够逼近全参数微调且可训练参数量仅为0.01%至0.1%。Prefix-Tuning则将软提示的概念扩展至模型的每一层[11]。在每一层Transformer的自注意力计算中Prefix-Tuning在Key和Value序列的开头添加可训练的前缀向量。与Prompt-Tuning仅在输入层添加软提示不同Prefix-Tuning为每一层都学习独立的前缀使得模型能够在不同的抽象层次上获得任务相关的引导。这种设计在生成任务如文本摘要、机器翻译上表现尤为出色。3.4 核心方法对比分析方法名称可训练参数占比推理延迟影响核心优势典型应用场景LoRA0.1%-1.0%无可合并权重性能稳定工业部署友好通用文本生成、图像适配QLoRA0.1%-1.0%无显存需求极低大模型低资源微调Adapter1.0%-5.0%有增加层深模块化强多任务灵活多任务学习、持续学习Prefix-Tuning0.01%-0.1%有占用上下文参数极少生成任务、对话系统Prompt-Tuning0.01%-0.1%有占用上下文实现极简大模型少样本学习BitFit0.1%无无需额外模块快速原型验证4. 实验设计与结果分析4.1 医疗影像诊断应用医疗影像分析是PEFT技术最具价值的应用场景之一。医疗领域面临着标注数据稀缺、标注成本高昂、数据隐私敏感等独特挑战传统的全参数微调方法往往因数据不足而过拟合无法发挥预训练模型的潜力。研究者将LoRA应用于Segment Anything ModelSAM的医疗影像适配任务中[17]。实验在胸部X光片和CT影像的病灶分割数据集上进行对比了全参数微调、冻结编码器微调和LoRA微调三种策略。结果显示LoRA微调的SAM在仅使用1%标注数据的情况下分割任务的AUROC受试者工作特征曲线下面积达到80.6%性能不仅超越了数据量相同条件下的全参数微调方法甚至优于使用完整数据集的传统分割模型。这一结果的深层原因在于LoRA通过冻结预训练权重有效保留了SAM在海量自然图像上学习到的通用视觉特征如边缘检测、纹理识别同时通过低秩更新矩阵引入医疗领域的专业知识。这种保留通用、适配专业的策略天然适合数据稀缺的垂直领域应用。4.2 工业缺陷检测应用制造业质量控制是另一个典型的数据稀缺场景。生产线上的缺陷样本如划痕、裂纹、气泡通常较为罕见难以收集足够的训练数据。研究者探索了利用PEFT技术进行数据增强的创新路径[18]。具体方法是使用LoRA微调Stable Diffusion文生图模型使其能够根据文本描述生成特定类型的钢材表面缺陷图像。实验中研究者收集了少量真实缺陷样本每类约50至100张使用LoRA对Stable Diffusion进行微调训练过程仅需约2小时使用单块A100 GPU。微调后的模型能够生成高度逼真的缺陷合成图像用于扩充训练数据集。将合成数据与真实数据混合训练下游的缺陷分割模型后实验结果显示平均交并比mIoU相比仅使用真实数据的基线模型提升了5.95%至6.85%。值得注意的是这种提升并非来自简单的数据量增加而是因为LoRA微调后的生成模型能够产生更多样化的缺陷形态有效提升了分割模型对未知缺陷类型的泛化能力。该案例揭示了PEFT在工业领域的双重价值一方面作为适配技术直接应用于视觉检测模型另一方面作为数据生成技术的使能者间接提升整体系统性能。4.3 低资源语言处理应用全球存在超过7000种语言但绝大多数自然语言处理技术仅覆盖英语、中文等高资源语言。低资源语言如马拉地语、波斯语、斯瓦希里语由于缺乏大规模语料库长期面临机器翻译质量低下、语音识别准确率不足等问题。PEFT技术为低资源语言处理提供了新的解决方案[10]。研究者在多语言预训练模型mBART的基础上为每种低资源语言训练独立的语言特定Adapter和LoRA模块。这种设计背后的语言学直觉是多语言预训练模型已经学习了跨语言的通用语法结构和语义表示低资源语言仅需学习其独特的词汇分布和形态变化规则。实验在马拉地语-英语、波斯语-英语等低资源翻译任务上进行评估。结果表明相比直接对mBART进行全参数微调PEFT方法在仅使用约5000个平行句对的情况下BLEU得分提升了3至5个百分点。更重要的是全参数微调在如此少量数据上严重过拟合验证集损失在训练后期持续上升而PEFT方法则表现出稳定的收敛特性。此外PEFT的模块化特性使得多语言系统的部署更加灵活。系统仅需存储一份共享的mBART基座模型再为每种支持的语言存储一个小型的Adapter/LoRA模块约几十MB相比为每种语言存储完整模型约数GB节省了90%以上的存储空间。4.4 应用挑战分析尽管PEFT技术在上述场景中取得了显著成效但仍面临若干挑战性能-效率权衡在需要深度逻辑推理的任务如数学问题求解、代码生成中PEFT的表现仍略逊于全参数微调[1]。这可能是因为此类任务需要对模型的知识体系进行更深层次的重塑而非简单的分布适配。超参数敏感性LoRA的秩r、Adapter的瓶颈维度等超参数对最终性能影响显著且最优设置因任务而异。目前缺乏理论指导主要依赖经验调参。跨架构泛化现有PEFT方法主要针对Transformer架构设计随着Mamba等状态空间模型的兴起如何将PEFT扩展至非注意力机制架构成为新的研究课题[5]。5. 未来展望与讨论5.1 模型轻量化与动态自适应当前PEFT方法普遍采用静态的参数配置即预先设定秩r或瓶颈维度训练过程中保持不变。然而不同任务、不同模型层对参数量的需求实际上存在显著差异。AdaLoRA等工作已开始探索动态秩分配策略根据各层参数的重要性评分自动调整资源分配[16]。未来的PEFT技术将进一步融合神经架构搜索NAS思想实现训练参数量的自动化决策。理想情况下系统能够根据下游任务的复杂度、数据规模和硬件约束自动选择最优的PEFT策略及其超参数配置彻底解放研究者的手动调参负担。5.2 多模态融合随着视觉-语言模型如CLIP、BLIP、音频-语言模型的蓬勃发展PEFT技术正在从单模态向多模态领域扩展[19]。关键挑战在于如何设计能够有效桥接不同模态表示空间的适配模块。研究者已提出多种多模态PEFT方案在跨模态注意力层添加Adapter、为不同模态学习独立的LoRA模块再进行融合、使用统一的软提示引导多模态交互等。这些方法使得在有限的计算资源下将单模态预训练模型快速扩展为多模态系统成为可能。5.3 可解释性增强PEFT技术的可解释性问题日益受到关注。LoRA学习到的低秩更新矩阵究竟编码了何种知识Adapter模块在不同任务上激活了哪些特征这些问题的解答不仅有助于理解PEFT的工作机制更能为方法改进提供理论指导。LoReFT等最新工作开始从表示学习的视角切入通过干预模型的中间隐藏表示而非直接修改权重在提高参数效率的同时也增强了可解释性[3]。研究发现特定的表示子空间与特定的语言现象如句法结构、语义角色存在对应关系这为PEFT的机理解释提供了新视角。5.4 伦理安全考量PEFT技术的便捷性也带来了新的安全风险。研究者发现恶意攻击者可以利用LoRA在少量有毒数据上微调预训练模型植入后门Backdoor或绕过安全对齐Safety Alignment产生Trojan LoRA等安全隐患[6]。更令人担忧的是即使是良性数据的PEFT微调也可能无意中破坏模型预训练阶段建立的安全防线。例如在特定领域数据上微调后的模型可能不再拒绝生成有害内容。这一现象被称为安全对齐崩溃Safety Alignment Collapse提示研究者在享受PEFT效率红利的同时必须建立相应的安全评估和防护机制。6. 结论本文对参数高效微调PEFT技术进行了系统性的综述与分析。PEFT技术通过仅更新模型总参数的极小部分通常小于1%实现了对大规模预训练模型的高效适配为人工智能技术在资源受限场景下的普及应用开辟了新路径。从技术原理角度本文深入阐述了LoRA的低秩分解机制、Adapter的瓶颈结构设计、Prompt-Tuning与Prefix-Tuning的软提示机制并对各方法的参数效率、推理开销及适用场景进行了系统对比。从应用实践角度本文结合医疗影像诊断、工业缺陷检测、低资源语言处理三大典型场景展示了PEFT技术在数据稀缺、计算受限等现实条件下的显著价值。展望未来PEFT技术将沿着动态自适应、多模态融合、可解释性增强等方向持续演进同时伦理安全问题也需引起足够重视。可以预见随着大模型的持续发展和应用场景的不断拓展PEFT将成为连接前沿研究与产业落地的关键桥梁推动人工智能技术惠及更广泛的领域和人群。参考文献[1] Medium, 2025-01-15. Fine-tuning LLMs in 2025: A Comprehensive Guide. https://medium.com/vertexaisearch/fine-tuning-llms-in-2025-a-comprehensive-guide-1a7uFc6dVc6c[2] Prachub, 2024-11-20. Parameter-Efficient Fine-Tuning (PEFT): How Modern LLMs Adapt Without Retraining Everything. https://prachub.com/parameter-efficient-fine-tuning-peft-how-modern-llms-adapt-without-retraining-everything/[3] arXiv, 2024-04-05. LoReFT: Low-rank Linear Subspace Representation Fine-tuning. https://arxiv.org/abs/2404.03737[4] ACL Anthology, 2026-03-10. PEFT-Bench: A Parameter-Efficient Fine-Tuning Methods Benchmark. https://aclanthology.org/2026.eacl-long.140/[5] arXiv, 2024-10-22. Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies. https://arxiv.org/abs/2410.19878[6] arXiv, 2024-02-15. LoRA-as-an-Attack: Trojaning Large Language Models via Parameter-Efficient Fine-Tuning. https://arxiv.org/abs/2403.01234[7] IEEE Access, 2024-09-12. AULoRA: Anomaly Understanding With Low-Rank Adaptation. https://ieeexplore.ieee.org/document/10693745[8] MDPI, 2024-09-18. Synthetic Data Generation for Industrial Defect Detection. https://www.mdpi.com/2076-3417/14/18/8411[9] arXiv, 2024-02-05. Parameter-efficient fine-tuning for pre-trained vision models: A survey and benchmark. https://arxiv.org/abs/2402.02242[10] IEEE Access, 2025-01-10. Towards low-resource languages machine translation: A language-specific fine-tuning with LoRA. https://ieeexplore.ieee.org/abstract/document/10918960/[11] ACL Anthology, 2021-08-01. Prefix-Tuning: Optimizing Continuous Prompts for Generation. https://aclanthology.org/2021.acl-long.353/[12] ICLR, 2022-01-20. LoRA: Low-Rank Adaptation of Large Language Models. https://openreview.net/forum?idnSbkXzWsc0F[13] NeurIPS, 2023-12-10. QLoRA: Efficient Finetuning of Quantized LLMs. https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html[14] ICML, 2019-06-15. Parameter-Efficient Transfer Learning for NLP. https://proceedings.mlr.press/v97/houlsby19a.html[15] EMNLP, 2021-11-07. The Power of Scale for Parameter-Efficient Prompt Tuning. https://aclanthology.org/2021.emnlp-main.243/[16] ICLR, 2023-05-01. Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning. https://openreview.net/forum?idlq62uSGo9C[17] arXiv, 2024-01-12. Less could be better: Parameter-efficient fine-tuning advances medical vision foundation models. https://arxiv.org/abs/2401.12215[18] MDPI, 2024-09-20. Generative AI for Steel Quality Control. https://www.mdpi.com/2076-3417/14/18/8456[19] engrXiv, 2024-03-25. Efficient Adaptation of Pre-trained Models: A Survey of PEFT for Language, Vision, and Multimodal Learning. https://engrxiv.org/preprint/view/4560
参数高效微调技术:大模型时代的轻量化适配范式
摘要随着GPT-4、Llama-3、ViT等大规模预训练模型参数量突破千亿级门槛传统全参数微调方法面临显存占用过高、存储成本激增以及多任务部署低效等严峻挑战。参数高效微调Parameter-Efficient Fine-Tuning, PEFT技术通过仅更新模型总参数量的0.01%至1%在保持预训练权重冻结的前提下实现高效的下游任务适配成为当前人工智能领域最具实践价值的研究方向之一。本文系统梳理了PEFT技术的核心方法论深入阐述了LoRA低秩分解、Adapter瓶颈结构、Prompt-Tuning软提示机制等关键技术的数学原理与架构设计结合医疗影像诊断、工业缺陷检测、低资源语言处理三大典型应用场景分析了PEFT技术的实际效果与面临的挑战并对模型轻量化、多模态融合、可解释性增强及伦理安全等未来发展趋势进行了前瞻性探讨。研究表明PEFT技术不仅显著降低了大模型的应用门槛更为人工智能的普惠化发展开辟了新路径。关键词参数高效微调低秩自适应适配器提示学习知识迁移1. 引言人工智能领域正经历一场由大规模预训练模型驱动的深刻变革。从自然语言处理领域的GPT-4、Llama-3到计算机视觉领域的Vision TransformerViT、Segment Anything ModelSAM这些具有数十亿乃至千亿参数的基础模型在多项任务上展现出前所未有的能力。然而这种规模即性能的发展范式也带来了严峻的工程挑战以Llama-3 70B为例其完整的模型权重存储需要超过140GB的显存空间而进行一次全参数微调则至少需要数百GB的GPU内存这使得绝大多数研究机构和企业望而却步[5]。传统的全参数微调Full Fine-tuning方法要求在训练过程中更新模型的所有权重并为每个下游任务保存一份完整的模型副本。在多任务部署场景下这种方法导致了严重的资源冗余——假设需要将同一基座模型适配到100个不同的垂直领域则需要存储100份完整的模型权重总存储成本将高达数十TB。此外全参数微调在数据稀缺场景下极易发生过拟合且存在灾难性遗忘问题即模型在学习新任务时会丧失预训练阶段获得的通用知识[2]。面对上述挑战参数高效微调PEFT技术应运而生。PEFT的核心思想是在保持预训练模型绝大部分权重冻结的情况下通过引入少量可训练参数通常占模型总参数的0.01%至1%来实现对下游任务的高效适配[5]。这种设计理念带来了多重优势首先训练时的显存需求大幅降低使得在消费级GPU上微调大型模型成为可能其次每个任务仅需存储少量的增量参数极大地降低了多任务部署的存储成本最后由于预训练权重保持不变模型能够更好地保留通用知识在数据稀缺场景下表现出更强的泛化能力和鲁棒性。近五年来PEFT技术在NeurIPS、ICML、ICLR、ACL等顶级学术会议上取得了突破性进展从早期的Adapter方法到如今广泛应用的LoRA及其变体从针对语言模型的设计到跨模态的扩展应用PEFT已发展成为一个体系完整、方法多元的技术领域。本文旨在为读者提供一份全面而深入的PEFT技术综述涵盖核心原理、前沿进展、典型应用与未来趋势以期为学术研究与工程实践提供参考。2. 相关工作2.1 参数高效微调技术的发展历程参数高效微调的思想可以追溯到迁移学习早期阶段。在深度学习兴起之初研究者发现预训练模型的浅层特征具有较强的通用性因此提出了冻结浅层、微调深层的策略。然而这种简单的分层冻结方法在面对大规模预训练模型时效果有限无法充分利用模型各层的表征能力。2019年Houlsby等人在ICML会议上首次提出了Adapter方法开创了插入式参数高效微调的先河[14]。该方法通过在Transformer的每一层中插入小型的瓶颈结构仅训练这些新增模块而保持原有参数冻结在保持性能的同时将可训练参数量压缩至原模型的约3%。Adapter的成功证明了大型预训练模型具有冗余的参数空间为后续研究奠定了理论基础。2021年见证了PEFT领域的多项突破。Li和Liang提出的Prefix-Tuning方法在ACL会议上发表该方法通过在每层Transformer的隐藏状态前添加可训练的连续向量以更少的参数实现了与全参数微调相当的生成任务性能[11]。同年Google Research的Lester等人提出了Prompt-Tuning进一步将软提示的概念简化至仅在输入层添加并在EMNLP会议上证明了当模型规模足够大时这种极简方法能够达到全参数微调的效果[15]。2022年微软研究院的Hu等人在ICLR会议上发表了具有里程碑意义的LoRALow-Rank Adaptation方法[12]。LoRA基于模型微调过程中的权重更新具有低秩特性这一假设通过将权重更新矩阵分解为两个低秩矩阵的乘积在不增加推理延迟的前提下实现了参数高效微调迅速成为工业界最广泛采用的PEFT方法。2.2 技术流派分类根据对模型架构的修改方式当前PEFT方法可划分为三大技术流派重参数化方法Reparameterization-based此类方法的核心思想是通过特定的数学变换对权重更新进行低秩约束。LoRA是这一流派的代表其假设微调过程中的权重变化ΔW可以表示为两个低秩矩阵B和A的乘积。后续的QLoRA、DoRA、AdaLoRA等变体在此基础上分别从量化、解耦、动态秩分配等角度进行了优化[13][16]。添加式方法Additive此类方法通过在原模型结构中插入额外的可训练模块来实现任务适配包括序列式如Adapter和并行式如Parallel Adapter两种形式。这类方法的优势在于模块化程度高便于实现多任务的灵活切换但会引入额外的推理延迟。选择式方法Selective此类方法不引入任何新参数而是选择性地微调原模型中的部分参数。BitFit是典型代表仅微调模型中的偏置项Bias参数量通常小于模型总量的0.1%[5]。尽管实现简单但这类方法在复杂任务上的性能往往不及前两类。3. 方法论3.1 LoRA低秩自适应及其变体LoRALow-Rank Adaptation的数学原理建立在一个关键假设之上大型预训练模型在适配下游任务时权重的更新矩阵具有较低的本征维度Intrinsic Dimension。具体而言对于预训练权重矩阵W₀∈ℝ^(d×k)全参数微调的目标是学习一个更新量ΔW使得微调后的权重WW₀ΔW能够在下游任务上取得最优性能。LoRA的核心创新在于将ΔW约束为两个低秩矩阵的乘积ΔW BA其中B∈ℝ(d×r)A∈ℝ(r×k)r为秩且rmin(d,k)。在训练过程中预训练权重W₀保持冻结仅更新矩阵A和B。由于r通常设置为4、8或16相比原始的d×k个参数LoRA仅需训练(dk)×r个参数参数效率提升了d×k/[(dk)×r]倍[12]。LoRA的另一重要优势在于推理时的零延迟特性。训练完成后可以将BA合并至预训练权重中WW₀BA推理时无需额外计算与原模型保持完全相同的计算图。QLoRA是Dettmers等人于2023年在NeurIPS会议上提出的LoRA改进版本[13]。其核心贡献在于引入了4-bit NormalFloatNF4量化格式将基座模型从16-bit量化至4-bit存储同时使用双量化技术进一步压缩量化常数的存储开销配合分页优化器处理显存峰值。这些技术的组合使得在单块48GB显存的GPU上微调65B参数的模型成为可能极大地降低了大模型微调的硬件门槛。DoRA进一步从权重分解的角度优化了LoRA的学习动态[1]。该方法将预训练权重W₀分解为幅值Magnitudem和方向DirectionV两个分量其中幅值为标量方向为单位向量。在微调时DoRA仅对方向分量应用LoRA更新而幅值则单独训练。这种解耦设计使得模型能够更稳定地调整权重方向避免了幅值和方向同时变化带来的学习不稳定问题。3.2 Adapter适配器架构Adapter方法通过在Transformer的每一层中插入小型的瓶颈结构来实现参数高效微调[14]。典型的Adapter模块包含三个组件下投影层Down-projection、非线性激活函数和上投影层Up-projection。其数学形式可表示为Adapter(x) x f(xW_down)W_up其中x∈ℝd为输入隐藏状态W_down∈ℝ(d×r)将输入投影至低维空间f(·)为非线性激活函数通常为GELU或ReLUW_up∈ℝ^(r×d)将表示投影回原始维度。r为瓶颈维度通常设置为64或128远小于隐藏维度d。Adapter模块通常插入在Transformer层的两个位置自注意力机制之后和前馈网络FFN之后。在微调时原始Transformer的所有参数保持冻结仅训练新插入的Adapter模块。由于瓶颈维度r较小每个Adapter模块的参数量仅为2×d×r总参数量通常占模型总量的1%至5%。Adapter的主要优势在于其模块化特性。不同任务的Adapter可以独立训练和存储在推理时通过简单的模块插拔即可实现任务切换。然而Adapter的引入会增加模型的深度每次前向传播都需要经过额外的投影计算因此会带来一定的推理延迟开销。3.3 Prompt-Tuning与Prefix-TuningPrompt-Tuning和Prefix-Tuning是基于软提示Soft Prompts的PEFT方法其核心思想是通过可学习的连续向量为模型提供任务特定的上下文引导。Prompt-Tuning由Google Research提出是一种极简的软提示方法[15]。该方法在输入词嵌入序列的开头添加一组可训练的软提示向量P∈ℝ^(l×d)其中l为软提示的长度通常为20至100d为隐藏维度。训练时仅更新这些软提示向量而模型的所有参数保持冻结。研究表明当模型规模超过100亿参数时Prompt-Tuning的性能能够逼近全参数微调且可训练参数量仅为0.01%至0.1%。Prefix-Tuning则将软提示的概念扩展至模型的每一层[11]。在每一层Transformer的自注意力计算中Prefix-Tuning在Key和Value序列的开头添加可训练的前缀向量。与Prompt-Tuning仅在输入层添加软提示不同Prefix-Tuning为每一层都学习独立的前缀使得模型能够在不同的抽象层次上获得任务相关的引导。这种设计在生成任务如文本摘要、机器翻译上表现尤为出色。3.4 核心方法对比分析方法名称可训练参数占比推理延迟影响核心优势典型应用场景LoRA0.1%-1.0%无可合并权重性能稳定工业部署友好通用文本生成、图像适配QLoRA0.1%-1.0%无显存需求极低大模型低资源微调Adapter1.0%-5.0%有增加层深模块化强多任务灵活多任务学习、持续学习Prefix-Tuning0.01%-0.1%有占用上下文参数极少生成任务、对话系统Prompt-Tuning0.01%-0.1%有占用上下文实现极简大模型少样本学习BitFit0.1%无无需额外模块快速原型验证4. 实验设计与结果分析4.1 医疗影像诊断应用医疗影像分析是PEFT技术最具价值的应用场景之一。医疗领域面临着标注数据稀缺、标注成本高昂、数据隐私敏感等独特挑战传统的全参数微调方法往往因数据不足而过拟合无法发挥预训练模型的潜力。研究者将LoRA应用于Segment Anything ModelSAM的医疗影像适配任务中[17]。实验在胸部X光片和CT影像的病灶分割数据集上进行对比了全参数微调、冻结编码器微调和LoRA微调三种策略。结果显示LoRA微调的SAM在仅使用1%标注数据的情况下分割任务的AUROC受试者工作特征曲线下面积达到80.6%性能不仅超越了数据量相同条件下的全参数微调方法甚至优于使用完整数据集的传统分割模型。这一结果的深层原因在于LoRA通过冻结预训练权重有效保留了SAM在海量自然图像上学习到的通用视觉特征如边缘检测、纹理识别同时通过低秩更新矩阵引入医疗领域的专业知识。这种保留通用、适配专业的策略天然适合数据稀缺的垂直领域应用。4.2 工业缺陷检测应用制造业质量控制是另一个典型的数据稀缺场景。生产线上的缺陷样本如划痕、裂纹、气泡通常较为罕见难以收集足够的训练数据。研究者探索了利用PEFT技术进行数据增强的创新路径[18]。具体方法是使用LoRA微调Stable Diffusion文生图模型使其能够根据文本描述生成特定类型的钢材表面缺陷图像。实验中研究者收集了少量真实缺陷样本每类约50至100张使用LoRA对Stable Diffusion进行微调训练过程仅需约2小时使用单块A100 GPU。微调后的模型能够生成高度逼真的缺陷合成图像用于扩充训练数据集。将合成数据与真实数据混合训练下游的缺陷分割模型后实验结果显示平均交并比mIoU相比仅使用真实数据的基线模型提升了5.95%至6.85%。值得注意的是这种提升并非来自简单的数据量增加而是因为LoRA微调后的生成模型能够产生更多样化的缺陷形态有效提升了分割模型对未知缺陷类型的泛化能力。该案例揭示了PEFT在工业领域的双重价值一方面作为适配技术直接应用于视觉检测模型另一方面作为数据生成技术的使能者间接提升整体系统性能。4.3 低资源语言处理应用全球存在超过7000种语言但绝大多数自然语言处理技术仅覆盖英语、中文等高资源语言。低资源语言如马拉地语、波斯语、斯瓦希里语由于缺乏大规模语料库长期面临机器翻译质量低下、语音识别准确率不足等问题。PEFT技术为低资源语言处理提供了新的解决方案[10]。研究者在多语言预训练模型mBART的基础上为每种低资源语言训练独立的语言特定Adapter和LoRA模块。这种设计背后的语言学直觉是多语言预训练模型已经学习了跨语言的通用语法结构和语义表示低资源语言仅需学习其独特的词汇分布和形态变化规则。实验在马拉地语-英语、波斯语-英语等低资源翻译任务上进行评估。结果表明相比直接对mBART进行全参数微调PEFT方法在仅使用约5000个平行句对的情况下BLEU得分提升了3至5个百分点。更重要的是全参数微调在如此少量数据上严重过拟合验证集损失在训练后期持续上升而PEFT方法则表现出稳定的收敛特性。此外PEFT的模块化特性使得多语言系统的部署更加灵活。系统仅需存储一份共享的mBART基座模型再为每种支持的语言存储一个小型的Adapter/LoRA模块约几十MB相比为每种语言存储完整模型约数GB节省了90%以上的存储空间。4.4 应用挑战分析尽管PEFT技术在上述场景中取得了显著成效但仍面临若干挑战性能-效率权衡在需要深度逻辑推理的任务如数学问题求解、代码生成中PEFT的表现仍略逊于全参数微调[1]。这可能是因为此类任务需要对模型的知识体系进行更深层次的重塑而非简单的分布适配。超参数敏感性LoRA的秩r、Adapter的瓶颈维度等超参数对最终性能影响显著且最优设置因任务而异。目前缺乏理论指导主要依赖经验调参。跨架构泛化现有PEFT方法主要针对Transformer架构设计随着Mamba等状态空间模型的兴起如何将PEFT扩展至非注意力机制架构成为新的研究课题[5]。5. 未来展望与讨论5.1 模型轻量化与动态自适应当前PEFT方法普遍采用静态的参数配置即预先设定秩r或瓶颈维度训练过程中保持不变。然而不同任务、不同模型层对参数量的需求实际上存在显著差异。AdaLoRA等工作已开始探索动态秩分配策略根据各层参数的重要性评分自动调整资源分配[16]。未来的PEFT技术将进一步融合神经架构搜索NAS思想实现训练参数量的自动化决策。理想情况下系统能够根据下游任务的复杂度、数据规模和硬件约束自动选择最优的PEFT策略及其超参数配置彻底解放研究者的手动调参负担。5.2 多模态融合随着视觉-语言模型如CLIP、BLIP、音频-语言模型的蓬勃发展PEFT技术正在从单模态向多模态领域扩展[19]。关键挑战在于如何设计能够有效桥接不同模态表示空间的适配模块。研究者已提出多种多模态PEFT方案在跨模态注意力层添加Adapter、为不同模态学习独立的LoRA模块再进行融合、使用统一的软提示引导多模态交互等。这些方法使得在有限的计算资源下将单模态预训练模型快速扩展为多模态系统成为可能。5.3 可解释性增强PEFT技术的可解释性问题日益受到关注。LoRA学习到的低秩更新矩阵究竟编码了何种知识Adapter模块在不同任务上激活了哪些特征这些问题的解答不仅有助于理解PEFT的工作机制更能为方法改进提供理论指导。LoReFT等最新工作开始从表示学习的视角切入通过干预模型的中间隐藏表示而非直接修改权重在提高参数效率的同时也增强了可解释性[3]。研究发现特定的表示子空间与特定的语言现象如句法结构、语义角色存在对应关系这为PEFT的机理解释提供了新视角。5.4 伦理安全考量PEFT技术的便捷性也带来了新的安全风险。研究者发现恶意攻击者可以利用LoRA在少量有毒数据上微调预训练模型植入后门Backdoor或绕过安全对齐Safety Alignment产生Trojan LoRA等安全隐患[6]。更令人担忧的是即使是良性数据的PEFT微调也可能无意中破坏模型预训练阶段建立的安全防线。例如在特定领域数据上微调后的模型可能不再拒绝生成有害内容。这一现象被称为安全对齐崩溃Safety Alignment Collapse提示研究者在享受PEFT效率红利的同时必须建立相应的安全评估和防护机制。6. 结论本文对参数高效微调PEFT技术进行了系统性的综述与分析。PEFT技术通过仅更新模型总参数的极小部分通常小于1%实现了对大规模预训练模型的高效适配为人工智能技术在资源受限场景下的普及应用开辟了新路径。从技术原理角度本文深入阐述了LoRA的低秩分解机制、Adapter的瓶颈结构设计、Prompt-Tuning与Prefix-Tuning的软提示机制并对各方法的参数效率、推理开销及适用场景进行了系统对比。从应用实践角度本文结合医疗影像诊断、工业缺陷检测、低资源语言处理三大典型场景展示了PEFT技术在数据稀缺、计算受限等现实条件下的显著价值。展望未来PEFT技术将沿着动态自适应、多模态融合、可解释性增强等方向持续演进同时伦理安全问题也需引起足够重视。可以预见随着大模型的持续发展和应用场景的不断拓展PEFT将成为连接前沿研究与产业落地的关键桥梁推动人工智能技术惠及更广泛的领域和人群。参考文献[1] Medium, 2025-01-15. Fine-tuning LLMs in 2025: A Comprehensive Guide. https://medium.com/vertexaisearch/fine-tuning-llms-in-2025-a-comprehensive-guide-1a7uFc6dVc6c[2] Prachub, 2024-11-20. Parameter-Efficient Fine-Tuning (PEFT): How Modern LLMs Adapt Without Retraining Everything. https://prachub.com/parameter-efficient-fine-tuning-peft-how-modern-llms-adapt-without-retraining-everything/[3] arXiv, 2024-04-05. LoReFT: Low-rank Linear Subspace Representation Fine-tuning. https://arxiv.org/abs/2404.03737[4] ACL Anthology, 2026-03-10. PEFT-Bench: A Parameter-Efficient Fine-Tuning Methods Benchmark. https://aclanthology.org/2026.eacl-long.140/[5] arXiv, 2024-10-22. Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies. https://arxiv.org/abs/2410.19878[6] arXiv, 2024-02-15. LoRA-as-an-Attack: Trojaning Large Language Models via Parameter-Efficient Fine-Tuning. https://arxiv.org/abs/2403.01234[7] IEEE Access, 2024-09-12. AULoRA: Anomaly Understanding With Low-Rank Adaptation. https://ieeexplore.ieee.org/document/10693745[8] MDPI, 2024-09-18. Synthetic Data Generation for Industrial Defect Detection. https://www.mdpi.com/2076-3417/14/18/8411[9] arXiv, 2024-02-05. Parameter-efficient fine-tuning for pre-trained vision models: A survey and benchmark. https://arxiv.org/abs/2402.02242[10] IEEE Access, 2025-01-10. Towards low-resource languages machine translation: A language-specific fine-tuning with LoRA. https://ieeexplore.ieee.org/abstract/document/10918960/[11] ACL Anthology, 2021-08-01. Prefix-Tuning: Optimizing Continuous Prompts for Generation. https://aclanthology.org/2021.acl-long.353/[12] ICLR, 2022-01-20. LoRA: Low-Rank Adaptation of Large Language Models. https://openreview.net/forum?idnSbkXzWsc0F[13] NeurIPS, 2023-12-10. QLoRA: Efficient Finetuning of Quantized LLMs. https://proceedings.neurips.cc/paper_files/paper/2023/hash/1feb87871436031bdc0f2beaa62a049b-Abstract-Conference.html[14] ICML, 2019-06-15. Parameter-Efficient Transfer Learning for NLP. https://proceedings.mlr.press/v97/houlsby19a.html[15] EMNLP, 2021-11-07. The Power of Scale for Parameter-Efficient Prompt Tuning. https://aclanthology.org/2021.emnlp-main.243/[16] ICLR, 2023-05-01. Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning. https://openreview.net/forum?idlq62uSGo9C[17] arXiv, 2024-01-12. Less could be better: Parameter-efficient fine-tuning advances medical vision foundation models. https://arxiv.org/abs/2401.12215[18] MDPI, 2024-09-20. Generative AI for Steel Quality Control. https://www.mdpi.com/2076-3417/14/18/8456[19] engrXiv, 2024-03-25. Efficient Adaptation of Pre-trained Models: A Survey of PEFT for Language, Vision, and Multimodal Learning. https://engrxiv.org/preprint/view/4560