LoRA微调:大模型低成本微调的标准答案

LoRA微调:大模型低成本微调的标准答案 在小模型时代BERT全量微调**更新预训练模型的所有参数**是常规操作但在千亿/万亿参数的大模型时代全量微调存在如下问题。算力成本爆炸普通玩家玩不起以7B参数模型为例全量微调一次需要同时加载模型权重、优化器状态、梯度、中间激活显存需求很容易超过 100GB即便上优化手段也需要一张 A100/H100才能跑。对于更大的大模型需要多卡集群才行。过拟合风险高灾难性遗忘严重大模型的预训练知识是通用的全量微调会直接修改所有参数很容易在下游任务上过拟合同时遗忘预训练学到的通用知识灾难性遗忘。微调后的模型在其他任务上的性能会大幅下降通用性完全丧失。为了解决上述问题许多局部微调技术LoRA、Prefix Tuning、Prompt Tuning等被提出。经过大浪淘沙LoRA已成为现在的主流微调技术。LoRALow-Rank Adaptation低秩适配用更少的训练参数来近似LLM全参数微调所得的增量参数从而达到使用更少显存占用的高效微调。LoRA 的思想很简单。在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路Adapter做一个降维再升维的操作来模拟所谓的内在秩。训练的时候固定 PLM 的参数只训练降维矩阵 A 与升维矩阵 B 。而模型的输入输出维度不变输出时将 BA 与 PLM 的参数叠加。用随机高斯分布初始化 A用 0 矩阵初始化 B 保证训练的开始此旁路矩阵依然是 0 矩阵。Q1什么是秩答秩是矩阵里独立信息线性无关的向量的数量。矩阵秩高表示矩阵含有很多互相独立的向量矩阵秩低表示矩阵的很多信息是重复线性组合真正有用的向量很少。全参数微调ΔW 看起来是高维矩阵但实际上它**内在秩很低**大部分更新都是重复、线性相关的真正独立有用的方向只有很少几个因此只需要用一个低秩分解 BA 就能完美模拟 ΔW。假设要在下游任务微调一个预训练语言模型如 GPT-3则需要更新预训练模型参数公式表示如下W0 ΔWW0 是预训练模型初始化的参数ΔW 就是需要更新的参数。如果是全参数微调则它的参数量为W0如果是 GPT-3则 ΔW ≈ 175B代价非常高。对于 LORA 来说只需要微调 ΔW。假设预训练的矩阵为W0∈Rd×k 它的更新可表示为其中秩 r ≪ min(d,k) k 表示输入维度d 表示输出维度。LoRA 在训练过程中W0是固定不变的只有 A 和 B 是训练参数。在推理过程中LoRA 也几乎未引入额外的推理延迟只需要合并权重W W0 ΔW即可。LoRA 与 Transformer 的结合也很简单仅在 QKV Attention 的计算中增加一个旁路。Q2LoRA的实际效果如何答经过在多个数据集上的对比LoRA在性能上可与全参数微调持平、甚至超过全参数微调。并且LORA 相比其它微调方法增加参数量不会导致性能的下降。所以一般我们进行SFT微调时使用LoRA即可。Q3Transformer中LoRA一般适配哪些参数占全量参数多大比例答一般默认只适配Self-Attention 里的线性层FFN 一般不动。为什么呢因为注意力层的参数更新秩最低加 LoRA 收益最大FFN参数多ΔW **秩高**加了收益小。Self-Attention 里的线性层包括Query 投影层 Wq、**Key 投影层 Wk、**Value 投影层 Wv还有输出投影层 Wo。这些参数加起来一般只占大模型全量参数的0.1~0.2%。Q4: LoRA的秩一般设置成多少比较好答一般情况下设置为r16即可想省显存、快训 设置r8复杂专业领域 可以设置r32。****AI行业迎来前所未有的爆发式增长从DeepSeek百万年薪招聘AI研究员到百度、阿里、腾讯等大厂疯狂布局AI Agent再到国家政策大力扶持数字经济和AI人才培养所有信号都在告诉我们AI的黄金十年真的来了在行业火爆之下AI人才争夺战也日趋白热化其就业前景一片蓝海我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取人才缺口巨大人力资源社会保障部有关报告显示据测算当前****我国人工智能人才缺口超过500万****供求比例达1∶10。脉脉最新数据也显示AI新发岗位量较去年初暴增29倍超1000家AI企业释放7.2万岗位……单拿今年的秋招来说各互联网大厂释放出来的招聘信息中我们就能感受到AI浪潮比如百度90%的技术岗都与AI相关就业薪资超高在旺盛的市场需求下AI岗位不仅招聘量大薪资待遇更是“一骑绝尘”。企业为抢AI核心人才薪资给的非常慷慨过去一年懂AI的人才普遍涨薪40%脉脉高聘发布的《2025年度人才迁徙报告》显示在2025年1月-10月的高薪岗位Top20排行中AI相关岗位占了绝大多数并且平均薪资月薪都超过6w在去年的秋招中小红书给算法相关岗位的薪资为50k起字节开出228万元的超高年薪据《2025年秋季校园招聘白皮书》AI算法类平均年薪达36.9万遥遥领先其他行业总结来说当前人工智能岗位需求多薪资高前景好。在职场里选对赛道就能赢在起跑线。抓住AI风口轻松实现高薪就业但现实却是仍有很多同学不知道如何抓住AI机遇会遇到很多就业难题比如❌ 技术过时只会CRUD的开发者在AI浪潮中沦为“职场裸奔者”❌ 薪资停滞初级岗位内卷到白菜价传统开发3年经验薪资涨幅不足15%❌ 转型无门想学AI却找不到系统路径83%自学党中途放弃。他们的就业难题解决问题的关键在于不仅要选对赛道更要跟对老师我给大家准备了一份全套的《AI大模型零基础入门进阶学习资源包》包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。有需要的小伙伴可以V扫描下方二维码免费领取