▎ 什么是 LLaMA FactoryLLaMA Factory 是一个开源的大语言模型训练与微调平台支持超过 100 种预训练模型的高效微调。它入选了 ACL 2024 论文目前在 GitHub 上已获得超过 40K 星标是大模型微调领域最受欢迎的工具之一。无论你是研究人员还是工程师无论你有多卡 A100 集群还是只有一张消费级显卡LLaMA Factory 都能帮你快速完成微调任务——甚至不需要写一行代码。 核心优势集成方法丰富、多精度支持、先进优化算法、WebUI 零代码操作、极速推理部署。▎ 快速安装三行命令即可完成安装git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factorypip install -e “.[torch,metrics]” --no-build-isolation安装完成后运行 llamafactory-cli version 验证是否成功。如果使用 Docker可以一键启动docker run -it --rm --gpusall --ipchost hiyouga/llamafactory:latest▎ 三大微调策略LLaMA Factory 支持的微调策略可以分为三大类它们在效果和资源消耗之间各有取舍全参微调Full更新模型的全部权重参数效果最好但显存需求巨大。通常需要配合 DeepSpeed ZeRO-3 在多卡环境下进行。适合追求极致效果且资源充足的场景。finetuning_type: full冻结微调Freeze只更新模型的部分层大幅降低显存开销。通过指定冻结层数和可训练模块在保持一定效果的前提下显著减少计算资源需求。finetuning_type: freezeLoRA 低秩适配推荐LoRA 是目前最主流的高效微调方法。它冻结全部预训练权重仅在关键层插入一对低秩矩阵进行训练。配合 4-bit 量化QLoRA甚至可以在单张 RTX 3090 上微调 7B 模型。finetuning_type: lora lora_target: all lora_rank: 8 lora_alpha: 16 新手推荐使用 LoRA 4-bit 量化QLoRA是效果与资源消耗的最佳平衡点。▎ LoRA 的进阶变体LLaMA Factory 还支持多种 LoRA 改进方案帮助你在不同场景下获得更好的效果LoRA为适配器矩阵 A 和 B 设置不同学习率克服 LoRA 的次优问题。设置 loraplus_lr_ratio 即可启用。rsLoRA修改缩放因子让大 rank 的 LoRA 训练更加稳定避免梯度崩溃。设置 use_rslora: true 启用。DoRA将预训练权重分解为幅度和方向两个分量分别进行更新提升微调效果。设置 use_dora: true 启用。PiSSA使用 SVD 分解原权重的主成分来初始化适配器收敛速度更快。设置 pissa_init: true 启用。▎ 六大训练阶段大模型微调不止训练这一步。LLaMA Factory 支持完整的训练流水线覆盖从预训练到对齐的全过程。阶段一预训练Pre-training在大规模语料上继续训练增强模型的领域知识。例如用医学文献对通用模型进行增量预训练让它具备更强的医学理解能力。stage: pt阶段二监督微调SFT⭐最核心的微调阶段。通过指令-回答对训练模型让它学会遵循用户指令。这是后续所有对齐训练的基础。stage: sft dataset: alpaca_zh_demo finetuning_type: lora阶段三奖励模型训练RM训练一个评委模型学习什么样的回答更符合人类偏好。它为后续的 PPO 强化学习提供评价信号。stage: rm dataset: dpo_en_demo阶段四PPO 强化学习经典的 RLHF 方法。通过奖励模型的反馈利用近端策略优化PPO算法调整语言模型让它输出更符合人类偏好的内容。训练过程涉及四个模型Actor、Critic、Reference、Reward。stage: ppo reward_model: saves/llama3-8b/lora/reward阶段五DPO 直接偏好优化 ⭐无需单独训练奖励模型直接从偏好数据中学习。训练更简单、更稳定、成本更低是目前最流行的对齐方案。还支持 ORPO 和 SimPO 等变体。stage: dpo pref_beta: 0.1 pref_loss: sigmoid阶段六KTO只需要标注回答的好与坏二元标注无需配对的偏好数据。在标注成本受限时是 DPO 的绝佳替代方案。stage: kto pref_beta: 0.1 推荐路径SFT → DPO最简单有效的全流程方案▎ 分布式训练当模型太大或数据太多时需要用到分布式训练。LLaMA Factory 支持三种分布式引擎DDP最基本的数据并行方案每张 GPU 保留完整模型参数。DeepSpeed微软开发的深度学习训练引擎支持 ZeRO-1/2/3 内存优化和 CPU Offload是大模型训练的首选。FSDP全切片数据并行将参数、梯度和优化器状态都分片到不同 GPU适合极限显存优化场景。DeepSpeed 启动 FORCE_TORCHRUN1 llamafactory-cli train config.yaml▎ 零代码训练WebUILLaMA Factory 提供了 LlamaBoard 可视化界面只需一行命令即可启动llamafactory-cli webui在浏览器中即可完成模型选择、数据配置、参数调整、训练启动和实时监控。无需编写任何配置文件或命令是初学者的最佳入门方式。▎ 模型合并与部署LoRA 微调后需要合并权重才能部署。LLaMA Factory 提供了便捷的合并和推理命令合并 LoRA 权重 llamafactory-cli export / --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct / --adapter_name_or_path saves/llama3-8b/lora/sft / --export_dir models/llama3_merged命令行对话 llamafactory-cli chat --model_name_or_path models/llama3_mergedAPI 服务支持 vLLM 加速 llamafactory-cli api --model_name_or_path models/llama3_merged --infer_backend vllm这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容
LLaMA Factory 微调方法全解析
▎ 什么是 LLaMA FactoryLLaMA Factory 是一个开源的大语言模型训练与微调平台支持超过 100 种预训练模型的高效微调。它入选了 ACL 2024 论文目前在 GitHub 上已获得超过 40K 星标是大模型微调领域最受欢迎的工具之一。无论你是研究人员还是工程师无论你有多卡 A100 集群还是只有一张消费级显卡LLaMA Factory 都能帮你快速完成微调任务——甚至不需要写一行代码。 核心优势集成方法丰富、多精度支持、先进优化算法、WebUI 零代码操作、极速推理部署。▎ 快速安装三行命令即可完成安装git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.gitcd LLaMA-Factorypip install -e “.[torch,metrics]” --no-build-isolation安装完成后运行 llamafactory-cli version 验证是否成功。如果使用 Docker可以一键启动docker run -it --rm --gpusall --ipchost hiyouga/llamafactory:latest▎ 三大微调策略LLaMA Factory 支持的微调策略可以分为三大类它们在效果和资源消耗之间各有取舍全参微调Full更新模型的全部权重参数效果最好但显存需求巨大。通常需要配合 DeepSpeed ZeRO-3 在多卡环境下进行。适合追求极致效果且资源充足的场景。finetuning_type: full冻结微调Freeze只更新模型的部分层大幅降低显存开销。通过指定冻结层数和可训练模块在保持一定效果的前提下显著减少计算资源需求。finetuning_type: freezeLoRA 低秩适配推荐LoRA 是目前最主流的高效微调方法。它冻结全部预训练权重仅在关键层插入一对低秩矩阵进行训练。配合 4-bit 量化QLoRA甚至可以在单张 RTX 3090 上微调 7B 模型。finetuning_type: lora lora_target: all lora_rank: 8 lora_alpha: 16 新手推荐使用 LoRA 4-bit 量化QLoRA是效果与资源消耗的最佳平衡点。▎ LoRA 的进阶变体LLaMA Factory 还支持多种 LoRA 改进方案帮助你在不同场景下获得更好的效果LoRA为适配器矩阵 A 和 B 设置不同学习率克服 LoRA 的次优问题。设置 loraplus_lr_ratio 即可启用。rsLoRA修改缩放因子让大 rank 的 LoRA 训练更加稳定避免梯度崩溃。设置 use_rslora: true 启用。DoRA将预训练权重分解为幅度和方向两个分量分别进行更新提升微调效果。设置 use_dora: true 启用。PiSSA使用 SVD 分解原权重的主成分来初始化适配器收敛速度更快。设置 pissa_init: true 启用。▎ 六大训练阶段大模型微调不止训练这一步。LLaMA Factory 支持完整的训练流水线覆盖从预训练到对齐的全过程。阶段一预训练Pre-training在大规模语料上继续训练增强模型的领域知识。例如用医学文献对通用模型进行增量预训练让它具备更强的医学理解能力。stage: pt阶段二监督微调SFT⭐最核心的微调阶段。通过指令-回答对训练模型让它学会遵循用户指令。这是后续所有对齐训练的基础。stage: sft dataset: alpaca_zh_demo finetuning_type: lora阶段三奖励模型训练RM训练一个评委模型学习什么样的回答更符合人类偏好。它为后续的 PPO 强化学习提供评价信号。stage: rm dataset: dpo_en_demo阶段四PPO 强化学习经典的 RLHF 方法。通过奖励模型的反馈利用近端策略优化PPO算法调整语言模型让它输出更符合人类偏好的内容。训练过程涉及四个模型Actor、Critic、Reference、Reward。stage: ppo reward_model: saves/llama3-8b/lora/reward阶段五DPO 直接偏好优化 ⭐无需单独训练奖励模型直接从偏好数据中学习。训练更简单、更稳定、成本更低是目前最流行的对齐方案。还支持 ORPO 和 SimPO 等变体。stage: dpo pref_beta: 0.1 pref_loss: sigmoid阶段六KTO只需要标注回答的好与坏二元标注无需配对的偏好数据。在标注成本受限时是 DPO 的绝佳替代方案。stage: kto pref_beta: 0.1 推荐路径SFT → DPO最简单有效的全流程方案▎ 分布式训练当模型太大或数据太多时需要用到分布式训练。LLaMA Factory 支持三种分布式引擎DDP最基本的数据并行方案每张 GPU 保留完整模型参数。DeepSpeed微软开发的深度学习训练引擎支持 ZeRO-1/2/3 内存优化和 CPU Offload是大模型训练的首选。FSDP全切片数据并行将参数、梯度和优化器状态都分片到不同 GPU适合极限显存优化场景。DeepSpeed 启动 FORCE_TORCHRUN1 llamafactory-cli train config.yaml▎ 零代码训练WebUILLaMA Factory 提供了 LlamaBoard 可视化界面只需一行命令即可启动llamafactory-cli webui在浏览器中即可完成模型选择、数据配置、参数调整、训练启动和实时监控。无需编写任何配置文件或命令是初学者的最佳入门方式。▎ 模型合并与部署LoRA 微调后需要合并权重才能部署。LLaMA Factory 提供了便捷的合并和推理命令合并 LoRA 权重 llamafactory-cli export / --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct / --adapter_name_or_path saves/llama3-8b/lora/sft / --export_dir models/llama3_merged命令行对话 llamafactory-cli chat --model_name_or_path models/llama3_mergedAPI 服务支持 vLLM 加速 llamafactory-cli api --model_name_or_path models/llama3_merged --infer_backend vllm这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容