之前我写过用 Unsloth Studio 跑 4B 微调又对照了 LlamaFactory有人私信问“4B 跑通了9B 我自己显卡能不能跑” “训练数据格式我搞不清楚到底要长什么样”这周用真实客服数据从 0 到 1 微调了 Qwen3.5:9b跑通整个流程RTX 4060 8GB 显存正好能上下面把完整数据模板、超参、显存优化、效果验证都拆给你看完就能直接套到你自己业务。一、为什么是 9B 而不是 4B之前那篇说显存吃紧选 4B。但只要你显存到 8GB4060 / 4070 / 3060 12G 都行9B 强烈优于 4B维度qwen3.5:4b 微调后qwen3.5:9b 微调后客服对话流畅度⭐⭐⭐⭐⭐⭐⭐⭐⭐业务术语理解⭐⭐⭐ 偶尔走偏⭐⭐⭐⭐⭐ 几乎不出错复杂多轮对话⭐⭐⭐ 三轮后失焦⭐⭐⭐⭐⭐ 八轮稳定拒答边界⭐⭐⭐ 偶尔乱编⭐⭐⭐⭐⭐ 不知道就说不知道训练耗时500条38 分钟1 小时 50 分钟时间多花一倍质量直接上一个台阶。真要部署用的选 9B 别犹豫。二、客服数据集模板数据质量是微调成败 70%。客服场景标准格式JSONL每行一条对话{messages: [ {role: system, content: 你是 X 公司的客服助手专业、友好、简洁。只回答与本公司产品、订单、售后相关的问题其他问题礼貌引导用户咨询人工客服。}, {role: user, content: 你们退货多久能到账}, {role: assistant, content: 您好退货商品我们签收后 1-3 个工作日内会原路退款到您的支付账户请耐心等待哦。如果超过 3 个工作日还没到账可以联系人工客服为您查询。}]}关键点直接决定模型质量system prompt 一定要写公司人设模型会把人设当灵魂学进去后面无 prompt 也保持风格回复长度要统一长短训练 500 条全是一段话回复模型就不会突然给你长篇大论。一致性 详尽要覆盖拒答场景放 50 条用户问无关问题、AI 礼貌引导的样本否则模型啥都敢答多轮对话要占 30%现实客服很少一问一答要训练上下文跟随写 prompt 的人 ≠ 写 answer 的人让客服主管或质检员写 answer 部分prompt 由产品/运营写能避免自问自答风格雷同数据规模数据量效果适用100 条以下几乎学不会人设不要做300-500 条风格学得到但术语易错demo 验证1000-3000 条推荐量业务问题准确率 80%实际部署5000 条以上边际收益递减非必要别加我这次实测 1200 条下面的指标都是基于这个量。三、训练前准备装 Unsloth之前装过可跳过pip install unsloth数据预处理把 JSONL 拆 90% 训练 / 10% 验证先用 jq 简单分割shuf data.jsonl shuffled.jsonlsplit -l 1080 shuffled.jsonl part_mv part_aa train.jsonlmv part_ab val.jsonl下载模型from unsloth import FastLanguageModelmodel, tokenizer FastLanguageModel.from_pretrained( model_nameunsloth/Qwen3.5-9B-Instruct-bnb-4bit, max_seq_length4096, dtypeNone, load_in_4bitTrue,)第一次下载 5.2GB国内慢的话设HF_ENDPOINThttps://hf-mirror.com。四、LoRA 配置 训练model FastLanguageModel.get_peft_model( model, r32, # LoRA 秩9B 推荐 32 target_modules[ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj, ], lora_alpha64, # 一般 2 倍 r lora_dropout0, biasnone, use_gradient_checkpointingunsloth, # 关键省显存 random_state42,)from trl import SFTTrainerfrom transformers import TrainingArgumentstrainer SFTTrainer( modelmodel, tokenizertokenizer, train_datasettrain_dataset, eval_datasetval_dataset, max_seq_length4096, dataset_text_fieldtext, argsTrainingArguments( per_device_train_batch_size1, gradient_accumulation_steps8, warmup_steps20, num_train_epochs3, learning_rate2e-4, fp16True, logging_steps10, eval_steps50, save_steps100, output_diroutputs, ),)trainer.train()关键参数我用 1200 条客服数据实测过的甜区参数我的值备注LoRA 秩 r32客服场景不需要更高alpha642 倍 r学习率2e-49B 比 4B 稍高epochs32 欠拟合4 过拟合batch × accum1 × 8等效 batch 84060 不爆序列长度4096客服多轮够用RTX 4060 实测显存峰值7.6GB4060 8GB 险胜训练时间1 小时 50 分钟训练 loss从 1.84 降到 0.41验证 loss从 1.78 降到 0.52轻微过拟合可接受五、效果验证训练前 vs 训练后我用 50 条没在训练集出现的真实客服问题做测试两个模型同一份 prompt测试维度原始 qwen3.5:9b微调后是否首句问候23%96%是否提本公司14%98%回复长度 60-150 字41%89%不知道时如实说32% 乱编87% 引导人工业务术语正确76%95%最直观差异问你们运费多少原始模型会编一个通常 8-15 元微调后会答我们包邮满 99 元未满 99 元收 6 元运费——它学会了你的真实业务参数。六、导出给 Ollama 用Unsloth 一键导出 GGUFmodel.save_pretrained_gguf(kefu-model, tokenizer, quantization_methodq4_k_m)跑完得到kefu-model.gguf约 5.5GB。给 Ollama 加载# ModelfileFROM ./kefu-model.ggufPARAMETER temperature 0.3PARAMETER num_ctx 4096SYSTEM 你是 X 公司的客服助手…… plaintext ollama create kefu -f Modelfileollama run kefu接进 Open WebUI / FastAPI / Continue 都和普通模型一样。七、客服微调避坑清单不要用 ChatGPT 生成训练数据再去训练很多人偷懒让 GPT 写 1000 条客服对话直接训结果训出来的模型有AI 味——它学的是 GPT 的语气而不是你公司的。真人写 真业务样本才有效。数据脱敏要彻底训练数据里的真实姓名、手机号、订单号统一替换成占位符name、phone。否则模型会记住个别用户信息泄露风险高。拒答边界要训死必须放至少 100 条用户问无关问题AI 礼貌引导的样本否则模型对法律 / 医疗 / 投资类问题敢瞎答。业务术语统一客服话术中运费还是邮费必须二选一不一致模型会学得糊涂。我之前混着写模型输出也跟着混乱。训练完别在原模型上继续训以为再训一遍效果更好——错。LoRA 重复训会让权重漂得越来越远从训练好的 checkpoint 做小数据继续训前先备份基线版本。生产环境必上灰度哪怕你测试集 95% 通过也要先让微调模型回 5% 流量、人工抽查 3-5 天再扩。我第一次部署翻车的就是没做灰度第一天模型把促销活动日期答错了 17 单。八、行动建议✅有真实业务对话数据 500 条以上今天就可以开训✅客服 / FAQ / 法务咨询等风格 知识场景LoRA 微调是性价比最高的方案✅8GB 显存 4060 / 4070Unsloth 4-bit QLoRA 9B 正好够❌数据 200 条先攒数据再训硬训不如 prompt engineering❌想训练事实记忆让模型记最新政策这种任务用 RAG不要用微调学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
Qwen3.5-9B LoRA 微调实战:用客服数据训练专属问答模型
之前我写过用 Unsloth Studio 跑 4B 微调又对照了 LlamaFactory有人私信问“4B 跑通了9B 我自己显卡能不能跑” “训练数据格式我搞不清楚到底要长什么样”这周用真实客服数据从 0 到 1 微调了 Qwen3.5:9b跑通整个流程RTX 4060 8GB 显存正好能上下面把完整数据模板、超参、显存优化、效果验证都拆给你看完就能直接套到你自己业务。一、为什么是 9B 而不是 4B之前那篇说显存吃紧选 4B。但只要你显存到 8GB4060 / 4070 / 3060 12G 都行9B 强烈优于 4B维度qwen3.5:4b 微调后qwen3.5:9b 微调后客服对话流畅度⭐⭐⭐⭐⭐⭐⭐⭐⭐业务术语理解⭐⭐⭐ 偶尔走偏⭐⭐⭐⭐⭐ 几乎不出错复杂多轮对话⭐⭐⭐ 三轮后失焦⭐⭐⭐⭐⭐ 八轮稳定拒答边界⭐⭐⭐ 偶尔乱编⭐⭐⭐⭐⭐ 不知道就说不知道训练耗时500条38 分钟1 小时 50 分钟时间多花一倍质量直接上一个台阶。真要部署用的选 9B 别犹豫。二、客服数据集模板数据质量是微调成败 70%。客服场景标准格式JSONL每行一条对话{messages: [ {role: system, content: 你是 X 公司的客服助手专业、友好、简洁。只回答与本公司产品、订单、售后相关的问题其他问题礼貌引导用户咨询人工客服。}, {role: user, content: 你们退货多久能到账}, {role: assistant, content: 您好退货商品我们签收后 1-3 个工作日内会原路退款到您的支付账户请耐心等待哦。如果超过 3 个工作日还没到账可以联系人工客服为您查询。}]}关键点直接决定模型质量system prompt 一定要写公司人设模型会把人设当灵魂学进去后面无 prompt 也保持风格回复长度要统一长短训练 500 条全是一段话回复模型就不会突然给你长篇大论。一致性 详尽要覆盖拒答场景放 50 条用户问无关问题、AI 礼貌引导的样本否则模型啥都敢答多轮对话要占 30%现实客服很少一问一答要训练上下文跟随写 prompt 的人 ≠ 写 answer 的人让客服主管或质检员写 answer 部分prompt 由产品/运营写能避免自问自答风格雷同数据规模数据量效果适用100 条以下几乎学不会人设不要做300-500 条风格学得到但术语易错demo 验证1000-3000 条推荐量业务问题准确率 80%实际部署5000 条以上边际收益递减非必要别加我这次实测 1200 条下面的指标都是基于这个量。三、训练前准备装 Unsloth之前装过可跳过pip install unsloth数据预处理把 JSONL 拆 90% 训练 / 10% 验证先用 jq 简单分割shuf data.jsonl shuffled.jsonlsplit -l 1080 shuffled.jsonl part_mv part_aa train.jsonlmv part_ab val.jsonl下载模型from unsloth import FastLanguageModelmodel, tokenizer FastLanguageModel.from_pretrained( model_nameunsloth/Qwen3.5-9B-Instruct-bnb-4bit, max_seq_length4096, dtypeNone, load_in_4bitTrue,)第一次下载 5.2GB国内慢的话设HF_ENDPOINThttps://hf-mirror.com。四、LoRA 配置 训练model FastLanguageModel.get_peft_model( model, r32, # LoRA 秩9B 推荐 32 target_modules[ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj, ], lora_alpha64, # 一般 2 倍 r lora_dropout0, biasnone, use_gradient_checkpointingunsloth, # 关键省显存 random_state42,)from trl import SFTTrainerfrom transformers import TrainingArgumentstrainer SFTTrainer( modelmodel, tokenizertokenizer, train_datasettrain_dataset, eval_datasetval_dataset, max_seq_length4096, dataset_text_fieldtext, argsTrainingArguments( per_device_train_batch_size1, gradient_accumulation_steps8, warmup_steps20, num_train_epochs3, learning_rate2e-4, fp16True, logging_steps10, eval_steps50, save_steps100, output_diroutputs, ),)trainer.train()关键参数我用 1200 条客服数据实测过的甜区参数我的值备注LoRA 秩 r32客服场景不需要更高alpha642 倍 r学习率2e-49B 比 4B 稍高epochs32 欠拟合4 过拟合batch × accum1 × 8等效 batch 84060 不爆序列长度4096客服多轮够用RTX 4060 实测显存峰值7.6GB4060 8GB 险胜训练时间1 小时 50 分钟训练 loss从 1.84 降到 0.41验证 loss从 1.78 降到 0.52轻微过拟合可接受五、效果验证训练前 vs 训练后我用 50 条没在训练集出现的真实客服问题做测试两个模型同一份 prompt测试维度原始 qwen3.5:9b微调后是否首句问候23%96%是否提本公司14%98%回复长度 60-150 字41%89%不知道时如实说32% 乱编87% 引导人工业务术语正确76%95%最直观差异问你们运费多少原始模型会编一个通常 8-15 元微调后会答我们包邮满 99 元未满 99 元收 6 元运费——它学会了你的真实业务参数。六、导出给 Ollama 用Unsloth 一键导出 GGUFmodel.save_pretrained_gguf(kefu-model, tokenizer, quantization_methodq4_k_m)跑完得到kefu-model.gguf约 5.5GB。给 Ollama 加载# ModelfileFROM ./kefu-model.ggufPARAMETER temperature 0.3PARAMETER num_ctx 4096SYSTEM 你是 X 公司的客服助手…… plaintext ollama create kefu -f Modelfileollama run kefu接进 Open WebUI / FastAPI / Continue 都和普通模型一样。七、客服微调避坑清单不要用 ChatGPT 生成训练数据再去训练很多人偷懒让 GPT 写 1000 条客服对话直接训结果训出来的模型有AI 味——它学的是 GPT 的语气而不是你公司的。真人写 真业务样本才有效。数据脱敏要彻底训练数据里的真实姓名、手机号、订单号统一替换成占位符name、phone。否则模型会记住个别用户信息泄露风险高。拒答边界要训死必须放至少 100 条用户问无关问题AI 礼貌引导的样本否则模型对法律 / 医疗 / 投资类问题敢瞎答。业务术语统一客服话术中运费还是邮费必须二选一不一致模型会学得糊涂。我之前混着写模型输出也跟着混乱。训练完别在原模型上继续训以为再训一遍效果更好——错。LoRA 重复训会让权重漂得越来越远从训练好的 checkpoint 做小数据继续训前先备份基线版本。生产环境必上灰度哪怕你测试集 95% 通过也要先让微调模型回 5% 流量、人工抽查 3-5 天再扩。我第一次部署翻车的就是没做灰度第一天模型把促销活动日期答错了 17 单。八、行动建议✅有真实业务对话数据 500 条以上今天就可以开训✅客服 / FAQ / 法务咨询等风格 知识场景LoRA 微调是性价比最高的方案✅8GB 显存 4060 / 4070Unsloth 4-bit QLoRA 9B 正好够❌数据 200 条先攒数据再训硬训不如 prompt engineering❌想训练事实记忆让模型记最新政策这种任务用 RAG不要用微调学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】