从0到1部署Ling-2.6-flash-fp8SGLang与vLLM环境搭建完整教程【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8Ling-2.6-flash-fp8是一款具有1040亿总参数和74亿活跃参数的指令模型专为推理效率、令牌效率和代理性能优化在4×H20设置上可达到高达340 tokens/s的推理速度非常适合生产环境部署。本文将详细介绍如何使用SGLang和vLLM两种框架从0开始搭建Ling-2.6-flash-fp8的运行环境。准备工作环境要求与依赖项在开始部署前请确保您的系统满足以下要求操作系统LinuxPython版本3.8及以上显卡至少4张H20或同等算力的GPU内存建议64GB以上存储空间至少100GB用于模型文件和依赖库必要依赖项GitPython包管理工具pip或uvPyTorch 2.0CUDA 11.7快速开始获取Ling-2.6-flash-fp8模型首先需要克隆Ling-2.6-flash-fp8模型仓库git clone https://gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8 cd Ling-2.6-flash-fp8模型文件包含多个分块的safetensors文件如model-00001-of-00026.safetensors、model-00002-of-00026.safetensors等以及模型配置文件config.json和configuration_bailing_moe_v2_5.py。方法一使用SGLang部署推荐SGLang是推荐的部署方式支持BF16和FP8模型具有更高的推理效率。环境准备# 安装uv包管理器推荐 pip install uv # 创建并激活虚拟环境 uv venv ~/my_ling_env source ~/my_ling_env/bin/activate # 安装SGLang uv pip install sglang[all]0.5.10.post1 --prereleaseallow启动推理服务1. 标准推理不使用MTPpython -m sglang.launch_server \ --model-path ./ \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --trust-remote-code \ --context-length 262144 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --dist-init-addr localhost:2345 \ --port 8000 \ --nnodes 12. 使用MTP多令牌预测推理MTP可以进一步提高推理性能但需要安装修补版的SGLang# 克隆修补版SGLang仓库 git clone -b ling_2_6 gitgithub.com:antgroup/sglang.git cd sglang # 安装SGLang pip install --upgrade pip pip install -e python # 返回模型目录 cd ../Ling-2.6-flash-fp8 # 启动带MTP的服务 python -m sglang.launch_server \ --model-path ./ \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --context-length 262144 \ --mamba-scheduler-strategy extra_buffer \ --speculative-algorithm NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.75 \ --max-running-requests 64 \ --max-mamba-cache-size 256 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --trust-remote-code \ --dist-init-addr localhost:2345 \ --port 8000 \ --nnodes 1测试推理服务使用curl命令测试服务是否正常运行curl -s http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}方法二使用vLLM部署vLLM是另一种高效的LLM服务框架也支持Ling-2.6-flash-fp8模型。环境准备# 安装uv包管理器 pip install uv # 创建并激活虚拟环境 uv venv ~/my_ling_env source ~/my_ling_env/bin/activate # 克隆vLLM仓库 git clone https://github.com/vllm-project/vllm.git # 安装vLLM cd vllm VLLM_USE_PRECOMPILED1 uv pip install --editable . --torch-backendauto # 返回模型目录 cd ../Ling-2.6-flash-fp8启动推理服务vllm serve ./ \ --port 8000 \ --served-model-name my_model \ --trust-remote-code --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85测试推理服务curl -s http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}配置文件解析Ling-2.6-flash-fp8的配置文件configuration_bailing_moe_v2_5.py包含了模型的关键参数如vocab_size: 词汇表大小157184hidden_size: 隐藏层大小2048num_hidden_layers: 隐藏层数量20num_attention_heads: 注意力头数量16num_experts: 专家数量256num_experts_per_tok: 每个令牌选择的专家数量8这些参数决定了模型的结构和性能在部署时一般不需要修改但可以根据硬件条件调整并行度等参数。性能优化建议使用FP8量化模型Ling-2.6-flash-fp8专为FP8量化优化可以在保持性能的同时减少内存占用和提高速度。合理设置并行度根据GPU数量调整--tp-size张量并行参数一般建议每个GPU分配1-2个张量并行单元。调整上下文长度根据应用需求调整--context-length参数Ling-2.6-flash-fp8支持最长262144的上下文长度。启用MTP在SGLang中启用MTP多令牌预测可以显著提高生成速度特别是对于长文本生成任务。常见问题解决Q: 启动服务时提示内存不足怎么办A: 可以尝试降低--gpu-memory-utilization参数如设为0.7或减少并行度降低--tp-size。Q: 推理速度较慢如何优化A: 确保使用FP8模型启用MTPSGLang并确保GPU驱动和CUDA版本为最新。Q: 模型加载失败提示缺少文件A: 检查模型文件是否完整特别是所有分块的safetensors文件是否都已下载。总结本文详细介绍了使用SGLang和vLLM两种框架部署Ling-2.6-flash-fp8模型的完整步骤包括环境准备、模型获取、服务启动和性能优化。Ling-2.6-flash-fp8凭借其混合线性架构、令牌效率优化和针对代理场景的改进在保持高性能的同时提供了更快的响应速度和更高的吞吐量非常适合大规模生产环境部署。如需了解更多关于模型架构和技术细节可以参考项目中的modeling_bailing_moe_v2_5.py文件和官方文档。【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
从0到1部署Ling-2.6-flash-fp8:SGLang与vLLM环境搭建完整教程
从0到1部署Ling-2.6-flash-fp8SGLang与vLLM环境搭建完整教程【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8Ling-2.6-flash-fp8是一款具有1040亿总参数和74亿活跃参数的指令模型专为推理效率、令牌效率和代理性能优化在4×H20设置上可达到高达340 tokens/s的推理速度非常适合生产环境部署。本文将详细介绍如何使用SGLang和vLLM两种框架从0开始搭建Ling-2.6-flash-fp8的运行环境。准备工作环境要求与依赖项在开始部署前请确保您的系统满足以下要求操作系统LinuxPython版本3.8及以上显卡至少4张H20或同等算力的GPU内存建议64GB以上存储空间至少100GB用于模型文件和依赖库必要依赖项GitPython包管理工具pip或uvPyTorch 2.0CUDA 11.7快速开始获取Ling-2.6-flash-fp8模型首先需要克隆Ling-2.6-flash-fp8模型仓库git clone https://gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8 cd Ling-2.6-flash-fp8模型文件包含多个分块的safetensors文件如model-00001-of-00026.safetensors、model-00002-of-00026.safetensors等以及模型配置文件config.json和configuration_bailing_moe_v2_5.py。方法一使用SGLang部署推荐SGLang是推荐的部署方式支持BF16和FP8模型具有更高的推理效率。环境准备# 安装uv包管理器推荐 pip install uv # 创建并激活虚拟环境 uv venv ~/my_ling_env source ~/my_ling_env/bin/activate # 安装SGLang uv pip install sglang[all]0.5.10.post1 --prereleaseallow启动推理服务1. 标准推理不使用MTPpython -m sglang.launch_server \ --model-path ./ \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --trust-remote-code \ --context-length 262144 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --dist-init-addr localhost:2345 \ --port 8000 \ --nnodes 12. 使用MTP多令牌预测推理MTP可以进一步提高推理性能但需要安装修补版的SGLang# 克隆修补版SGLang仓库 git clone -b ling_2_6 gitgithub.com:antgroup/sglang.git cd sglang # 安装SGLang pip install --upgrade pip pip install -e python # 返回模型目录 cd ../Ling-2.6-flash-fp8 # 启动带MTP的服务 python -m sglang.launch_server \ --model-path ./ \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --context-length 262144 \ --mamba-scheduler-strategy extra_buffer \ --speculative-algorithm NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.75 \ --max-running-requests 64 \ --max-mamba-cache-size 256 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --trust-remote-code \ --dist-init-addr localhost:2345 \ --port 8000 \ --nnodes 1测试推理服务使用curl命令测试服务是否正常运行curl -s http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}方法二使用vLLM部署vLLM是另一种高效的LLM服务框架也支持Ling-2.6-flash-fp8模型。环境准备# 安装uv包管理器 pip install uv # 创建并激活虚拟环境 uv venv ~/my_ling_env source ~/my_ling_env/bin/activate # 克隆vLLM仓库 git clone https://github.com/vllm-project/vllm.git # 安装vLLM cd vllm VLLM_USE_PRECOMPILED1 uv pip install --editable . --torch-backendauto # 返回模型目录 cd ../Ling-2.6-flash-fp8启动推理服务vllm serve ./ \ --port 8000 \ --served-model-name my_model \ --trust-remote-code --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85测试推理服务curl -s http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}配置文件解析Ling-2.6-flash-fp8的配置文件configuration_bailing_moe_v2_5.py包含了模型的关键参数如vocab_size: 词汇表大小157184hidden_size: 隐藏层大小2048num_hidden_layers: 隐藏层数量20num_attention_heads: 注意力头数量16num_experts: 专家数量256num_experts_per_tok: 每个令牌选择的专家数量8这些参数决定了模型的结构和性能在部署时一般不需要修改但可以根据硬件条件调整并行度等参数。性能优化建议使用FP8量化模型Ling-2.6-flash-fp8专为FP8量化优化可以在保持性能的同时减少内存占用和提高速度。合理设置并行度根据GPU数量调整--tp-size张量并行参数一般建议每个GPU分配1-2个张量并行单元。调整上下文长度根据应用需求调整--context-length参数Ling-2.6-flash-fp8支持最长262144的上下文长度。启用MTP在SGLang中启用MTP多令牌预测可以显著提高生成速度特别是对于长文本生成任务。常见问题解决Q: 启动服务时提示内存不足怎么办A: 可以尝试降低--gpu-memory-utilization参数如设为0.7或减少并行度降低--tp-size。Q: 推理速度较慢如何优化A: 确保使用FP8模型启用MTPSGLang并确保GPU驱动和CUDA版本为最新。Q: 模型加载失败提示缺少文件A: 检查模型文件是否完整特别是所有分块的safetensors文件是否都已下载。总结本文详细介绍了使用SGLang和vLLM两种框架部署Ling-2.6-flash-fp8模型的完整步骤包括环境准备、模型获取、服务启动和性能优化。Ling-2.6-flash-fp8凭借其混合线性架构、令牌效率优化和针对代理场景的改进在保持高性能的同时提供了更快的响应速度和更高的吞吐量非常适合大规模生产环境部署。如需了解更多关于模型架构和技术细节可以参考项目中的modeling_bailing_moe_v2_5.py文件和官方文档。【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考