LLM 本地部署框架 vLLM 和 LMDeploy

LLM 本地部署框架 vLLM 和 LMDeploy 1. 安装vLLM的环境1.1 安装要求1. vLLM 包含预编译的 C 和 CUDA (12.8) 二进制文件。 2. 要求: 操作系统: Linux Python: 3.9 -- 3.12 # 实测推荐安装3.10以上版本 GPU: 计算能力 7.0 或更高 (例如, V100, T4, RTX20xx, A100, L4, H100 等) 查看详细的信息https://docs.vllm.com.cn/en/latest/getting_started/installation/gpu.html1.2 安装conda并创建python的虚拟环境# 1.安装conda环境 参照conda官网# https://www.anaconda.com/download/success# 2. 创建一个python的虚拟环境conda create-n[虚拟环境名称]python3.10# 指定python的版本号# 3.切换到虚拟环境# 可以使用 conda env list 查看所有的虚拟环境列表conda activate[虚拟环境名称]1.3 安装PyTorch# 官网上选择相应的版本# https://pytorch.org/get-started/locally/1.4 安装vLLM# 1.安装命令pip install vllm# 2.从Hugging Face 下载模型或者从魔塔社区下载建议从魔塔社区下载国内速度快下载地址https://www.modelscope.cn/models下载方式pip install modelscope使用SDK下载创建一个download.py 文件然后在服务器上执行#模型下载frommodelscopeimportsnapshot_download model_dirsnapshot_download(Qwen/Qwen3-0.6B,cache_dir/root/autodl-tmp/llm/Qwen/Qwen3-0.6B)# 指定模型的存放位置启动vLLM# 启动vLLMvllm serve /root/autodl-tmp/llm/Qwen/Qwen3-0.6B# serve 后面跟本地模型存放的绝对路径测试fromopenaiimportOpenAI clinetOpenAI(base_urlhttp://localhost:23333/v1/,api_key1231231)# 注意查看启动后的web 访问的端口号 api_key 不能为空可以随便填resclient.chat.completions.create(model/root/autodl-tmp/llm/Qwen/Qwen3-0.6B# 本地的模型的路径绝对路径messages[{role:user,content:请介绍下一下什么是大模型}])2. 安装LMDeploy与vLLM的安装基本一致2.1 创建虚拟环境安装lmdeployconda create-n lmdeploy python3.10-y conda activate lmdeploy pip install lmdeploy2.2 启动lmdeploy serve api_server/root/autodl-tmp/llm/Qwen/Qwen3-0.6B# 调用本地的模型测试与vLLM一样只是端口号不同