vLLM-v0.17.1保姆级教程SSH远程部署Jupyter可视化监控全流程1. vLLM框架简介vLLM是一个专为大语言模型(LLM)设计的高性能推理和服务库它的核心目标是让开发者能够轻松部署和运行各种规模的LLM模型。这个项目最初由加州大学伯克利分校的天空计算实验室开发现在已经发展成为一个活跃的开源项目吸引了来自学术界和工业界的众多贡献者。vLLM之所以受到广泛关注主要因为它解决了LLM推理中的几个关键痛点内存管理采用创新的PagedAttention技术高效管理注意力机制中的键值对内存请求处理支持连续批处理可以同时处理多个用户的请求执行效率利用CUDA/HIP图实现模型快速执行量化支持提供多种量化选项(GPTQ、AWQ、INT4、INT8、FP8)来减少模型大小和内存占用2. 环境准备与安装2.1 系统要求在开始部署前请确保你的系统满足以下基本要求操作系统Ubuntu 18.04或更高版本GPUNVIDIA GPU(建议RTX 3090或更高)驱动NVIDIA驱动版本450.80.02或更高CUDA11.8或更高版本Python3.8或更高版本2.2 安装依赖首先我们需要安装必要的依赖项# 更新系统包 sudo apt update sudo apt upgrade -y # 安装基础依赖 sudo apt install -y python3-pip python3-dev git curl # 安装CUDA工具包(以CUDA 11.8为例) wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ / sudo apt-get update sudo apt-get -y install cuda-11-83. SSH远程部署vLLM3.1 配置SSH访问首先确保你的服务器已安装SSH服务sudo apt install openssh-server -y sudo systemctl enable ssh sudo systemctl start ssh从本地计算机连接到远程服务器ssh usernameyour_server_ip3.2 安装vLLM连接到服务器后执行以下命令安装vLLM# 创建虚拟环境 python3 -m venv vllm-env source vllm-env/bin/activate # 安装vLLM pip install vllm0.17.1 # 安装Jupyter Notebook用于监控 pip install notebook3.3 启动vLLM服务vLLM提供了多种启动方式这里我们使用OpenAI兼容的API服务器python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1这个命令会下载并启动Llama-2-7b-chat模型监听8000端口。4. Jupyter可视化监控4.1 配置Jupyter Notebook为了安全地访问Jupyter Notebook我们需要设置密码from notebook.auth import passwd passwd()输入并确认你的密码系统会生成一个哈希值复制这个值。创建Jupyter配置文件jupyter notebook --generate-config编辑配置文件nano ~/.jupyter/jupyter_notebook_config.py添加以下内容c.NotebookApp.ip * c.NotebookApp.password 刚才复制的哈希值 c.NotebookApp.open_browser False c.NotebookApp.port 88884.2 启动Jupyter Notebook使用以下命令启动Jupyter Notebookjupyter notebook --allow-root现在你可以通过浏览器访问http://your_server_ip:8888来使用Jupyter Notebook。4.3 监控vLLM性能在Jupyter Notebook中创建一个新的Python笔记本使用以下代码监控vLLM性能import requests import pandas as pd import matplotlib.pyplot as plt # 定义API端点 API_URL http://localhost:8000/v1/completions # 发送测试请求 headers {Content-Type: application/json} data { model: meta-llama/Llama-2-7b-chat-hf, prompt: 介绍一下人工智能的发展历史, max_tokens: 100, temperature: 0.7 } response requests.post(API_URL, headersheaders, jsondata) print(response.json()) # 性能监控函数 def monitor_performance(): stats !vllm-stats # 假设vLLM提供了这个命令行工具 # 解析统计数据并可视化 # 这里需要根据实际vLLM提供的监控接口进行调整 df pd.DataFrame(...) df.plot(kindline, figsize(10,6)) plt.title(vLLM性能监控) plt.show()5. 常见问题解决5.1 端口冲突问题如果遇到端口被占用的情况可以使用以下命令查找并终止占用端口的进程sudo lsof -i :8000 # 查找占用8000端口的进程 sudo kill -9 PID # 终止该进程5.2 模型下载失败如果模型下载速度慢或失败可以尝试使用镜像源export HF_ENDPOINThttps://hf-mirror.com或者手动下载模型后指定本地路径python -m vllm.entrypoints.openai.api_server \ --model /path/to/local/model \ --host 0.0.0.0 \ --port 80005.3 GPU内存不足如果遇到GPU内存不足的问题可以尝试使用更小的模型启用量化python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --quantization awq \ --host 0.0.0.0 \ --port 80006. 总结通过本教程我们完成了vLLM-v0.17.1的完整部署流程包括环境准备配置了必要的系统环境和依赖SSH远程部署通过SSH连接服务器并安装vLLM服务启动配置并启动了vLLM的API服务可视化监控设置Jupyter Notebook用于性能监控问题排查总结了常见问题的解决方法vLLM作为一个高效的LLM推理和服务库为开发者提供了强大的工具来部署和管理大语言模型。通过SSH远程部署和Jupyter可视化监控的组合你可以轻松地在生产环境中使用vLLM。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
vLLM-v0.17.1保姆级教程:SSH远程部署+Jupyter可视化监控全流程
vLLM-v0.17.1保姆级教程SSH远程部署Jupyter可视化监控全流程1. vLLM框架简介vLLM是一个专为大语言模型(LLM)设计的高性能推理和服务库它的核心目标是让开发者能够轻松部署和运行各种规模的LLM模型。这个项目最初由加州大学伯克利分校的天空计算实验室开发现在已经发展成为一个活跃的开源项目吸引了来自学术界和工业界的众多贡献者。vLLM之所以受到广泛关注主要因为它解决了LLM推理中的几个关键痛点内存管理采用创新的PagedAttention技术高效管理注意力机制中的键值对内存请求处理支持连续批处理可以同时处理多个用户的请求执行效率利用CUDA/HIP图实现模型快速执行量化支持提供多种量化选项(GPTQ、AWQ、INT4、INT8、FP8)来减少模型大小和内存占用2. 环境准备与安装2.1 系统要求在开始部署前请确保你的系统满足以下基本要求操作系统Ubuntu 18.04或更高版本GPUNVIDIA GPU(建议RTX 3090或更高)驱动NVIDIA驱动版本450.80.02或更高CUDA11.8或更高版本Python3.8或更高版本2.2 安装依赖首先我们需要安装必要的依赖项# 更新系统包 sudo apt update sudo apt upgrade -y # 安装基础依赖 sudo apt install -y python3-pip python3-dev git curl # 安装CUDA工具包(以CUDA 11.8为例) wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ / sudo apt-get update sudo apt-get -y install cuda-11-83. SSH远程部署vLLM3.1 配置SSH访问首先确保你的服务器已安装SSH服务sudo apt install openssh-server -y sudo systemctl enable ssh sudo systemctl start ssh从本地计算机连接到远程服务器ssh usernameyour_server_ip3.2 安装vLLM连接到服务器后执行以下命令安装vLLM# 创建虚拟环境 python3 -m venv vllm-env source vllm-env/bin/activate # 安装vLLM pip install vllm0.17.1 # 安装Jupyter Notebook用于监控 pip install notebook3.3 启动vLLM服务vLLM提供了多种启动方式这里我们使用OpenAI兼容的API服务器python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1这个命令会下载并启动Llama-2-7b-chat模型监听8000端口。4. Jupyter可视化监控4.1 配置Jupyter Notebook为了安全地访问Jupyter Notebook我们需要设置密码from notebook.auth import passwd passwd()输入并确认你的密码系统会生成一个哈希值复制这个值。创建Jupyter配置文件jupyter notebook --generate-config编辑配置文件nano ~/.jupyter/jupyter_notebook_config.py添加以下内容c.NotebookApp.ip * c.NotebookApp.password 刚才复制的哈希值 c.NotebookApp.open_browser False c.NotebookApp.port 88884.2 启动Jupyter Notebook使用以下命令启动Jupyter Notebookjupyter notebook --allow-root现在你可以通过浏览器访问http://your_server_ip:8888来使用Jupyter Notebook。4.3 监控vLLM性能在Jupyter Notebook中创建一个新的Python笔记本使用以下代码监控vLLM性能import requests import pandas as pd import matplotlib.pyplot as plt # 定义API端点 API_URL http://localhost:8000/v1/completions # 发送测试请求 headers {Content-Type: application/json} data { model: meta-llama/Llama-2-7b-chat-hf, prompt: 介绍一下人工智能的发展历史, max_tokens: 100, temperature: 0.7 } response requests.post(API_URL, headersheaders, jsondata) print(response.json()) # 性能监控函数 def monitor_performance(): stats !vllm-stats # 假设vLLM提供了这个命令行工具 # 解析统计数据并可视化 # 这里需要根据实际vLLM提供的监控接口进行调整 df pd.DataFrame(...) df.plot(kindline, figsize(10,6)) plt.title(vLLM性能监控) plt.show()5. 常见问题解决5.1 端口冲突问题如果遇到端口被占用的情况可以使用以下命令查找并终止占用端口的进程sudo lsof -i :8000 # 查找占用8000端口的进程 sudo kill -9 PID # 终止该进程5.2 模型下载失败如果模型下载速度慢或失败可以尝试使用镜像源export HF_ENDPOINThttps://hf-mirror.com或者手动下载模型后指定本地路径python -m vllm.entrypoints.openai.api_server \ --model /path/to/local/model \ --host 0.0.0.0 \ --port 80005.3 GPU内存不足如果遇到GPU内存不足的问题可以尝试使用更小的模型启用量化python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --quantization awq \ --host 0.0.0.0 \ --port 80006. 总结通过本教程我们完成了vLLM-v0.17.1的完整部署流程包括环境准备配置了必要的系统环境和依赖SSH远程部署通过SSH连接服务器并安装vLLM服务启动配置并启动了vLLM的API服务可视化监控设置Jupyter Notebook用于性能监控问题排查总结了常见问题的解决方法vLLM作为一个高效的LLM推理和服务库为开发者提供了强大的工具来部署和管理大语言模型。通过SSH远程部署和Jupyter可视化监控的组合你可以轻松地在生产环境中使用vLLM。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。