LLM 本地部署框架 vLLM 和 LMDeploy-尧图企业网站定制

1. 安装vLLM的环境1.1 安装要求1. vLLM 包含预编译的 C 和 CUDA (12.8) 二进制文件。 2. 要求: 操作系统: Linux Python: 3.9 -- 3.12 # 实测推荐安装3.10以上版本 GPU: 计算能力 7.0 或更高 (例如, V100, T4, RTX20xx, A100, L4, H100 等) 查看详细的信息https://docs.vllm.com.cn/en/latest/getting_started/installation/gpu.html1.2 安装conda并创建python的虚拟环境# 1.安装conda环境参照conda官网# https://www.anaconda.com/download/success# 2. 创建一个python的虚拟环境conda create-n[虚拟环境名称]python3.10# 指定python的版本号# 3.切换到虚拟环境# 可以使用 conda env list 查看所有的虚拟环境列表conda activate[虚拟环境名称]1.3 安装PyTorch# 官网上选择相应的版本# https://pytorch.org/get-started/locally/1.4 安装vLLM# 1.安装命令pip install vllm# 2.从Hugging Face 下载模型或者从魔塔社区下载建议从魔塔社区下载国内速度快下载地址https://www.modelscope.cn/models下载方式pip install modelscope使用SDK下载创建一个download.py 文件然后在服务器上执行#模型下载frommodelscopeimportsnapshot_download model_dirsnapshot_download(Qwen/Qwen3-0.6B,cache_dir/root/autodl-tmp/llm/Qwen/Qwen3-0.6B)# 指定模型的存放位置启动vLLM# 启动vLLMvllm serve /root/autodl-tmp/llm/Qwen/Qwen3-0.6B# serve 后面跟本地模型存放的绝对路径测试fromopenaiimportOpenAI clinetOpenAI(base_urlhttp://localhost:23333/v1/,api_key1231231)# 注意查看启动后的web 访问的端口号 api_key 不能为空可以随便填resclient.chat.completions.create(model/root/autodl-tmp/llm/Qwen/Qwen3-0.6B# 本地的模型的路径绝对路径messages[{role:user,content:请介绍下一下什么是大模型}])2. 安装LMDeploy与vLLM的安装基本一致2.1 创建虚拟环境安装lmdeployconda create-n lmdeploy python3.10-y conda activate lmdeploy pip install lmdeploy2.2 启动lmdeploy serve api_server/root/autodl-tmp/llm/Qwen/Qwen3-0.6B# 调用本地的模型测试与vLLM一样只是端口号不同

相关新闻

开发远程办公作息边界管理程序，区分工作休息时段，避免居家办公时间混淆。

如何免费加速游戏运行速度？OpenSpeedy开源变速工具终极指南

3步掌握Windows字体优化：Better ClearType Tuner完整使用指南

如何用SillyTavern打造团队AI对话协作新体验：5个实用技巧让创作效率提升300%

emWin GUIBuilder按钮样式修改问题解决方案

如何轻松获取官方macOS安装文件：gibMacOS完全使用指南

3步掌握AI图像分层：零基础快速入门指南

如何快速部署大麦自动抢票工具：面向开发者的完整技术指南

Python 爬虫实战：淘宝商品数据爬取与价格分析

P vs NP：西方哲学 × 西方计算理论 —— 人类思维的终极边界

霍奇猜想：哲学 × 数学 思维范式全链条

ASP Folder：深入解析ASP文件夹的结构与功能

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

霍奇猜想：哲学 × 数学思维范式全链条