快速部署通义千问1.8B-ChatWebUI聊天界面搭建Ubuntu系统保姆级教学1. 项目概述与准备工作通义千问1.5-1.8B-Chat是阿里云推出的轻量级对话模型经过GPTQ-Int4量化后显存需求仅约4GB非常适合在消费级GPU设备上部署。本教程将带你从零开始搭建Web聊天界面无需深度学习背景也能轻松完成。你需要准备Ubuntu系统18.04/20.04/22.04均可NVIDIA显卡4GB以上显存基础命令行操作能力约4GB可用磁盘空间2. 环境配置与依赖安装2.1 系统更新与基础工具首先更新系统并安装必要工具sudo apt update sudo apt upgrade -y sudo apt install -y git python3-pip python3-venv2.2 CUDA环境检查确保CUDA驱动已正确安装nvidia-smi正常情况应显示GPU信息和CUDA版本需11.0以上。如果未安装请先安装NVIDIA驱动sudo apt install -y nvidia-driver-535 sudo reboot3. 模型部署与配置3.1 获取模型文件创建项目目录并复制模型mkdir -p ~/qwen-1.8b-chat/model cp -r /root/ai-models/Qwen/Qwen1___5-1___8B-Chat-GPTQ-Int4/* ~/qwen-1.8b-chat/model/3.2 解决只读文件系统问题由于原模型目录为只读我们需要在可写目录创建量化配置文件echo { bits: 4, group_size: 128, desc_act: false, damp_percent: 0.1, sym: true, true_sequential: true, model_name_or_path: Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4, model_file_base_name: model } ~/qwen-1.8b-chat/model/quantize_config.json4. WebUI服务搭建4.1 创建Python虚拟环境python3 -m venv ~/qwen-1.8b-chat/venv source ~/qwen-1.8b-chat/venv/bin/activate4.2 安装依赖库pip install torch transformers auto-gptq gradio4.3 创建应用文件新建app.py并添加以下内容from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr model_path /root/qwen-1.8b-chat/model tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_path, device_mapauto, trust_remote_codeTrue) def chat(message, history, temperature0.7, max_length2048): response, _ model.chat(tokenizer, message, historyhistory, temperaturetemperature, max_new_tokensmax_length) return response demo gr.ChatInterface( fnchat, additional_inputs[ gr.Slider(0.1, 2.0, value0.7, labelTemperature), gr.Slider(128, 4096, value2048, step128, labelMax Length) ] ) demo.launch(server_name0.0.0.0)5. 服务启动与管理5.1 直接运行测试python ~/qwen-1.8b-chat/app.py首次运行会加载模型约需6-8秒。看到Running on local URL: http://0.0.0.0:7860即表示成功。5.2 使用Supervisor持久化运行安装Supervisor并创建配置文件sudo apt install -y supervisor sudo tee /etc/supervisor/conf.d/qwen-1.8b-chat.conf EOF [program:qwen-1.8b-chat] command/root/qwen-1.8b-chat/venv/bin/python /root/qwen-1.8b-chat/app.py directory/root/qwen-1.8b-chat userroot autostarttrue autorestarttrue startretries3 stderr_logfile/root/qwen-1.8b-chat/logs/error.log stdout_logfile/root/qwen-1.8b-chat/logs/app.log EOF mkdir -p ~/qwen-1.8b-chat/logs sudo supervisorctl update sudo supervisorctl start qwen-1.8b-chat6. 使用指南与参数调优6.1 访问Web界面浏览器访问http://你的服务器IP:78606.2 关键参数说明参数推荐值作用Temperature0.4-0.7控制输出随机性值越高越有创意Top-P0.9核采样参数影响词汇选择范围Max Length1024-2048限制生成文本的最大长度6.3 示例对话用Python写一个快速排序算法解释量子计算的基本原理写一首关于秋天的七言诗7. 常见问题解决7.1 页面无法访问检查服务状态sudo supervisorctl status qwen-1.8b-chat检查端口是否被占用ss -tlnp | grep 78607.2 显存不足错误尝试降低Max Length参数如改为1024检查是否有其他程序占用GPUnvidia-smi7.3 生成速度慢首次生成会有预热时间后续请求会变快。如果持续缓慢sudo supervisorctl restart qwen-1.8b-chat8. 总结与进阶建议通过本教程你已经成功在Ubuntu系统上部署了通义千问1.8B-Chat的Web聊天界面。这个轻量级模型在消费级GPU上表现出色适合各种对话场景。进阶建议修改app.py添加系统提示词让模型扮演特定角色使用Nginx反向代理添加HTTPS支持定期检查日志文件大小避免磁盘空间不足获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
快速部署通义千问1.8B-Chat:WebUI聊天界面搭建,Ubuntu系统保姆级教学
快速部署通义千问1.8B-ChatWebUI聊天界面搭建Ubuntu系统保姆级教学1. 项目概述与准备工作通义千问1.5-1.8B-Chat是阿里云推出的轻量级对话模型经过GPTQ-Int4量化后显存需求仅约4GB非常适合在消费级GPU设备上部署。本教程将带你从零开始搭建Web聊天界面无需深度学习背景也能轻松完成。你需要准备Ubuntu系统18.04/20.04/22.04均可NVIDIA显卡4GB以上显存基础命令行操作能力约4GB可用磁盘空间2. 环境配置与依赖安装2.1 系统更新与基础工具首先更新系统并安装必要工具sudo apt update sudo apt upgrade -y sudo apt install -y git python3-pip python3-venv2.2 CUDA环境检查确保CUDA驱动已正确安装nvidia-smi正常情况应显示GPU信息和CUDA版本需11.0以上。如果未安装请先安装NVIDIA驱动sudo apt install -y nvidia-driver-535 sudo reboot3. 模型部署与配置3.1 获取模型文件创建项目目录并复制模型mkdir -p ~/qwen-1.8b-chat/model cp -r /root/ai-models/Qwen/Qwen1___5-1___8B-Chat-GPTQ-Int4/* ~/qwen-1.8b-chat/model/3.2 解决只读文件系统问题由于原模型目录为只读我们需要在可写目录创建量化配置文件echo { bits: 4, group_size: 128, desc_act: false, damp_percent: 0.1, sym: true, true_sequential: true, model_name_or_path: Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4, model_file_base_name: model } ~/qwen-1.8b-chat/model/quantize_config.json4. WebUI服务搭建4.1 创建Python虚拟环境python3 -m venv ~/qwen-1.8b-chat/venv source ~/qwen-1.8b-chat/venv/bin/activate4.2 安装依赖库pip install torch transformers auto-gptq gradio4.3 创建应用文件新建app.py并添加以下内容from transformers import AutoModelForCausalLM, AutoTokenizer import gradio as gr model_path /root/qwen-1.8b-chat/model tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_path, device_mapauto, trust_remote_codeTrue) def chat(message, history, temperature0.7, max_length2048): response, _ model.chat(tokenizer, message, historyhistory, temperaturetemperature, max_new_tokensmax_length) return response demo gr.ChatInterface( fnchat, additional_inputs[ gr.Slider(0.1, 2.0, value0.7, labelTemperature), gr.Slider(128, 4096, value2048, step128, labelMax Length) ] ) demo.launch(server_name0.0.0.0)5. 服务启动与管理5.1 直接运行测试python ~/qwen-1.8b-chat/app.py首次运行会加载模型约需6-8秒。看到Running on local URL: http://0.0.0.0:7860即表示成功。5.2 使用Supervisor持久化运行安装Supervisor并创建配置文件sudo apt install -y supervisor sudo tee /etc/supervisor/conf.d/qwen-1.8b-chat.conf EOF [program:qwen-1.8b-chat] command/root/qwen-1.8b-chat/venv/bin/python /root/qwen-1.8b-chat/app.py directory/root/qwen-1.8b-chat userroot autostarttrue autorestarttrue startretries3 stderr_logfile/root/qwen-1.8b-chat/logs/error.log stdout_logfile/root/qwen-1.8b-chat/logs/app.log EOF mkdir -p ~/qwen-1.8b-chat/logs sudo supervisorctl update sudo supervisorctl start qwen-1.8b-chat6. 使用指南与参数调优6.1 访问Web界面浏览器访问http://你的服务器IP:78606.2 关键参数说明参数推荐值作用Temperature0.4-0.7控制输出随机性值越高越有创意Top-P0.9核采样参数影响词汇选择范围Max Length1024-2048限制生成文本的最大长度6.3 示例对话用Python写一个快速排序算法解释量子计算的基本原理写一首关于秋天的七言诗7. 常见问题解决7.1 页面无法访问检查服务状态sudo supervisorctl status qwen-1.8b-chat检查端口是否被占用ss -tlnp | grep 78607.2 显存不足错误尝试降低Max Length参数如改为1024检查是否有其他程序占用GPUnvidia-smi7.3 生成速度慢首次生成会有预热时间后续请求会变快。如果持续缓慢sudo supervisorctl restart qwen-1.8b-chat8. 总结与进阶建议通过本教程你已经成功在Ubuntu系统上部署了通义千问1.8B-Chat的Web聊天界面。这个轻量级模型在消费级GPU上表现出色适合各种对话场景。进阶建议修改app.py添加系统提示词让模型扮演特定角色使用Nginx反向代理添加HTTPS支持定期检查日志文件大小避免磁盘空间不足获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。