Qwen2.5-Coder-1.5B环境配置详解Windows11一键部署教程想在自己的Windows电脑上跑一个代码生成AI但又觉得那些大模型动辄几十个G对硬件要求太高试试Qwen2.5-Coder-1.5B吧。这个模型只有1.5B参数但代码生成能力相当不错关键是它对硬件要求很友好普通笔记本就能跑起来。今天我就带你一步步在Windows 11上把这个模型部署起来从环境准备到实际使用整个过程大概半小时就能搞定。就算你之前没怎么接触过AI模型部署跟着做也能顺利完成。1. 部署前准备检查你的电脑环境在开始之前我们先确认一下你的电脑是否满足基本要求。Qwen2.5-Coder-1.5B虽然是个小模型但毕竟是AI模型还是需要一些基础的硬件和软件支持。1.1 硬件要求这个模型对硬件的要求算是相当亲民了内存至少8GB系统内存推荐16GB存储空间需要5-10GB的可用磁盘空间显卡有独立显卡最好比如NVIDIA GTX系列但用CPU也能跑只是速度会慢一些处理器近几年的Intel或AMD处理器都可以如果你用的是集成显卡的轻薄本也不用担心我们后面会介绍纯CPU运行的方法。1.2 软件要求软件方面我们需要准备这几样东西Python 3.8或更高版本这是运行AI模型的基础环境Git用来下载模型和相关代码Visual Studio Build Tools可选如果你遇到某些Python包安装问题可能需要这个最关键的还是Python环境。我建议直接安装Anaconda它自带了Python和很多常用的科学计算库用起来比较省心。2. 快速安装一步到位的环境搭建好了现在开始正式安装。我会把整个过程拆解成几个简单的步骤你跟着做就行。2.1 安装Python和必要工具如果你还没有安装Python先去Python官网下载安装包。记得在安装时勾选“Add Python to PATH”这个选项这样后面在命令行里就能直接使用Python了。安装完成后打开命令提示符按WinR输入cmd回车检查一下Python是否安装成功python --version如果显示的是Python 3.8或更高版本说明安装成功了。接下来安装Git去Git官网下载Windows版本一路默认安装就行。安装完成后同样在命令行里检查git --version2.2 创建专用的Python环境为了避免和系统里其他Python项目冲突我们最好创建一个独立的环境。用Anaconda的话很简单conda create -n qwen-coder python3.10 conda activate qwen-coder如果你没用Anaconda用Python自带的venv也可以python -m venv qwen-coder-env # 激活环境 # 在Windows上 qwen-coder-env\Scripts\activate2.3 安装核心依赖包环境创建好后安装几个必要的Python包pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate pip install sentencepiece protobuf这里稍微解释一下torchPyTorch深度学习框架这是运行模型的基础transformersHugging Face的模型库里面包含了Qwen2.5-Coderaccelerate加速推理的库能让模型跑得更快一些如果你用的是NVIDIA显卡并且想用GPU加速还需要安装对应版本的CUDA。不过对于1.5B这种小模型用CPU跑也完全没问题速度可以接受。3. 下载模型两种简单方法任选环境准备好了现在来下载模型。Qwen2.5-Coder-1.5B有两个版本基础版Base和指令调优版Instruct。我推荐用Instruct版本因为它经过了指令微调用起来更顺手。3.1 方法一用Hugging Face直接下载这是最直接的方法用几行代码就能把模型下载到本地from transformers import AutoModelForCausalLM, AutoTokenizer import os # 指定模型名称 model_name Qwen/Qwen2.5-Coder-1.5B-Instruct # 创建保存模型的目录 model_dir ./qwen2.5-coder-1.5b os.makedirs(model_dir, exist_okTrue) print(开始下载模型这可能需要一些时间...) print(模型大小约3GB请确保网络连接稳定) # 下载模型和分词器 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypeauto, device_mapauto ) # 保存到本地 tokenizer.save_pretrained(model_dir) model.save_pretrained(model_dir) print(f模型已保存到: {model_dir})把这段代码保存为download_model.py然后在命令行里运行python download_model.py下载过程可能需要10-30分钟取决于你的网速。模型大小约3GB下载完成后会保存在当前目录的qwen2.5-coder-1.5b文件夹里。3.2 方法二用Git LFS下载如果你习惯用Git也可以用Git LFS来下载# 安装Git LFS如果还没安装 git lfs install # 克隆模型仓库 git clone https://huggingface.co/Qwen/Qwen2.5-Coder-1.5B-Instruct这种方法的好处是你可以看到模型的所有文件包括配置文件、许可证等。不过需要先安装Git LFS。4. 运行模型你的第一个代码生成模型下载好了现在来试试它到底能不能用。我们写一个简单的Python脚本来测试一下。4.1 基础测试脚本创建一个新文件test_model.py输入以下内容from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 加载本地模型 model_path ./qwen2.5-coder-1.5b # 修改为你的模型路径 tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) # 准备输入 prompt 写一个Python函数计算斐波那契数列的第n项 messages [ {role: system, content: 你是一个编程助手专门帮助用户编写和优化代码。}, {role: user, content: prompt} ] # 将对话格式化为模型能理解的格式 text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) # 生成代码 inputs tokenizer(text, return_tensorspt).to(model.device) with torch.no_grad(): outputs model.generate( **inputs, max_new_tokens256, temperature0.7, do_sampleTrue ) # 解码并输出结果 generated_text tokenizer.decode(outputs[0], skip_special_tokensTrue) print(生成的代码) print(generated_text)运行这个脚本python test_model.py如果一切正常你应该能看到模型生成的斐波那契数列函数。第一次运行可能会慢一些因为模型需要加载到内存中。4.2 试试更复杂的需求基础功能没问题了我们来试试更实际一点的场景。修改一下promptprompt 我需要一个Python脚本功能如下 1. 读取当前目录下的所有CSV文件 2. 合并这些文件的数据 3. 计算每个数值列的平均值和标准差 4. 将结果保存到新的CSV文件中 请给出完整的代码包括必要的异常处理。把这个prompt替换到上面的测试脚本里再运行一次。看看模型能不能生成一个可用的数据处理的脚本。5. 常见问题与解决方案在实际部署过程中你可能会遇到一些问题。这里我整理了几个常见的情况和解决办法。5.1 内存不足问题如果你的电脑内存比较小比如只有8GB可能会遇到内存不足的错误。可以试试这些方法使用CPU模式在加载模型时指定使用CPUmodel AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float32, device_mapcpu # 强制使用CPU )量化模型使用8位或4位量化来减少内存占用from transformers import BitsAndBytesConfig quantization_config BitsAndBytesConfig( load_in_4bitTrue, bnb_4bit_compute_dtypetorch.float16 ) model AutoModelForCausalLM.from_pretrained( model_path, quantization_configquantization_config, device_mapauto )分批处理如果生成长文本时内存不足可以尝试减少max_new_tokens参数的值。5.2 模型加载慢的问题第一次加载模型可能会比较慢特别是从硬盘加载到内存的过程。这是正常的因为模型文件有3GB左右。后续再运行就会快很多。如果你觉得加载太慢可以考虑使用SSD硬盘如果模型放在机械硬盘上换成SSD会快很多预加载模型如果经常使用可以让模型一直保持在内存中使用更快的存储比如NVMe SSD5.3 生成质量不理想有时候模型生成的代码可能不符合你的期望可以尝试调整生成参数outputs model.generate( **inputs, max_new_tokens512, # 增加生成长度 temperature0.3, # 降低温度让输出更确定 top_p0.9, # 使用核采样 repetition_penalty1.1, # 避免重复 do_sampleTrue )另外给模型更详细的指令也能提高生成质量。比如不只是说“写一个排序函数”而是说“写一个Python的快速排序函数要求处理重复元素并且有详细的注释”。6. 进阶使用集成到开发工作流模型能跑起来了但每次都要写Python脚本来调用还是有点麻烦。我们来看看怎么把它集成到日常的开发工作流中。6.1 创建简单的命令行工具我们可以写一个简单的命令行工具这样在终端里就能直接使用模型了。创建一个新文件qwen_coder_cli.pyimport argparse from transformers import AutoModelForCausalLM, AutoTokenizer import torch import sys class QwenCoderCLI: def __init__(self, model_path): print(加载模型中...) self.tokenizer AutoTokenizer.from_pretrained(model_path) self.model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) print(模型加载完成) def generate_code(self, prompt, max_tokens512): messages [ {role: system, content: 你是一个专业的编程助手。}, {role: user, content: prompt} ] text self.tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) inputs self.tokenizer(text, return_tensorspt).to(self.model.device) with torch.no_grad(): outputs self.model.generate( **inputs, max_new_tokensmax_tokens, temperature0.7, do_sampleTrue ) # 提取生成的代码部分 full_output tokenizer.decode(outputs[0], skip_special_tokensTrue) # 这里可以添加逻辑来提取代码块 return full_output def main(): parser argparse.ArgumentParser(descriptionQwen2.5-Coder命令行工具) parser.add_argument(prompt, help代码生成提示) parser.add_argument(--model-path, default./qwen2.5-coder-1.5b, help模型路径) parser.add_argument(--max-tokens, typeint, default512, help最大生成长度) args parser.parse_args() coder QwenCoderCLI(args.model_path) result coder.generate_code(args.prompt, args.max_tokens) print(\n *50) print(生成的代码) print(*50) print(result) if __name__ __main__: main()使用方式python qwen_coder_cli.py 写一个Python函数验证电子邮件地址格式6.2 在Jupyter Notebook中使用如果你用Jupyter Notebook做数据分析或机器学习也可以把模型集成进去。创建一个新的Notebook然后添加以下单元格# 第一个单元格加载模型 from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_path ./qwen2.5-coder-1.5b tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) print(模型加载完成)# 第二个单元格定义生成函数 def generate_code(prompt, max_tokens256): messages [ {role: system, content: 你是一个数据分析助手。}, {role: user, content: prompt} ] text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) inputs tokenizer(text, return_tensorspt).to(model.device) with torch.no_grad(): outputs model.generate( **inputs, max_new_tokensmax_tokens, temperature0.7, do_sampleTrue ) return tokenizer.decode(outputs[0], skip_special_tokensTrue) # 使用示例 result generate_code(用pandas读取CSV文件并显示前5行) print(result)这样在Notebook里就能随时调用模型生成代码了特别适合数据分析时快速生成数据处理脚本。7. 性能优化建议如果你想让模型跑得更快、效果更好可以试试下面这些优化方法。7.1 使用GPU加速如果你有NVIDIA显卡确保安装了正确版本的CUDA和cuDNN。然后用这个方式加载模型model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16, # 使用半精度浮点数 device_mapcuda:0 if torch.cuda.is_available() else cpu )GPU加速能让推理速度提升好几倍特别是生成长代码时。7.2 批处理生成如果需要生成多个类似的代码片段可以一次性输入多个promptprompts [ 写一个Python函数计算圆的面积, 写一个Python函数计算矩形的面积, 写一个Python函数计算三角形的面积 ] # 批量处理 all_inputs [] for prompt in prompts: messages [{role: user, content: prompt}] text tokenizer.apply_chat_template(messages, tokenizeFalse, add_generation_promptTrue) inputs tokenizer(text, return_tensorspt) all_inputs.append(inputs) # 这里需要将输入批量处理具体实现取决于你的需求7.3 缓存机制如果经常生成相似的代码可以考虑实现一个简单的缓存import hashlib import pickle import os cache_dir ./code_cache os.makedirs(cache_dir, exist_okTrue) def get_cached_code(prompt, max_tokens256): # 用prompt的哈希值作为缓存文件名 prompt_hash hashlib.md5(prompt.encode()).hexdigest() cache_file os.path.join(cache_dir, f{prompt_hash}.pkl) if os.path.exists(cache_file): with open(cache_file, rb) as f: return pickle.load(f) # 如果没有缓存生成新代码 code generate_code(prompt, max_tokens) # 保存到缓存 with open(cache_file, wb) as f: pickle.dump(code, f) return code这样相同的prompt就不用重复生成了能节省不少时间。8. 总结走完这一整套流程你应该已经在Windows 11上成功部署了Qwen2.5-Coder-1.5B模型。从环境准备到实际使用每个步骤我都尽量讲得详细一些特别是那些容易出错的地方。这个模型虽然只有1.5B参数但代码生成能力确实不错日常的编程任务基本都能应付。最大的优点是它对硬件要求不高普通电脑就能跑这对于想体验本地AI代码生成的开发者来说是个很好的起点。实际用下来我感觉它在生成Python代码方面表现最好其他语言像JavaScript、Java也还行但可能没有Python那么熟练。如果你主要用Python开发这个模型会是个不错的助手。部署过程中如果遇到问题别着急大部分都是环境配置或者路径设置的小问题。按照教程一步步检查通常都能解决。模型生成的效果也需要一些技巧多试试不同的提示词写法找到最适合你需求的方式。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。
Qwen2.5-Coder-1.5B环境配置详解:Windows11一键部署教程
Qwen2.5-Coder-1.5B环境配置详解Windows11一键部署教程想在自己的Windows电脑上跑一个代码生成AI但又觉得那些大模型动辄几十个G对硬件要求太高试试Qwen2.5-Coder-1.5B吧。这个模型只有1.5B参数但代码生成能力相当不错关键是它对硬件要求很友好普通笔记本就能跑起来。今天我就带你一步步在Windows 11上把这个模型部署起来从环境准备到实际使用整个过程大概半小时就能搞定。就算你之前没怎么接触过AI模型部署跟着做也能顺利完成。1. 部署前准备检查你的电脑环境在开始之前我们先确认一下你的电脑是否满足基本要求。Qwen2.5-Coder-1.5B虽然是个小模型但毕竟是AI模型还是需要一些基础的硬件和软件支持。1.1 硬件要求这个模型对硬件的要求算是相当亲民了内存至少8GB系统内存推荐16GB存储空间需要5-10GB的可用磁盘空间显卡有独立显卡最好比如NVIDIA GTX系列但用CPU也能跑只是速度会慢一些处理器近几年的Intel或AMD处理器都可以如果你用的是集成显卡的轻薄本也不用担心我们后面会介绍纯CPU运行的方法。1.2 软件要求软件方面我们需要准备这几样东西Python 3.8或更高版本这是运行AI模型的基础环境Git用来下载模型和相关代码Visual Studio Build Tools可选如果你遇到某些Python包安装问题可能需要这个最关键的还是Python环境。我建议直接安装Anaconda它自带了Python和很多常用的科学计算库用起来比较省心。2. 快速安装一步到位的环境搭建好了现在开始正式安装。我会把整个过程拆解成几个简单的步骤你跟着做就行。2.1 安装Python和必要工具如果你还没有安装Python先去Python官网下载安装包。记得在安装时勾选“Add Python to PATH”这个选项这样后面在命令行里就能直接使用Python了。安装完成后打开命令提示符按WinR输入cmd回车检查一下Python是否安装成功python --version如果显示的是Python 3.8或更高版本说明安装成功了。接下来安装Git去Git官网下载Windows版本一路默认安装就行。安装完成后同样在命令行里检查git --version2.2 创建专用的Python环境为了避免和系统里其他Python项目冲突我们最好创建一个独立的环境。用Anaconda的话很简单conda create -n qwen-coder python3.10 conda activate qwen-coder如果你没用Anaconda用Python自带的venv也可以python -m venv qwen-coder-env # 激活环境 # 在Windows上 qwen-coder-env\Scripts\activate2.3 安装核心依赖包环境创建好后安装几个必要的Python包pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers accelerate pip install sentencepiece protobuf这里稍微解释一下torchPyTorch深度学习框架这是运行模型的基础transformersHugging Face的模型库里面包含了Qwen2.5-Coderaccelerate加速推理的库能让模型跑得更快一些如果你用的是NVIDIA显卡并且想用GPU加速还需要安装对应版本的CUDA。不过对于1.5B这种小模型用CPU跑也完全没问题速度可以接受。3. 下载模型两种简单方法任选环境准备好了现在来下载模型。Qwen2.5-Coder-1.5B有两个版本基础版Base和指令调优版Instruct。我推荐用Instruct版本因为它经过了指令微调用起来更顺手。3.1 方法一用Hugging Face直接下载这是最直接的方法用几行代码就能把模型下载到本地from transformers import AutoModelForCausalLM, AutoTokenizer import os # 指定模型名称 model_name Qwen/Qwen2.5-Coder-1.5B-Instruct # 创建保存模型的目录 model_dir ./qwen2.5-coder-1.5b os.makedirs(model_dir, exist_okTrue) print(开始下载模型这可能需要一些时间...) print(模型大小约3GB请确保网络连接稳定) # 下载模型和分词器 tokenizer AutoTokenizer.from_pretrained(model_name) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypeauto, device_mapauto ) # 保存到本地 tokenizer.save_pretrained(model_dir) model.save_pretrained(model_dir) print(f模型已保存到: {model_dir})把这段代码保存为download_model.py然后在命令行里运行python download_model.py下载过程可能需要10-30分钟取决于你的网速。模型大小约3GB下载完成后会保存在当前目录的qwen2.5-coder-1.5b文件夹里。3.2 方法二用Git LFS下载如果你习惯用Git也可以用Git LFS来下载# 安装Git LFS如果还没安装 git lfs install # 克隆模型仓库 git clone https://huggingface.co/Qwen/Qwen2.5-Coder-1.5B-Instruct这种方法的好处是你可以看到模型的所有文件包括配置文件、许可证等。不过需要先安装Git LFS。4. 运行模型你的第一个代码生成模型下载好了现在来试试它到底能不能用。我们写一个简单的Python脚本来测试一下。4.1 基础测试脚本创建一个新文件test_model.py输入以下内容from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 加载本地模型 model_path ./qwen2.5-coder-1.5b # 修改为你的模型路径 tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) # 准备输入 prompt 写一个Python函数计算斐波那契数列的第n项 messages [ {role: system, content: 你是一个编程助手专门帮助用户编写和优化代码。}, {role: user, content: prompt} ] # 将对话格式化为模型能理解的格式 text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) # 生成代码 inputs tokenizer(text, return_tensorspt).to(model.device) with torch.no_grad(): outputs model.generate( **inputs, max_new_tokens256, temperature0.7, do_sampleTrue ) # 解码并输出结果 generated_text tokenizer.decode(outputs[0], skip_special_tokensTrue) print(生成的代码) print(generated_text)运行这个脚本python test_model.py如果一切正常你应该能看到模型生成的斐波那契数列函数。第一次运行可能会慢一些因为模型需要加载到内存中。4.2 试试更复杂的需求基础功能没问题了我们来试试更实际一点的场景。修改一下promptprompt 我需要一个Python脚本功能如下 1. 读取当前目录下的所有CSV文件 2. 合并这些文件的数据 3. 计算每个数值列的平均值和标准差 4. 将结果保存到新的CSV文件中 请给出完整的代码包括必要的异常处理。把这个prompt替换到上面的测试脚本里再运行一次。看看模型能不能生成一个可用的数据处理的脚本。5. 常见问题与解决方案在实际部署过程中你可能会遇到一些问题。这里我整理了几个常见的情况和解决办法。5.1 内存不足问题如果你的电脑内存比较小比如只有8GB可能会遇到内存不足的错误。可以试试这些方法使用CPU模式在加载模型时指定使用CPUmodel AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float32, device_mapcpu # 强制使用CPU )量化模型使用8位或4位量化来减少内存占用from transformers import BitsAndBytesConfig quantization_config BitsAndBytesConfig( load_in_4bitTrue, bnb_4bit_compute_dtypetorch.float16 ) model AutoModelForCausalLM.from_pretrained( model_path, quantization_configquantization_config, device_mapauto )分批处理如果生成长文本时内存不足可以尝试减少max_new_tokens参数的值。5.2 模型加载慢的问题第一次加载模型可能会比较慢特别是从硬盘加载到内存的过程。这是正常的因为模型文件有3GB左右。后续再运行就会快很多。如果你觉得加载太慢可以考虑使用SSD硬盘如果模型放在机械硬盘上换成SSD会快很多预加载模型如果经常使用可以让模型一直保持在内存中使用更快的存储比如NVMe SSD5.3 生成质量不理想有时候模型生成的代码可能不符合你的期望可以尝试调整生成参数outputs model.generate( **inputs, max_new_tokens512, # 增加生成长度 temperature0.3, # 降低温度让输出更确定 top_p0.9, # 使用核采样 repetition_penalty1.1, # 避免重复 do_sampleTrue )另外给模型更详细的指令也能提高生成质量。比如不只是说“写一个排序函数”而是说“写一个Python的快速排序函数要求处理重复元素并且有详细的注释”。6. 进阶使用集成到开发工作流模型能跑起来了但每次都要写Python脚本来调用还是有点麻烦。我们来看看怎么把它集成到日常的开发工作流中。6.1 创建简单的命令行工具我们可以写一个简单的命令行工具这样在终端里就能直接使用模型了。创建一个新文件qwen_coder_cli.pyimport argparse from transformers import AutoModelForCausalLM, AutoTokenizer import torch import sys class QwenCoderCLI: def __init__(self, model_path): print(加载模型中...) self.tokenizer AutoTokenizer.from_pretrained(model_path) self.model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) print(模型加载完成) def generate_code(self, prompt, max_tokens512): messages [ {role: system, content: 你是一个专业的编程助手。}, {role: user, content: prompt} ] text self.tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) inputs self.tokenizer(text, return_tensorspt).to(self.model.device) with torch.no_grad(): outputs self.model.generate( **inputs, max_new_tokensmax_tokens, temperature0.7, do_sampleTrue ) # 提取生成的代码部分 full_output tokenizer.decode(outputs[0], skip_special_tokensTrue) # 这里可以添加逻辑来提取代码块 return full_output def main(): parser argparse.ArgumentParser(descriptionQwen2.5-Coder命令行工具) parser.add_argument(prompt, help代码生成提示) parser.add_argument(--model-path, default./qwen2.5-coder-1.5b, help模型路径) parser.add_argument(--max-tokens, typeint, default512, help最大生成长度) args parser.parse_args() coder QwenCoderCLI(args.model_path) result coder.generate_code(args.prompt, args.max_tokens) print(\n *50) print(生成的代码) print(*50) print(result) if __name__ __main__: main()使用方式python qwen_coder_cli.py 写一个Python函数验证电子邮件地址格式6.2 在Jupyter Notebook中使用如果你用Jupyter Notebook做数据分析或机器学习也可以把模型集成进去。创建一个新的Notebook然后添加以下单元格# 第一个单元格加载模型 from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_path ./qwen2.5-coder-1.5b tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16 if torch.cuda.is_available() else torch.float32, device_mapauto ) print(模型加载完成)# 第二个单元格定义生成函数 def generate_code(prompt, max_tokens256): messages [ {role: system, content: 你是一个数据分析助手。}, {role: user, content: prompt} ] text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) inputs tokenizer(text, return_tensorspt).to(model.device) with torch.no_grad(): outputs model.generate( **inputs, max_new_tokensmax_tokens, temperature0.7, do_sampleTrue ) return tokenizer.decode(outputs[0], skip_special_tokensTrue) # 使用示例 result generate_code(用pandas读取CSV文件并显示前5行) print(result)这样在Notebook里就能随时调用模型生成代码了特别适合数据分析时快速生成数据处理脚本。7. 性能优化建议如果你想让模型跑得更快、效果更好可以试试下面这些优化方法。7.1 使用GPU加速如果你有NVIDIA显卡确保安装了正确版本的CUDA和cuDNN。然后用这个方式加载模型model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16, # 使用半精度浮点数 device_mapcuda:0 if torch.cuda.is_available() else cpu )GPU加速能让推理速度提升好几倍特别是生成长代码时。7.2 批处理生成如果需要生成多个类似的代码片段可以一次性输入多个promptprompts [ 写一个Python函数计算圆的面积, 写一个Python函数计算矩形的面积, 写一个Python函数计算三角形的面积 ] # 批量处理 all_inputs [] for prompt in prompts: messages [{role: user, content: prompt}] text tokenizer.apply_chat_template(messages, tokenizeFalse, add_generation_promptTrue) inputs tokenizer(text, return_tensorspt) all_inputs.append(inputs) # 这里需要将输入批量处理具体实现取决于你的需求7.3 缓存机制如果经常生成相似的代码可以考虑实现一个简单的缓存import hashlib import pickle import os cache_dir ./code_cache os.makedirs(cache_dir, exist_okTrue) def get_cached_code(prompt, max_tokens256): # 用prompt的哈希值作为缓存文件名 prompt_hash hashlib.md5(prompt.encode()).hexdigest() cache_file os.path.join(cache_dir, f{prompt_hash}.pkl) if os.path.exists(cache_file): with open(cache_file, rb) as f: return pickle.load(f) # 如果没有缓存生成新代码 code generate_code(prompt, max_tokens) # 保存到缓存 with open(cache_file, wb) as f: pickle.dump(code, f) return code这样相同的prompt就不用重复生成了能节省不少时间。8. 总结走完这一整套流程你应该已经在Windows 11上成功部署了Qwen2.5-Coder-1.5B模型。从环境准备到实际使用每个步骤我都尽量讲得详细一些特别是那些容易出错的地方。这个模型虽然只有1.5B参数但代码生成能力确实不错日常的编程任务基本都能应付。最大的优点是它对硬件要求不高普通电脑就能跑这对于想体验本地AI代码生成的开发者来说是个很好的起点。实际用下来我感觉它在生成Python代码方面表现最好其他语言像JavaScript、Java也还行但可能没有Python那么熟练。如果你主要用Python开发这个模型会是个不错的助手。部署过程中如果遇到问题别着急大部分都是环境配置或者路径设置的小问题。按照教程一步步检查通常都能解决。模型生成的效果也需要一些技巧多试试不同的提示词写法找到最适合你需求的方式。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。