【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低

【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低 前言我的电脑是AMD的32G内存没有GPU偏要玩一玩千问3.5本地大语言模型github上下载的llama安装包无法使用只有自己编译试试了。注意我是编译CPU版本的你有GPU这篇别看了。以下是我的CPU型号:1. 下载CMAKE官网下载地址或者下载我上传的注意这是64位链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk2. 下载VS2022VS2022官网下载地址或者下载我上传的链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk勾上这个安装就行安装后重启电脑3. 下载大语言模型Qwen3.5-0.8可选我垃圾电脑CPU选择0.8B量化小模型试试你可以选择别的大一点的模型也可以选择0.8B的其他量化版本Qwen3.5-0.8B官网下载地址或者下载我上传的链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk4. 拉取llama代码编译打开开始菜单找到vs2022的专用powershell单击打开执行如下命令,注意我是编译CPU版本的你有GPU这篇别看了gitclonegitclone https://github.com/ggml-org/llama.cpp.git--depth1cdllama.cppmkdirbuildcdbuild cmake..-GVisual Studio 17 2022-Ax64-DLLAMA_CURLOFF cmake--build.--configRelease编译完后进入目录cdbincdRelasels执行llama-cli--help可以看到打印就算是安装成功了跑Qwen3.5-0.8B试试.\llama-cli.exe-m你的路径\Qwen3.5-0.8B-Q4_K_M.gguf-c4096-c 4096代表4k上下文千问3.5-0.8B最大是支持256k,改成.\llama-cli.exe-mD:\model\Qwen3.5-0.8B-Q4_K_M.gguf-c262144实测跑起来了速度还行37 token / s内存使用情况还不错内存只用了12G左右CPU用了70%。