【2026】记录在windows编译llama.cpp步骤，AMD CPU本地部署千问3.5本地大模型，内存占用低-尧图企业网站定制

前言我的电脑是AMD的32G内存没有GPU偏要玩一玩千问3.5本地大语言模型github上下载的llama安装包无法使用只有自己编译试试了。注意我是编译CPU版本的你有GPU这篇别看了。以下是我的CPU型号:1. 下载CMAKE官网下载地址或者下载我上传的注意这是64位链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk2. 下载VS2022VS2022官网下载地址或者下载我上传的链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk勾上这个安装就行安装后重启电脑3. 下载大语言模型Qwen3.5-0.8可选我垃圾电脑CPU选择0.8B量化小模型试试你可以选择别的大一点的模型也可以选择0.8B的其他量化版本Qwen3.5-0.8B官网下载地址或者下载我上传的链接https://pan.quark.cn/s/57d6d1f65309提取码cYQk4. 拉取llama代码编译打开开始菜单找到vs2022的专用powershell单击打开执行如下命令,注意我是编译CPU版本的你有GPU这篇别看了gitclonegitclone https://github.com/ggml-org/llama.cpp.git--depth1cdllama.cppmkdirbuildcdbuild cmake..-GVisual Studio 17 2022-Ax64-DLLAMA_CURLOFF cmake--build.--configRelease编译完后进入目录cdbincdRelasels执行llama-cli--help可以看到打印就算是安装成功了跑Qwen3.5-0.8B试试.\llama-cli.exe-m你的路径\Qwen3.5-0.8B-Q4_K_M.gguf-c4096-c 4096代表4k上下文千问3.5-0.8B最大是支持256k,改成.\llama-cli.exe-mD:\model\Qwen3.5-0.8B-Q4_K_M.gguf-c262144实测跑起来了速度还行37 token / s内存使用情况还不错内存只用了12G左右CPU用了70%。

相关新闻

别再只用ROC了！用R语言ggplot2为你的Logistic回归模型画个校准曲线（附完整代码）

终极CAD数据解放方案：深度解析LibreDWG开源DWG转换工具实战指南

SENet通道注意力实战：如何像搭积木一样把它嵌入你的YOLOv5或ResNet网络（附性能对比）

2025届毕业生推荐的六大降AI率助手实测分析

i.MX6ULL电容触摸驱动开发：从硬件原理到Linux输入子系统实战

终极指南：如何使用Harepacker复活版轻松打造你的MapleStory游戏世界

医学研究的常用统计学方法【9天实用统计学公益训练营(Day2-2】

告别纯HDL！用Xilinx SDK和MicroBlaze MCS，像写软件一样玩转FPGA嵌入式开发

告别DDPG训练不稳定！用SAC（软性演员-评论家）算法搞定复杂环境强化学习

优之彩的不锈钢实心台面，为什么是厨房装修的“长期主义者”？

YOLOv11超市货架牛奶目标检测数据集-463张-Milk-1

2025年网盘直链下载终极指南：告别限速，轻松获取高速下载链接

基于CircuitPython与运动传感器的智能LED滑雪板灯光系统全解析

app扫描wifi的时候需要打开GPS定位----否则扫不到

使用辅助权限登录wifi

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感