将transformer权重参数文件转化为gguf文件以适用于Ollama客户端-尧图企业网站定制

1.前置条件Python 3.10 环境足够内存8B 模型至少要十几 GB 内存转 Q4_K_M 时会更多安装依赖pip install torch transformers accelerate pip install -U huggingface_hub[cli]2.下载 Transformers 权重在你准备放模型的目录打开终端比如 D:\models\granite-4.1-8b# 下载整个仓库到当前目录huggingface-cli download ibm-granite/granite-4.1-8b --local-dir这会下载 config.json、tokenizer.json、model-000xx-of-000xx.safetensors 等文件geeksforgeeks.org。3.安装 llama.cpp 并准备转换脚本克隆 llama.cppgit clone https://github.com/ggml-org/llama.cpp cd llama.cpp安依赖pip install -r requirements.txt这一步是为了让 convert-hf-to-gguf.py 能跑。确认脚本存在python convert-hf-to-gguf.py --help能看到帮助说明就说明没问题。4.用 convert-hf-to-gguf.py 转 GGUF先转 F16/BF16假设你已经回到模型目录D:\models\granite-4.1-8b文件夹llama.cpp 在 D:\models\llama.cpp先转一个高精度 GGUFf16/bf16之后再量化python D:\models\llama.cpp\convert-hf-to-gguf.py D:\models\granite-4.1-8b --outfile granite-4.1-8b-f16.gguf --outtype f16说明第 1 个参数本地 HF 模型目录里面有 config.json safetensorsgeeksforgeeks.org。--outfile输出的 GGUF 文件名。--outtypef16 / bf16 / q8_0 等f16 先保真后面再量化。5.用 llama.cpp 量化可选但推荐GGUF 文件可以进一步量化成 Q4_K_M、Q5_K_M 等减小体积并加速推理。在 llama.cpp 目录下# 量化为 Q4_K_Mpython D:\models\llama.cpp\quantize.exe D:\models\granite-4.1-8b\granite-4.1-8b-f16.gguf D:\models\granite-4.1-8b\granite-4.1-8b-Q4_K_M.gguf Q4_K_M注意quantize.exe 是编译出来的二进制需要你用 CMake 先编译 llama.cpp。6.把 GGUF 导入 Ollama在 GGUF 所在目录写 Modelfile.txt例如 D:\models\granite-4.1-8b\ModelfileFROM ./granite-4.1-8b-Q4_K_M.gguf SYSTEM You are a helpful assistant that can call tools to control CATIA V5. 然后ollama create granite4.1-local -f Modelfile ollama run granite4.1-local7.关键点与坑提醒不是所有 Transformers 模型都能转 GGUFconvert-hf-to-gguf.py 只支持“decoder-only 自回归”架构比如 LLaMA、Mistral、Gemma、Phi 等。Granite-4.1-8B 属于这类所以是支持的IBM 官方 GGUF 仓库也用它做转换。必须用 llama.cpp 官方脚本不要随便用其他脚本否则 GGUF 结构不对Ollama / llama.cpp 跑不起来。8.量化顺序推荐先转 f16/bf16 GGUF → 再用 llama.cpp 量化这样精度更可控。9.内存和时间8B 模型转 GGUF 量化内存可能要 32GB 以上全流程可能几十分钟到一小时取决于 CPU/磁盘速度。

相关新闻

大厂重燃医疗赛道战火，字节小荷AI医疗布局能否突围？

Windows Server 2012上装SQL Server 2012，第一步.NET 3.5就卡住了？保姆级避坑指南

云知声U2即将发布：小参数大能量，能否填平估值差？

【上海市浦东新区计算机协会主办，阳光学院支持 | ACM ICPS 出版 ，ISBN号：979-8-4007-2532-6】第三届人工智能与自然语言处理国际学术会议（AINLP 2026）

从图像处理到项目实战：手把手教你用VS2019+OpenCV4.5写第一个‘看图’程序

基于WebGPU的浏览器端轻量级大语言模型推理实践

联合团队发布深度学习优化算法综述，为下一代优化方法设计提供实践指南

隐私保护机器学习中OT扩展协议的性能优化与Ironman加速器设计

目视化不是面子工程，是航特思齐的管理底气｜让文化、秩序、成长看得见

容器化Nextcloud离线部署协作应用实战：以Collabora为例

草莓成熟度检测数据集VOC+YOLO格式1487张3类别有增强

为什么android原生的不直接在开机的时候，直接启动usb调试模式呢，还需要用户去点击呢？

为什么你的AI Agent总在跨境清关环节“失语”？揭秘NLP+规则引擎混合推理的5个关键断点

【AI Agent行业落地黄金法则】：20年架构师亲授7大避坑指南与3个已验证千万级ROI场景

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪 技术地位与核心优势

从stress到stress-ng：一文搞懂Linux压力测试工具怎么选？实战对比CPU/内存/磁盘压测效果

从TTL到eDP：嵌入式工程师选屏接口的实战避坑指南（附信号实测对比）

实测 Taotoken 多模型路由的响应延迟与稳定性体感

【上海市浦东新区计算机协会主办，阳光学院支持 | ACM ICPS 出版，ISBN号：979-8-4007-2532-6】第三届人工智能与自然语言处理国际学术会议（AINLP 2026）

镜像视界浙江科技有限公司｜数字孪生・视频孪生・无感定位・跨镜追踪技术地位与核心优势