不用联网,不用买 API Key,一个命令就能跟 Llama、DeepSeek 聊天我第一次听说 Ollama 的时候,心里想的是:又是个需要折腾半天的东西。结果一试,真的就是下载、运行、开聊。这篇文章把我自己折腾过程中用过的命令、踩过的坑、怎么把它集成到代码里,以及完整的接口文档都记下来了,希望对你有用。一、Ollama 到底是什么?简单说,它就是一个本地跑大模型的工具。你不需要懂 Python 环境、不需要装 PyTorch、不需要担心 CUDA 版本对不对——它把这些都打包好了。你只需要在终端敲一行命令,模型就能跑起来。支持哪些模型?主流的像 Llama 3、DeepSeek-R1、Qwen、Mistral、Phi 都能用。而且模型存在你自己硬盘上,对话数据也不会上传到任何地方。二、安装,就两步下载安装包Mac:去 ollama.com 下载.dmg,拖进应用程序就行。Windows:下载.exe,一路下一步。建议配合 WSL2 使用,原生 Windows 也可以但稍微麻烦点。Linux:一条命令搞定curl-fsSLhttps://ollama.com/install.sh|sh装完验证一下:ollama--version能看到版本号(比如ollama version 0.5.7)就说明好了。⚠️ 重要:改一下模型存放位置Ollama 默认把模型放你家目录下(Mac/Linux 是~/.ollama/models,Windows 是C:\Users\你的用户名\.ollama\models)。一个 7B 的模型差不多 4-5GB,70B 的要 40GB 往上,很容易把 C 盘或系统盘塞满。改存放路径的方法(强烈建议在做任何事情之前就设好):Mac/Linux:编辑~/.bashrc或~/.zshrc,加一行exportOLLAMA_MODELS=/你的大容量硬盘路径/ollama_models然后执行source ~/.bashrc。Windows:新建一个系统环境变量,变量名OLLAMA_MODELS,值填你想要的路径(比如D:\ollama_models),然后重启终端。三、最常用的几个命令我把平时用到的命令分成了四类,附上真实例子。1. 下载模型 –ollama pull去官网模型库看看有哪些,然后直接拉下来:# 下载 7B 的 Llama 3.2(大小约 4.2GB)ollama pull llama3.2# 下载 70B 的 DeepSeek R1(硬盘要有 40GB+ 空闲)ollama pull deepseek-r1:70b# 下载轻量级的 qwen2:1.5b(只有 1GB 左右,适合老电脑)ollama pull qwen2:1.5b如果你显存或内存不大,找带q4_0、q5_K_M这种后缀的,那是量化版,体积小一半,效果损失不大。2. 运行模型 –ollama run下载完直接跑:ollama run llama3.2然后终端就变成聊天界面了,你打字它回答。想退出输入/bye或者按Ctrl+D。一次问一句(非交互模式):ollama run llama3.2"用一句话解释什么是量子纠缠"从文件读取提示词:ollama run llama3.2--filemy_prompt.txt想要更详细的运行信息(比如每秒生成多少 token):
本地大模型一键运行:Ollama 终极指南
不用联网,不用买 API Key,一个命令就能跟 Llama、DeepSeek 聊天我第一次听说 Ollama 的时候,心里想的是:又是个需要折腾半天的东西。结果一试,真的就是下载、运行、开聊。这篇文章把我自己折腾过程中用过的命令、踩过的坑、怎么把它集成到代码里,以及完整的接口文档都记下来了,希望对你有用。一、Ollama 到底是什么?简单说,它就是一个本地跑大模型的工具。你不需要懂 Python 环境、不需要装 PyTorch、不需要担心 CUDA 版本对不对——它把这些都打包好了。你只需要在终端敲一行命令,模型就能跑起来。支持哪些模型?主流的像 Llama 3、DeepSeek-R1、Qwen、Mistral、Phi 都能用。而且模型存在你自己硬盘上,对话数据也不会上传到任何地方。二、安装,就两步下载安装包Mac:去 ollama.com 下载.dmg,拖进应用程序就行。Windows:下载.exe,一路下一步。建议配合 WSL2 使用,原生 Windows 也可以但稍微麻烦点。Linux:一条命令搞定curl-fsSLhttps://ollama.com/install.sh|sh装完验证一下:ollama--version能看到版本号(比如ollama version 0.5.7)就说明好了。⚠️ 重要:改一下模型存放位置Ollama 默认把模型放你家目录下(Mac/Linux 是~/.ollama/models,Windows 是C:\Users\你的用户名\.ollama\models)。一个 7B 的模型差不多 4-5GB,70B 的要 40GB 往上,很容易把 C 盘或系统盘塞满。改存放路径的方法(强烈建议在做任何事情之前就设好):Mac/Linux:编辑~/.bashrc或~/.zshrc,加一行exportOLLAMA_MODELS=/你的大容量硬盘路径/ollama_models然后执行source ~/.bashrc。Windows:新建一个系统环境变量,变量名OLLAMA_MODELS,值填你想要的路径(比如D:\ollama_models),然后重启终端。三、最常用的几个命令我把平时用到的命令分成了四类,附上真实例子。1. 下载模型 –ollama pull去官网模型库看看有哪些,然后直接拉下来:# 下载 7B 的 Llama 3.2(大小约 4.2GB)ollama pull llama3.2# 下载 70B 的 DeepSeek R1(硬盘要有 40GB+ 空闲)ollama pull deepseek-r1:70b# 下载轻量级的 qwen2:1.5b(只有 1GB 左右,适合老电脑)ollama pull qwen2:1.5b如果你显存或内存不大,找带q4_0、q5_K_M这种后缀的,那是量化版,体积小一半,效果损失不大。2. 运行模型 –ollama run下载完直接跑:ollama run llama3.2然后终端就变成聊天界面了,你打字它回答。想退出输入/bye或者按Ctrl+D。一次问一句(非交互模式):ollama run llama3.2"用一句话解释什么是量子纠缠"从文件读取提示词:ollama run llama3.2--filemy_prompt.txt想要更详细的运行信息(比如每秒生成多少 token):