上周我在GitHub上发现了一个超酷的项目原名为Perplexica现已更名为Vane。对我来说这是一个不容错过的机会。事实上我可以拥有一个令人惊叹的本地Web应用类似于Perplexity.ai运行在我本地的LLM上通过llama.cpp提供服务。**Vane是一个开源、自托管的AI驱动的问答引擎由ItzCrazyKns开发。**它作为一个注重隐私的Perplexity AI替代品支持使用SearxNG进行搜索、LLM通过Ollama或云提供商以及带引用的回复功能进行本地部署。PSllama.cpp不包含在内但在本文中我将向你展示如何配置正如原始名称所暗示的VanePerplexica是一个模仿著名的Perplexity的项目我已经使用Perplexity三个月了。顺便说一句如果你有Revolut账户且至少是高级账户你可以免费使用Perplexity作为该等级福利的一部分。无论如何Perplexity令人惊叹模型本身非常好所有回复都基于实时收集和评估的网络来源。模型响应中的每个声明都引用不同的来源从第一个token开始就避免幻觉。在我的旧联想X260上运行Perplexica使用Qwen3.5和llama.cpp在本文中我将向你展示如何在你的电脑上运行Perplexica获得与Perplexity相同的体验……但不需要支付一分钱。我还会给你一些示例帮助你选择最适合这项工作的本地模型。让我们开始吧。1、什么是Perplexica**Perplexica是一个受Perplexity AI启发的开源AI驱动搜索引擎。**它使用SearxNG进行网络搜索、通过Ollama使用本地LLM如Llama3以及相似性搜索和嵌入等先进技术来提供带引用的答案。最初以Perplexica之名推出该项目已更名为VaneGitHub仓库位于https://github.com/ItzCrazyKns/Vane通过频繁的提交、如v1.12.1的发布和Docker构建积极维护。有很多有趣的功能支持速度模式、平衡模式、深度研究、文件上传和特定领域搜索如学术、YouTube在您的硬件上100%本地运行以确保隐私将本地LLM与可选的云模型相结合包括智能建议、会话管理和用于集成的API端点Vane可以在正常模式下运行直接网络搜索或在Copilot模式开发中下生成多个查询并访问热门结果。它包括学术、YouTube、Reddit、Wolfram Alpha和写作助手等专注模式。最突出的功能是它支持注重隐私的、最新的结果而不依赖过时的索引。**Vane的搜索模式优化AI驱动的查询以实现速度、深度或特定性。**它们包括一般模式如速度、平衡和质量或深度研究以及针对学术、YouTube和Reddit等领域的专注模式。在速度模式下vane/Perplexica以最少的处理提供快速答案以获得快速结果。平衡模式适合日常搜索在速度和准确性之间取得平衡。还有质量/深度研究模式执行深入分析、多个查询和站点访问以获得深入回复。在所有模式下您可以将搜索限制在特定来源例如学术用于学术内容、YouTube用于视频、Reddit用于讨论通过提示、SearxNG修饰符和LLM支持自定义配置以实现用户定义的模板通过嵌入和相似性排名增强相关性支持文件上传和智能建议等选项我们可以拥有所有这些而不用担心token成本事实上即使速度较慢也有办法使用llama.cpp服务器和好的本地LLM在我们的电脑上运行Perplexica。以下是方法……2、如何安装和使用Perplexica有几种方法可以在您的电脑上安装Perplexica。最简单的方法是通过Docker镜像。我们将使用这种方法。第一步是安装Docker桌面版或者下载Windows二进制文件我在Windows 11上测试所有这些但您也可以在MacOS和Linux上做https://www.docker.com/products/docker-desktop/下载安装程序后运行它。在过程结束时Docker将自动启动。Docker Desktop在Images标签页的截图## 3、安装vane/Perplexica docker容器确保Docker Desktop正在运行。打开终端在任何地方并运行这个简单的命令docker run -d -p 3000:3000 -v vane-data:/home/vane/data --name vane itzcrazykns1337/vane:latestDocker将获取vane项目Perplexica的镜像下载并为我们启动它。Docker镜像的好处是它们已经配置了所有依赖项和功能。例如Perplexica自带已安装的SearXNG一个强大的本地运行搜索引擎不需要任何API密钥现在……在终端完成所有过程后见上图您的Docker Desktop将在容器中有一个新条目点击▶️播放按钮启动它这就是您在电脑上运行Perplexica所需的全部。点击vane后查看日志如果您在浏览器中我在这里使用Comet指向localhost:3000您可以看到它正在运行。*您的浏览器访问http://localhost:3000/*现在我们需要一个AI模型。4、llama.cpp服务器只需一步之遥这里真正的问题是vane/Perplexica没有为llama.cpp服务器内置配置。设置 模型 管理连接 添加连接默认可用选项是没有llama.cpp但通过一些技巧我们可以利用标准的OpenAI连接让它准备好与我们的llama-server一起工作4.1 首先……让我们谈谈模型。并非每个聊天模型都适合这个应用事实上Perplexica使用就像原始的Perplexity……推理工具调用所以并非所有模型都有这些功能小型语言模型更是少之又少。我自己在我的老旧的联想X260笔记本电脑上测试了以下模型Gemma-3n-E2B-itLFM-2.5–1.2b-instructQwen3.5–0.8bMinistral-3–3B-Instruct-2512Granite-4.0-h-tinyGranite-3.1–3b-a800m-instructTrinity-Nano-PreviewQwen3.5–2bQwen3–4b-instructNVIDIA-Nemotron3-Nano-4BQwen3–1.7B测试所有这些后我明白了并非所有模型都适合Perplexica即使是真正优秀的Ministral-3–3B-Instruct-2512它通常在低规格硬件上运行得很好具有准确性和可靠性。稍后我会给你详细的反馈。现在让我们看看如何在你的电脑上让它工作。注意所有这些示例都是针对Windows操作系统用户的但很容易适用于Linux和Mac用户。4.2 安装llama.cpp二进制文件从官方GitHub仓库下载仅CPU用户的最新llama.cpp二进制文件下载llama-b8508-bin-win-cpu-x64.zip解压到一个名为PerplexicaAI的新目录中4.3 下载模型的量化权重正如我向您展示的我测试了几个小型语言模型对于仅CPU用户最好的是Qwen3.5–0.8b-GGUF。从Unsloth仓库下载Qwen3.5–0.8B-Q6_K.gguf只需点击链接下载。我选择Q6以尽可能减少质量损失。放在同一个名为PerplexicaAI的目录中Unsloth仓库还为我们提供了建议的超参数Perplexica建议使用思考模式进行文本任务temperature1.0, top_p0.95, top_k20, min_p0.0, presence_penalty1.5, repetition_penalty1.0我们在下一步需要这些设置。4.4 使用llama-server运行模型在同一个名为PerplexicaAI的目录中打开终端运行.\llama-server.exe -m .\Qwen_Qwen3.5-0.8B-Q6_K.gguf --mmap -ngl 0 -t 2 -c 32288 --host 0.0.0.0 --port 8888 --reasoning-budget -1 -fa on --temp 1.0 --top-k 20 --top-p 0.95 --presence-penalty 1.5 -a qwen3.5-0.8此命令将启用思考模式即使我们使用的是非思考设置上下文长度为32k tokenvane/Perplexica需要大量token启用flash attention和内存映射。我们将只使用2个线程但如果您有更多线程请增加为操作系统至少保留1个线程空闲。为了在网络上公开端点我们设置--host 0.0.0.0在--port 8888注意我们使用选项-a qwen3.5–0.8为模型分配了一个别名这意味着当您调用端点时需要将模型名称指定为qwen3.5–0.8。我们将在下一步中看到4.5 在Perplexica中配置模型连接为此点击设置 模型 管理连接 添加连接并选择OpenAI。给连接一个名称如lcpp-qwen3.5在API key中写一些东西即使我们不使用它非常重要的是将Base URL设置如下http://host.docker.internal:8888由于我们在Docker容器中运行Perplexica我们指向我们电脑的本地主机指向http://host.docker.internal我们要求llama-server在端口8888托管端点因此最终的Base URL必须是http://host.docker.internal:8888这只是主连接。现在我们需要链接一个聊天模型见上图右边那个。4.6 在聊天模型列表中添加模型在设置中找到您的新连接然后在聊天模型部分点击** 添加**。模型名称必须与我们在llama-server中使用选项-a qwen3.5–0.8设置的相同记得我们说过当您调用端点时需要将模型名称指定为qwen3.5–0.8。即使我们不使用它也不要让Model Key为空点击添加模型。4.7 将新模型设置为Perplexica AI模型转到Perplexica的首页点击cpu符号并查找您的连接/聊天模型。⚠️注意有时如果您看不到新连接需要重启容器或者简单地刷新页面4.8 运行测试我还建议您将研究模式更改为平衡。输入您的查询并运行。公平地说我通过询问测试了所有模型搜索网络帮助我理解Fabio Matricardi是谁我不是很有名所以肯定需要一个好的网络搜索。在运行llama-server的终端窗口中您应该能够看到新的POST调用进来这意味着它正在工作准备等待长达30分钟完成整个流程而且token预算很高但它在您的电脑上所以不用担心奇怪的账单。在流程接近尾声时Perplexica将搜索与查询相关的图片。如果您看不到它们请点击图标。5、旁注vane/Perplexica与本地AI一起运行是可能的任务。即使使用像Qwen3.5–0.8b这样的小模型结果也相当不错推理过程流畅幻觉几乎可以忽略不计。但是……一个查询需要长达30分钟取决于您的CPU速度和可以使用多少线程流程很费token将您的上下文窗口至少增加到32ktoken计数使用的中点检查## 6、最佳小型语言模型……以及原因这是我对用于测试Perplexica的所有小型语言模型的简要报告Gemma-3n-E2B-it这是一个稀疏模型只有2B活跃参数。总体上相当不错但它不能一次就得到正确结果。检索到的链接是一致的。可能一个未审查的版本会做得更好。推荐LFM-2.5–1.2b-instruct我无法获得好的结果。如果您成功了请留下评论告诉我您的设置。Qwen3.5–0.8b最小的一个但令人惊讶地是最佳之一。它一次就得到了正确结果但链接结果有一些问题。请注意您需要超过25k token的上下文窗口。推荐Ministral-3–3B-Instruct-2512正如预期的那样它不好。Granite-4.0-h-tiny这是IBM的LLM混合专家模型。通常不错但引用链接有一些问题。但它一次就成功了Granite-3.1–3b-a800m-instructIBM的另一个混合专家模型。这一点都不好从头到尾都在幻觉。Trinity-Nano-Preview这是一个MoE总共6b参数但只有1b活跃。模型不错且响应迅速但我们无法获得正确的链接。没有推理痕迹但我们有图片。Qwen3.5–2b这是一个思考模型阿里巴巴的最新一代。它比0.8b版本好一点但慢得多。总体上非常好。推荐7、结束语如果您设法读到最后……恭喜我试图给出所有步骤因为我不想让你们中的任何人浪费我让它工作所花的同样多的时间。如果您好奇我会在以后的帖子中展示可能也在我的Substack上如何使用Perplexicaopenrouter免费模型开箱即用不可能但我创建了我的方法在您本地网络的另一台计算机上运行的模型原文链接Vane 安装指南(本地AI问答引擎) - 汇智网
Vane 安装指南(本地AI问答引擎)
上周我在GitHub上发现了一个超酷的项目原名为Perplexica现已更名为Vane。对我来说这是一个不容错过的机会。事实上我可以拥有一个令人惊叹的本地Web应用类似于Perplexity.ai运行在我本地的LLM上通过llama.cpp提供服务。**Vane是一个开源、自托管的AI驱动的问答引擎由ItzCrazyKns开发。**它作为一个注重隐私的Perplexity AI替代品支持使用SearxNG进行搜索、LLM通过Ollama或云提供商以及带引用的回复功能进行本地部署。PSllama.cpp不包含在内但在本文中我将向你展示如何配置正如原始名称所暗示的VanePerplexica是一个模仿著名的Perplexity的项目我已经使用Perplexity三个月了。顺便说一句如果你有Revolut账户且至少是高级账户你可以免费使用Perplexity作为该等级福利的一部分。无论如何Perplexity令人惊叹模型本身非常好所有回复都基于实时收集和评估的网络来源。模型响应中的每个声明都引用不同的来源从第一个token开始就避免幻觉。在我的旧联想X260上运行Perplexica使用Qwen3.5和llama.cpp在本文中我将向你展示如何在你的电脑上运行Perplexica获得与Perplexity相同的体验……但不需要支付一分钱。我还会给你一些示例帮助你选择最适合这项工作的本地模型。让我们开始吧。1、什么是Perplexica**Perplexica是一个受Perplexity AI启发的开源AI驱动搜索引擎。**它使用SearxNG进行网络搜索、通过Ollama使用本地LLM如Llama3以及相似性搜索和嵌入等先进技术来提供带引用的答案。最初以Perplexica之名推出该项目已更名为VaneGitHub仓库位于https://github.com/ItzCrazyKns/Vane通过频繁的提交、如v1.12.1的发布和Docker构建积极维护。有很多有趣的功能支持速度模式、平衡模式、深度研究、文件上传和特定领域搜索如学术、YouTube在您的硬件上100%本地运行以确保隐私将本地LLM与可选的云模型相结合包括智能建议、会话管理和用于集成的API端点Vane可以在正常模式下运行直接网络搜索或在Copilot模式开发中下生成多个查询并访问热门结果。它包括学术、YouTube、Reddit、Wolfram Alpha和写作助手等专注模式。最突出的功能是它支持注重隐私的、最新的结果而不依赖过时的索引。**Vane的搜索模式优化AI驱动的查询以实现速度、深度或特定性。**它们包括一般模式如速度、平衡和质量或深度研究以及针对学术、YouTube和Reddit等领域的专注模式。在速度模式下vane/Perplexica以最少的处理提供快速答案以获得快速结果。平衡模式适合日常搜索在速度和准确性之间取得平衡。还有质量/深度研究模式执行深入分析、多个查询和站点访问以获得深入回复。在所有模式下您可以将搜索限制在特定来源例如学术用于学术内容、YouTube用于视频、Reddit用于讨论通过提示、SearxNG修饰符和LLM支持自定义配置以实现用户定义的模板通过嵌入和相似性排名增强相关性支持文件上传和智能建议等选项我们可以拥有所有这些而不用担心token成本事实上即使速度较慢也有办法使用llama.cpp服务器和好的本地LLM在我们的电脑上运行Perplexica。以下是方法……2、如何安装和使用Perplexica有几种方法可以在您的电脑上安装Perplexica。最简单的方法是通过Docker镜像。我们将使用这种方法。第一步是安装Docker桌面版或者下载Windows二进制文件我在Windows 11上测试所有这些但您也可以在MacOS和Linux上做https://www.docker.com/products/docker-desktop/下载安装程序后运行它。在过程结束时Docker将自动启动。Docker Desktop在Images标签页的截图## 3、安装vane/Perplexica docker容器确保Docker Desktop正在运行。打开终端在任何地方并运行这个简单的命令docker run -d -p 3000:3000 -v vane-data:/home/vane/data --name vane itzcrazykns1337/vane:latestDocker将获取vane项目Perplexica的镜像下载并为我们启动它。Docker镜像的好处是它们已经配置了所有依赖项和功能。例如Perplexica自带已安装的SearXNG一个强大的本地运行搜索引擎不需要任何API密钥现在……在终端完成所有过程后见上图您的Docker Desktop将在容器中有一个新条目点击▶️播放按钮启动它这就是您在电脑上运行Perplexica所需的全部。点击vane后查看日志如果您在浏览器中我在这里使用Comet指向localhost:3000您可以看到它正在运行。*您的浏览器访问http://localhost:3000/*现在我们需要一个AI模型。4、llama.cpp服务器只需一步之遥这里真正的问题是vane/Perplexica没有为llama.cpp服务器内置配置。设置 模型 管理连接 添加连接默认可用选项是没有llama.cpp但通过一些技巧我们可以利用标准的OpenAI连接让它准备好与我们的llama-server一起工作4.1 首先……让我们谈谈模型。并非每个聊天模型都适合这个应用事实上Perplexica使用就像原始的Perplexity……推理工具调用所以并非所有模型都有这些功能小型语言模型更是少之又少。我自己在我的老旧的联想X260笔记本电脑上测试了以下模型Gemma-3n-E2B-itLFM-2.5–1.2b-instructQwen3.5–0.8bMinistral-3–3B-Instruct-2512Granite-4.0-h-tinyGranite-3.1–3b-a800m-instructTrinity-Nano-PreviewQwen3.5–2bQwen3–4b-instructNVIDIA-Nemotron3-Nano-4BQwen3–1.7B测试所有这些后我明白了并非所有模型都适合Perplexica即使是真正优秀的Ministral-3–3B-Instruct-2512它通常在低规格硬件上运行得很好具有准确性和可靠性。稍后我会给你详细的反馈。现在让我们看看如何在你的电脑上让它工作。注意所有这些示例都是针对Windows操作系统用户的但很容易适用于Linux和Mac用户。4.2 安装llama.cpp二进制文件从官方GitHub仓库下载仅CPU用户的最新llama.cpp二进制文件下载llama-b8508-bin-win-cpu-x64.zip解压到一个名为PerplexicaAI的新目录中4.3 下载模型的量化权重正如我向您展示的我测试了几个小型语言模型对于仅CPU用户最好的是Qwen3.5–0.8b-GGUF。从Unsloth仓库下载Qwen3.5–0.8B-Q6_K.gguf只需点击链接下载。我选择Q6以尽可能减少质量损失。放在同一个名为PerplexicaAI的目录中Unsloth仓库还为我们提供了建议的超参数Perplexica建议使用思考模式进行文本任务temperature1.0, top_p0.95, top_k20, min_p0.0, presence_penalty1.5, repetition_penalty1.0我们在下一步需要这些设置。4.4 使用llama-server运行模型在同一个名为PerplexicaAI的目录中打开终端运行.\llama-server.exe -m .\Qwen_Qwen3.5-0.8B-Q6_K.gguf --mmap -ngl 0 -t 2 -c 32288 --host 0.0.0.0 --port 8888 --reasoning-budget -1 -fa on --temp 1.0 --top-k 20 --top-p 0.95 --presence-penalty 1.5 -a qwen3.5-0.8此命令将启用思考模式即使我们使用的是非思考设置上下文长度为32k tokenvane/Perplexica需要大量token启用flash attention和内存映射。我们将只使用2个线程但如果您有更多线程请增加为操作系统至少保留1个线程空闲。为了在网络上公开端点我们设置--host 0.0.0.0在--port 8888注意我们使用选项-a qwen3.5–0.8为模型分配了一个别名这意味着当您调用端点时需要将模型名称指定为qwen3.5–0.8。我们将在下一步中看到4.5 在Perplexica中配置模型连接为此点击设置 模型 管理连接 添加连接并选择OpenAI。给连接一个名称如lcpp-qwen3.5在API key中写一些东西即使我们不使用它非常重要的是将Base URL设置如下http://host.docker.internal:8888由于我们在Docker容器中运行Perplexica我们指向我们电脑的本地主机指向http://host.docker.internal我们要求llama-server在端口8888托管端点因此最终的Base URL必须是http://host.docker.internal:8888这只是主连接。现在我们需要链接一个聊天模型见上图右边那个。4.6 在聊天模型列表中添加模型在设置中找到您的新连接然后在聊天模型部分点击** 添加**。模型名称必须与我们在llama-server中使用选项-a qwen3.5–0.8设置的相同记得我们说过当您调用端点时需要将模型名称指定为qwen3.5–0.8。即使我们不使用它也不要让Model Key为空点击添加模型。4.7 将新模型设置为Perplexica AI模型转到Perplexica的首页点击cpu符号并查找您的连接/聊天模型。⚠️注意有时如果您看不到新连接需要重启容器或者简单地刷新页面4.8 运行测试我还建议您将研究模式更改为平衡。输入您的查询并运行。公平地说我通过询问测试了所有模型搜索网络帮助我理解Fabio Matricardi是谁我不是很有名所以肯定需要一个好的网络搜索。在运行llama-server的终端窗口中您应该能够看到新的POST调用进来这意味着它正在工作准备等待长达30分钟完成整个流程而且token预算很高但它在您的电脑上所以不用担心奇怪的账单。在流程接近尾声时Perplexica将搜索与查询相关的图片。如果您看不到它们请点击图标。5、旁注vane/Perplexica与本地AI一起运行是可能的任务。即使使用像Qwen3.5–0.8b这样的小模型结果也相当不错推理过程流畅幻觉几乎可以忽略不计。但是……一个查询需要长达30分钟取决于您的CPU速度和可以使用多少线程流程很费token将您的上下文窗口至少增加到32ktoken计数使用的中点检查## 6、最佳小型语言模型……以及原因这是我对用于测试Perplexica的所有小型语言模型的简要报告Gemma-3n-E2B-it这是一个稀疏模型只有2B活跃参数。总体上相当不错但它不能一次就得到正确结果。检索到的链接是一致的。可能一个未审查的版本会做得更好。推荐LFM-2.5–1.2b-instruct我无法获得好的结果。如果您成功了请留下评论告诉我您的设置。Qwen3.5–0.8b最小的一个但令人惊讶地是最佳之一。它一次就得到了正确结果但链接结果有一些问题。请注意您需要超过25k token的上下文窗口。推荐Ministral-3–3B-Instruct-2512正如预期的那样它不好。Granite-4.0-h-tiny这是IBM的LLM混合专家模型。通常不错但引用链接有一些问题。但它一次就成功了Granite-3.1–3b-a800m-instructIBM的另一个混合专家模型。这一点都不好从头到尾都在幻觉。Trinity-Nano-Preview这是一个MoE总共6b参数但只有1b活跃。模型不错且响应迅速但我们无法获得正确的链接。没有推理痕迹但我们有图片。Qwen3.5–2b这是一个思考模型阿里巴巴的最新一代。它比0.8b版本好一点但慢得多。总体上非常好。推荐7、结束语如果您设法读到最后……恭喜我试图给出所有步骤因为我不想让你们中的任何人浪费我让它工作所花的同样多的时间。如果您好奇我会在以后的帖子中展示可能也在我的Substack上如何使用Perplexicaopenrouter免费模型开箱即用不可能但我创建了我的方法在您本地网络的另一台计算机上运行的模型原文链接Vane 安装指南(本地AI问答引擎) - 汇智网