本文系本站首发。欢迎分享与转载。写论文或处理数学排版时手敲一段包含重积分和稀疏矩阵的 LaTeX 代码往往消耗耐心。很多人大概都有过对着冗长公式逐行人工核对的经历。借助当前处于爆发期的 AI 技术特别是多模态视觉大语言模型VLM的 API 接口来接管这部分重复劳动成了很自然的技术走向。作为个人开发者我顺着这个痛点写了这款 Windows 桌面小工具啄玛 (PeckTeX)。名字和上方的这只小鸟图标寓意很简单希望它能像一只啄木鸟一样把图片里错综复杂的排版结构笃定地“啄”成一行行可运行的 LaTeX 代码。项目的核心性质很纯粹——完全免费、开源、轻量高效便捷高度定制化。只为解决一个真实诉求利用内置的截图、快捷键与大模型 API 组建的管线把公式截图或手写图片 方便而精准地转成LaTeX代码。如果你正处于爆肝写论文或梳理文档的阶段可以直接去 GitHub 获取源码与软件项目开源地址River-Du/PeckTeX (GitHub)顺手给个 ⭐️ Star 支持一下吧目录 图省事怎么顺手怎么来软件操作流程无缝衔接的输入通道灵活的源素材解析所见即所得的本地渲染内置 AI 对话询问或修改识别结果极少的 Token 消耗自动化管线彻底解放双手 免配环境解压运行与接口挂载 常见问题快速问答 (FAQ) 图省事怎么顺手怎么来软件操作流程整个提取过程被压缩到了极致。日常使用时你只需执行两步载入图片通过内置的截图、粘贴等多种方式输入图片把想转换的公式图片喂给软件。发起识别点击一下左下角的“开始识别”按钮等待右侧面板流式吐出代码然后一键复制。无缝衔接的输入通道软件在交互上刻意追求了直觉化。遇到网页或文献里的长公式敲下AltS或点击 截图唤出内置的屏幕选区工具直接截图发给后台剪贴板里已经存有图像的话切进软件CtrlV或点击 粘贴就行。也可以将图片用 鼠标拖拽进识别目标中方便本地图片的直接倾倒读取。灵活的源素材解析公式排版不仅限于规整的书本印刷体也不仅限于数学公式甚至输出内容也不仅限于特定格式。对于不同的源素材软件出厂时就直接预置了五套功能模板LaTeX 数学公式、MathML 数学公式、手写推导识别、化学方程式提取以及常规的通用识别。这些模板完全不封死处理上限。如果对默认的识别倾向不满意你完全可以在主界面的左下角选定模板后直接修改该功能对应的“提示词”通过大白话自定义出任何你想要的专属图片解析器。甚至在勾选“文本识别”后可以不识别图片而改为识别结果区的文本进行公式转换等操作。所见即所得的本地渲染纯看一堆斜杠和花括号很难发现少了个上标。服务端回传数据时软件不仅能流式输出纯公式结果还可以点击预览按钮在弹出的系统浏览器页面中确认 LaTeX 排版显示效果有没有跑版对比原图一目了然。你可以再次编辑结果重新渲染。内置 AI 对话询问或修改识别结果现在的视觉大模型面对模糊不清或容易误解的图片偶有失算普通使用者即便通过公式预览发现了问题也难以自行修改代码。因此软件集成了一个支持上下文的对话组件运行日志状态栏展开后可直接与 AI 对话发现模型哪里认错了直接在框里发日常口语给它比如“纠正上面一行代码把变量 k 改成 i”。模型顺着语意重推结果后选定那段回复执行右键就能覆盖掉当初出错的代码块。极少的 Token 消耗既然涉及调度大模型的 API开销自然成了需要考量的问题。在默认的图片解析场景中软件采用的是单次独立的请求机制不会自动捆绑和累积任何历史上下文。这意味着每一次识别仅仅消耗当前图片和简短提示词的额度实际 Token 请求量被压得很小基本不会给使用者带来费用层面上的负担。自动化管线彻底解放双手如果是单张载入的情景只需在设置里勾选“自动识别”与“自动复制”之后你截图或粘贴的内容会自动发起服务请求生成的代码也会在输出完毕后直接写入系统剪贴板可到文章里直接粘贴全流程自动化操作。如果是处理堆积如山的文献切片直接把所有公式图片放进用户图片文件夹。勾上“连续识别”然后点击开始识别一次执行软件自己就会进入挂机模式去轮询读取文件夹里的图片将识别出来的公式逐条记录到历史记录列表中。 免配环境解压运行与接口挂载站在非开发者的角度那些拉取仓库、搭建 Python 虚拟环境的操作实在有些折腾和劝退。作为一款追求“轻量”的桌面端应用啄玛的运行包直接被封装成了免依赖的独立绿色形式不需要任何本地的 Python 环境。但这并不意味着连网都不用。因为核心识别能力依赖外部大模型所以你需要自己准备一个大模型的 API。整体流程如下拿取软件点击前往项目的 Releases 页面下载最新打好的PeckTeX.zip。免去安装拿到手之后在非系统盘随便找个固定的文件夹解压开里面那个PeckTeX.exe双击就能唤起界面。接口挂载 (必要步骤)首次打开应用必须在左下角“平台”区域粘贴你惯用的视觉大模型VLM调用链接和 API 密钥。跑一轮“API 测试”面板确认通路畅通后续就只管截图识别了。如果是不知道去哪里获取 API 的普通用户请查看下方的快速问答。使用指南点击前往项目的 使用须知readme 页面查看更详细的功能介绍和使用说明。 常见问题快速问答 (FAQ)Q我没有 API Key怎么办A软件本质上是一个处理流的空壳不绑定任何收费服务。普通用户如果想图方便可以访问相应的 API 服务商网站注册账号并获取 API Key确保该 Key 具有访问视觉大模型 (VLM) 的权限。软件本身消耗 token 的量很小可以放心使用。常见平台如 Siliconflow (硅基流动)、ModelScope (魔搭)、OpenRouter 这种大模型聚合平台或者去智谱 GLM、Qwen (通义千问)、Kimi 等国内大模型官网这类平台注册通常会赠送体验额度部分甚至会提供免费的基础视觉节点。在它们的控制台生成一串你的专属 API Key复制填回软件里就能跑了。注意要确认选中的模型支持理解图片即 VLM 视觉大模型。请参阅对应平台官网的 API 说明。如还是有困难请自行百度搜索免费的大模型API平台、如何获取大模型API Key、大模型API申请与调用…Q软件下拉列表里没有我想用的新模型能自己加上去吗A完全可以。工具底层的通信接口做过泛化处理只要你选用的第三方服务商接口兼容 OpenAI 标准的调用协议直接在下拉列表里纯手打输入那个新模型的名称按下回车确认即可直接调用。Q识别出来有小错误或者少识别了一个角标怎么补救最省事A有两个办法。自己会写的话可以直接在文本面板里删改那部分错乱的代码如果不想动脑直接点开底下的运行日志把自带的 AI 唤出来。用聊天的口吻给它发指令比如“纠正上面一段代码把第几行的倒三角改成正三角”AI 会重新重构出正确的区块。选定它的回复右键直接点击“追加”或“覆盖”到原文里就行。Q点击识别后右下角运行日志一直提示失败怎么办A先点一下面板右上角的“API 测试”。如果测试亮了红灯基本是你的 API Key 没填对或者 URL 地址填错了如果测试通过了但还是没法转化图片检查一下当前账户余额有没有跑空或者确认填入的这个模型到底是不是带图片识别功能有些纯文本模型无法处理发送过去的图片切片。写在最后开源工具的平稳迭代离不开具体场景的真实反馈。作为开发者写出这行代码的本意也就是图个方便。如果这款不起眼的小工具刚好在某个敲公式的深夜替你省下了几十分钟的时间欢迎到项目的 GitHub 仓库 逛逛顺手给个 ⭐️ Star。你的关注与肯定就是这个项目查漏补缺的最佳动力。
【「啄玛」开源免费 公式图片转LaTeX工具】告别手敲公式,这款开源神器帮你把截图秒转 LaTeX 公式
本文系本站首发。欢迎分享与转载。写论文或处理数学排版时手敲一段包含重积分和稀疏矩阵的 LaTeX 代码往往消耗耐心。很多人大概都有过对着冗长公式逐行人工核对的经历。借助当前处于爆发期的 AI 技术特别是多模态视觉大语言模型VLM的 API 接口来接管这部分重复劳动成了很自然的技术走向。作为个人开发者我顺着这个痛点写了这款 Windows 桌面小工具啄玛 (PeckTeX)。名字和上方的这只小鸟图标寓意很简单希望它能像一只啄木鸟一样把图片里错综复杂的排版结构笃定地“啄”成一行行可运行的 LaTeX 代码。项目的核心性质很纯粹——完全免费、开源、轻量高效便捷高度定制化。只为解决一个真实诉求利用内置的截图、快捷键与大模型 API 组建的管线把公式截图或手写图片 方便而精准地转成LaTeX代码。如果你正处于爆肝写论文或梳理文档的阶段可以直接去 GitHub 获取源码与软件项目开源地址River-Du/PeckTeX (GitHub)顺手给个 ⭐️ Star 支持一下吧目录 图省事怎么顺手怎么来软件操作流程无缝衔接的输入通道灵活的源素材解析所见即所得的本地渲染内置 AI 对话询问或修改识别结果极少的 Token 消耗自动化管线彻底解放双手 免配环境解压运行与接口挂载 常见问题快速问答 (FAQ) 图省事怎么顺手怎么来软件操作流程整个提取过程被压缩到了极致。日常使用时你只需执行两步载入图片通过内置的截图、粘贴等多种方式输入图片把想转换的公式图片喂给软件。发起识别点击一下左下角的“开始识别”按钮等待右侧面板流式吐出代码然后一键复制。无缝衔接的输入通道软件在交互上刻意追求了直觉化。遇到网页或文献里的长公式敲下AltS或点击 截图唤出内置的屏幕选区工具直接截图发给后台剪贴板里已经存有图像的话切进软件CtrlV或点击 粘贴就行。也可以将图片用 鼠标拖拽进识别目标中方便本地图片的直接倾倒读取。灵活的源素材解析公式排版不仅限于规整的书本印刷体也不仅限于数学公式甚至输出内容也不仅限于特定格式。对于不同的源素材软件出厂时就直接预置了五套功能模板LaTeX 数学公式、MathML 数学公式、手写推导识别、化学方程式提取以及常规的通用识别。这些模板完全不封死处理上限。如果对默认的识别倾向不满意你完全可以在主界面的左下角选定模板后直接修改该功能对应的“提示词”通过大白话自定义出任何你想要的专属图片解析器。甚至在勾选“文本识别”后可以不识别图片而改为识别结果区的文本进行公式转换等操作。所见即所得的本地渲染纯看一堆斜杠和花括号很难发现少了个上标。服务端回传数据时软件不仅能流式输出纯公式结果还可以点击预览按钮在弹出的系统浏览器页面中确认 LaTeX 排版显示效果有没有跑版对比原图一目了然。你可以再次编辑结果重新渲染。内置 AI 对话询问或修改识别结果现在的视觉大模型面对模糊不清或容易误解的图片偶有失算普通使用者即便通过公式预览发现了问题也难以自行修改代码。因此软件集成了一个支持上下文的对话组件运行日志状态栏展开后可直接与 AI 对话发现模型哪里认错了直接在框里发日常口语给它比如“纠正上面一行代码把变量 k 改成 i”。模型顺着语意重推结果后选定那段回复执行右键就能覆盖掉当初出错的代码块。极少的 Token 消耗既然涉及调度大模型的 API开销自然成了需要考量的问题。在默认的图片解析场景中软件采用的是单次独立的请求机制不会自动捆绑和累积任何历史上下文。这意味着每一次识别仅仅消耗当前图片和简短提示词的额度实际 Token 请求量被压得很小基本不会给使用者带来费用层面上的负担。自动化管线彻底解放双手如果是单张载入的情景只需在设置里勾选“自动识别”与“自动复制”之后你截图或粘贴的内容会自动发起服务请求生成的代码也会在输出完毕后直接写入系统剪贴板可到文章里直接粘贴全流程自动化操作。如果是处理堆积如山的文献切片直接把所有公式图片放进用户图片文件夹。勾上“连续识别”然后点击开始识别一次执行软件自己就会进入挂机模式去轮询读取文件夹里的图片将识别出来的公式逐条记录到历史记录列表中。 免配环境解压运行与接口挂载站在非开发者的角度那些拉取仓库、搭建 Python 虚拟环境的操作实在有些折腾和劝退。作为一款追求“轻量”的桌面端应用啄玛的运行包直接被封装成了免依赖的独立绿色形式不需要任何本地的 Python 环境。但这并不意味着连网都不用。因为核心识别能力依赖外部大模型所以你需要自己准备一个大模型的 API。整体流程如下拿取软件点击前往项目的 Releases 页面下载最新打好的PeckTeX.zip。免去安装拿到手之后在非系统盘随便找个固定的文件夹解压开里面那个PeckTeX.exe双击就能唤起界面。接口挂载 (必要步骤)首次打开应用必须在左下角“平台”区域粘贴你惯用的视觉大模型VLM调用链接和 API 密钥。跑一轮“API 测试”面板确认通路畅通后续就只管截图识别了。如果是不知道去哪里获取 API 的普通用户请查看下方的快速问答。使用指南点击前往项目的 使用须知readme 页面查看更详细的功能介绍和使用说明。 常见问题快速问答 (FAQ)Q我没有 API Key怎么办A软件本质上是一个处理流的空壳不绑定任何收费服务。普通用户如果想图方便可以访问相应的 API 服务商网站注册账号并获取 API Key确保该 Key 具有访问视觉大模型 (VLM) 的权限。软件本身消耗 token 的量很小可以放心使用。常见平台如 Siliconflow (硅基流动)、ModelScope (魔搭)、OpenRouter 这种大模型聚合平台或者去智谱 GLM、Qwen (通义千问)、Kimi 等国内大模型官网这类平台注册通常会赠送体验额度部分甚至会提供免费的基础视觉节点。在它们的控制台生成一串你的专属 API Key复制填回软件里就能跑了。注意要确认选中的模型支持理解图片即 VLM 视觉大模型。请参阅对应平台官网的 API 说明。如还是有困难请自行百度搜索免费的大模型API平台、如何获取大模型API Key、大模型API申请与调用…Q软件下拉列表里没有我想用的新模型能自己加上去吗A完全可以。工具底层的通信接口做过泛化处理只要你选用的第三方服务商接口兼容 OpenAI 标准的调用协议直接在下拉列表里纯手打输入那个新模型的名称按下回车确认即可直接调用。Q识别出来有小错误或者少识别了一个角标怎么补救最省事A有两个办法。自己会写的话可以直接在文本面板里删改那部分错乱的代码如果不想动脑直接点开底下的运行日志把自带的 AI 唤出来。用聊天的口吻给它发指令比如“纠正上面一段代码把第几行的倒三角改成正三角”AI 会重新重构出正确的区块。选定它的回复右键直接点击“追加”或“覆盖”到原文里就行。Q点击识别后右下角运行日志一直提示失败怎么办A先点一下面板右上角的“API 测试”。如果测试亮了红灯基本是你的 API Key 没填对或者 URL 地址填错了如果测试通过了但还是没法转化图片检查一下当前账户余额有没有跑空或者确认填入的这个模型到底是不是带图片识别功能有些纯文本模型无法处理发送过去的图片切片。写在最后开源工具的平稳迭代离不开具体场景的真实反馈。作为开发者写出这行代码的本意也就是图个方便。如果这款不起眼的小工具刚好在某个敲公式的深夜替你省下了几十分钟的时间欢迎到项目的 GitHub 仓库 逛逛顺手给个 ⭐️ Star。你的关注与肯定就是这个项目查漏补缺的最佳动力。