LiteParse:开源轻量 PDF 解析工具,多格式支持、多语言适配,功能强大!

LiteParse:开源轻量 PDF 解析工具,多格式支持、多语言适配,功能强大! 功能概述LiteParse 是独立开源 PDF 解析工具专注快速轻量解析提供高质量空间文本解析与边界框无需大语言模型和云服务本地处理。复杂文档用 LlamaParse 效果更好。其具有快速文本解析、灵活 OCR 系统、标准 API、截图生成等功能支持多种输出格式、多语言和多平台。流程图展示了输入格式、Rust 核心处理、输出以及语言绑定的流程。安装方式可通过包管理器安装除 WASM 版本外都有 lit CLI。不同语言有不同安装命令和对应文档。代理技能运用可将 liteparse 作为代理技能通过技能 CLI 工具下载或复制 SKILL.md 文件到自己的技能配置中。CLI 使用方法包括解析文件、批量解析和生成截图的命令及示例。CLI 参考解析命令、批量解析命令和截图命令的选项说明。OCR 设置默认使用 Tesseract可直接使用也可指定语言或禁用。对于离线或隔离环境有相应设置方法。还可使用 HTTP OCR 服务器有现成示例包装器需实现特定 API 规范。多格式输入支持支持将办公文档和图片自动转换为 PDF 进行解析分别介绍了不同格式及安装相应软件的方法。环境变量介绍了 TESSDATA_PREFIX 变量的作用。开发相关项目是 Rust 工作区包含核心库和特定语言绑定 crate还介绍了构建方法并建议参考 AGENTS.md/CLAUDE.md。许可证Apache 2.0。致谢项目基于 PDFium、Tesseract 等多种技术构建。