【liteparse】本地轻量解析文档，告别云端依赖

这是一款专注于本地、轻量级文档解析的开源工具，能够在无需调用云端 API 或依赖大型语言模型的前提下，快速从 PDF 及多种 Office 文档中提取带空间位置信息的文本内容。

主要功能特性

极速文本解析：基于 PDFium 引擎进行空间文本解析，附带精确的边界框（Bounding Box）信息。
内置 OCR 能力：默认集成 Tesseract，无需额外配置即可使用；同时支持接入 EasyOCR、PaddleOCR 等基于 HTTP 的 OCR 服务。
多格式输入支持：原生支持 PDF，并可通过 LibreOffice 和 ImageMagick 自动转换 Word、Excel、PPT 及各类图片格式。
生成页面截图：可将文档页面渲染为高质量 PNG 图片，方便 LLM Agent 进行视觉理解。
多语言与跨平台：提供 Rust、Node.js/TypeScript、Python 及浏览器 WASM 绑定，支持 Linux、macOS 和 Windows。
多种输出格式：支持输出结构化 JSON（含文本与坐标）或保留布局的纯文本。

安装与快速上手

项目提供了名为 lit 的命令行工具，可通过多种包管理器安装：

安装完成后，即可在终端中直接调用。以下是几个常用示例：

解析单个文件并输出纯文本：

lit parse document.pdf

以 JSON 格式输出并保存到文件（包含文本与边界框信息）：

lit parse document.pdf --format json -o output.json

仅解析指定页码：

lit parse document.pdf --target-pages "1-5,10,15-20"

批量处理整个目录下的文档：

lit batch-parse ./input-directory ./output-directory

为 LLM Agent 生成页面截图：

lit screenshot document.pdf -o ./screenshots

OCR 功能默认开启，Tesseract 已随库捆绑，开箱即用。如需指定识别语言，可执行：

lit parse document.pdf --ocr-language fra

若需处理 Word、Excel 或图片等格式，建议提前安装 LibreOffice 和 ImageMagick，工具会自动完成格式转换。

适用场景与目标用户

这款工具非常适合以下场景：

目标用户主要是需要集成文档解析能力的软件工程师、数据工程师，以及关注数据隐私、希望降低云端依赖的技术团队。

总结

作为一款立足本地的开源文档解析方案，它在保证处理速度的同时，通过提供空间文本坐标、内置 OCR 和截图生成等能力，覆盖了从简单文本提取到复杂 Agent 工作流的多种需求。对于不希望将文档数据送出本地，同时又需要高质量解析结果的开发者来说，这是一个非常值得关注的选择。

类似文章