【liteparse】本地轻量解析文档,告别云端依赖
这是一款专注于本地、轻量级文档解析的开源工具,能够在无需调用云端 API 或依赖大型语言模型的前提下,快速从 PDF 及多种 Office 文档中提取带空间位置信息的文本内容。
主要功能特性
- 极速文本解析:基于 PDFium 引擎进行空间文本解析,附带精确的边界框(Bounding Box)信息。
- 内置 OCR 能力:默认集成 Tesseract,无需额外配置即可使用;同时支持接入 EasyOCR、PaddleOCR 等基于 HTTP 的 OCR 服务。
- 多格式输入支持:原生支持 PDF,并可通过 LibreOffice 和 ImageMagick 自动转换 Word、Excel、PPT 及各类图片格式。
- 生成页面截图:可将文档页面渲染为高质量 PNG 图片,方便 LLM Agent 进行视觉理解。
- 多语言与跨平台:提供 Rust、Node.js/TypeScript、Python 及浏览器 WASM 绑定,支持 Linux、macOS 和 Windows。
- 多种输出格式:支持输出结构化 JSON(含文本与坐标)或保留布局的纯文本。
安装与快速上手
项目提供了名为 lit 的命令行工具,可通过多种包管理器安装:
- Node.js / TypeScript
bash
npm i @llamaindex/liteparse - Python
bash
pip install liteparse - Rust
bash
cargo install liteparse # 安装 CLI
cargo add liteparse # 在项目中引入库 - 浏览器(WASM)
bash
npm i @llamaindex/liteparse-wasm
安装完成后,即可在终端中直接调用。以下是几个常用示例:
解析单个文件并输出纯文本:
lit parse document.pdf
以 JSON 格式输出并保存到文件(包含文本与边界框信息):
lit parse document.pdf --format json -o output.json
仅解析指定页码:
lit parse document.pdf --target-pages "1-5,10,15-20"
批量处理整个目录下的文档:
lit batch-parse ./input-directory ./output-directory
为 LLM Agent 生成页面截图:
lit screenshot document.pdf -o ./screenshots
OCR 功能默认开启,Tesseract 已随库捆绑,开箱即用。如需指定识别语言,可执行:
lit parse document.pdf --ocr-language fra
若需处理 Word、Excel 或图片等格式,建议提前安装 LibreOffice 和 ImageMagick,工具会自动完成格式转换。
适用场景与目标用户
这款工具非常适合以下场景:
- 本地隐私优先:需要在本地环境中处理敏感文档,不希望数据上传至云端的企业和开发者。
- 文档理解流水线:构建 RAG(检索增强生成)或知识库时,需要提取带坐标的结构化文本,用于后续分析和检索。
- LLM Agent 集成:为智能体提供文档阅读和页面截图能力,辅助视觉理解。
- 离线或资源受限环境:在无法访问外网的隔离环境(Air-gapped)中进行批量文档处理。
目标用户主要是需要集成文档解析能力的软件工程师、数据工程师,以及关注数据隐私、希望降低云端依赖的技术团队。
总结
作为一款立足本地的开源文档解析方案,它在保证处理速度的同时,通过提供空间文本坐标、内置 OCR 和截图生成等能力,覆盖了从简单文本提取到复杂 Agent 工作流的多种需求。对于不希望将文档数据送出本地,同时又需要高质量解析结果的开发者来说,这是一个非常值得关注的选择。
