【liteparse】本地轻量解析文档,告别云端依赖

这是一款专注于本地、轻量级文档解析的开源工具,能够在无需调用云端 API 或依赖大型语言模型的前提下,快速从 PDF 及多种 Office 文档中提取带空间位置信息的文本内容。

主要功能特性

  • 极速文本解析:基于 PDFium 引擎进行空间文本解析,附带精确的边界框(Bounding Box)信息。
  • 内置 OCR 能力:默认集成 Tesseract,无需额外配置即可使用;同时支持接入 EasyOCR、PaddleOCR 等基于 HTTP 的 OCR 服务。
  • 多格式输入支持:原生支持 PDF,并可通过 LibreOffice 和 ImageMagick 自动转换 Word、Excel、PPT 及各类图片格式。
  • 生成页面截图:可将文档页面渲染为高质量 PNG 图片,方便 LLM Agent 进行视觉理解。
  • 多语言与跨平台:提供 Rust、Node.js/TypeScript、Python 及浏览器 WASM 绑定,支持 Linux、macOS 和 Windows。
  • 多种输出格式:支持输出结构化 JSON(含文本与坐标)或保留布局的纯文本。

安装与快速上手

项目提供了名为 lit 的命令行工具,可通过多种包管理器安装:

  • Node.js / TypeScript
    bash
    npm i @llamaindex/liteparse
  • Python
    bash
    pip install liteparse
  • Rust
    bash
    cargo install liteparse # 安装 CLI
    cargo add liteparse # 在项目中引入库
  • 浏览器(WASM)
    bash
    npm i @llamaindex/liteparse-wasm

安装完成后,即可在终端中直接调用。以下是几个常用示例:

解析单个文件并输出纯文本:

lit parse document.pdf

以 JSON 格式输出并保存到文件(包含文本与边界框信息):

lit parse document.pdf --format json -o output.json

仅解析指定页码:

lit parse document.pdf --target-pages "1-5,10,15-20"

批量处理整个目录下的文档:

lit batch-parse ./input-directory ./output-directory

为 LLM Agent 生成页面截图:

lit screenshot document.pdf -o ./screenshots

OCR 功能默认开启,Tesseract 已随库捆绑,开箱即用。如需指定识别语言,可执行:

lit parse document.pdf --ocr-language fra

若需处理 Word、Excel 或图片等格式,建议提前安装 LibreOffice 和 ImageMagick,工具会自动完成格式转换。

适用场景与目标用户

这款工具非常适合以下场景:

  • 本地隐私优先:需要在本地环境中处理敏感文档,不希望数据上传至云端的企业和开发者。
  • 文档理解流水线:构建 RAG(检索增强生成)或知识库时,需要提取带坐标的结构化文本,用于后续分析和检索。
  • LLM Agent 集成:为智能体提供文档阅读和页面截图能力,辅助视觉理解。
  • 离线或资源受限环境:在无法访问外网的隔离环境(Air-gapped)中进行批量文档处理。

目标用户主要是需要集成文档解析能力的软件工程师、数据工程师,以及关注数据隐私、希望降低云端依赖的技术团队。

总结

作为一款立足本地的开源文档解析方案,它在保证处理速度的同时,通过提供空间文本坐标、内置 OCR 和截图生成等能力,覆盖了从简单文本提取到复杂 Agent 工作流的多种需求。对于不希望将文档数据送出本地,同时又需要高质量解析结果的开发者来说,这是一个非常值得关注的选择。

类似文章