【LiteRT-LM】在手机、手表甚至树莓派上跑大模型？谷歌开源的边缘端AI推理框架来了

🚀 工具网址： https://github.com/google-ai-edge/LiteRT-LM

LiteRT-LM 是谷歌推出的开源推理框架，专为在资源受限的边缘设备（如手机、智能手表、树莓派等）上高效运行大语言模型而设计，解决了传统大模型难以在本地低功耗硬件上实时响应、低延迟交互的核心难题。

主要特性包括：
– 📱 全平台支持：覆盖 Android、iOS、Web、桌面系统（Linux/macOS/Windows）及物联网设备（如 Raspberry Pi）
– 🚀 硬件加速能力：支持 GPU 和 NPU（神经网络处理器）加速，发挥边缘芯片最大性能
– 👁️ 多模态输入：可处理文本、图像和音频等多种输入类型
– 🔧 工具调用（Function Calling）：原生支持函数调用，便于构建具备“代理能力”（agentic）的本地应用
– 📚 广泛模型兼容：已验证支持 Gemma、Llama、Phi-4、Qwen 等主流开源模型

快速上手示例（无需写代码）：
使用 uv 工具一键安装并运行 Gemma 模型：

uv tool install litert-lm
litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

你也可以直接部署 Gemma 4 模型：

litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --prompt="What is the capital of France?"

该项目特别适合以下场景：
– App 开发者：希望在 Android/iOS 应用中集成离线、低延迟的 AI 能力（如 Chrome、Pixel Watch 已实际采用）；
– 嵌入式与 IoT 工程师：需在树莓派、边缘网关等设备上运行轻量级多模态模型；
– AI 原型开发者：用 Python 快速验证本地 LLM 流程，或用 C++ 构建高性能原生模块；
– 隐私敏感型应用：所有推理完全在设备端完成，无需上传用户数据到云端。

总结：LiteRT-LM 不是一个实验性玩具，而是已在 Chrome、Chromebook Plus、Pixel Watch 等谷歌主力产品中落地的生产级框架。它把前沿大模型真正带到了指尖和腕间——如果你需要在边缘设备上实现可靠、快速、多模态且支持工具调用的本地 AI，LiteRT-LM 是目前最成熟、文档最完善、生态最开放的选择之一。建议访问其主页获取更详细信息。

【LiteRT-LM】在手机、手表甚至树莓派上跑大模型？谷歌开源的边缘端AI推理框架来了

【skills】让 AI 编程助手“秒懂” Hugging Face 各类任务的标准化技能包

【goose】一个能帮你从零写代码、自动调试和调用 API 的本地 AI 工程助手

【siyuan】一款兼顾隐私保护与块级精细管理的个人知识库工具

【opencti】一款专为网络安全团队打造的开源威胁情报知识管理平台

Midjourney 每月 200 块太肉疼？这款“国产显卡救星”，让你 0 成本画出 3D 大片！

【immich】一款高性能的照片与视频管理工具

类似文章