【LiteRT-LM】在手机、手表甚至树莓派上跑大模型?谷歌开源的边缘端AI推理框架来了
LiteRT-LM 是谷歌推出的开源推理框架,专为在资源受限的边缘设备(如手机、智能手表、树莓派等)上高效运行大语言模型而设计,解决了传统大模型难以在本地低功耗硬件上实时响应、低延迟交互的核心难题。
主要特性包括:
– 📱 全平台支持:覆盖 Android、iOS、Web、桌面系统(Linux/macOS/Windows)及物联网设备(如 Raspberry Pi)
– 🚀 硬件加速能力:支持 GPU 和 NPU(神经网络处理器)加速,发挥边缘芯片最大性能
– 👁️ 多模态输入:可处理文本、图像和音频等多种输入类型
– 🔧 工具调用(Function Calling):原生支持函数调用,便于构建具备“代理能力”(agentic)的本地应用
– 📚 广泛模型兼容:已验证支持 Gemma、Llama、Phi-4、Qwen 等主流开源模型
快速上手示例(无需写代码):
使用 uv 工具一键安装并运行 Gemma 模型:
uv tool install litert-lm
litert-lm run \
--from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
gemma-3n-E2B-it-int4 \
--prompt="What is the capital of France?"
你也可以直接部署 Gemma 4 模型:
litert-lm run \
--from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
gemma-4-E2B-it.litertlm \
--prompt="What is the capital of France?"
该项目特别适合以下场景:
– App 开发者:希望在 Android/iOS 应用中集成离线、低延迟的 AI 能力(如 Chrome、Pixel Watch 已实际采用);
– 嵌入式与 IoT 工程师:需在树莓派、边缘网关等设备上运行轻量级多模态模型;
– AI 原型开发者:用 Python 快速验证本地 LLM 流程,或用 C++ 构建高性能原生模块;
– 隐私敏感型应用:所有推理完全在设备端完成,无需上传用户数据到云端。
总结:LiteRT-LM 不是一个实验性玩具,而是已在 Chrome、Chromebook Plus、Pixel Watch 等谷歌主力产品中落地的生产级框架。它把前沿大模型真正带到了指尖和腕间——如果你需要在边缘设备上实现可靠、快速、多模态且支持工具调用的本地 AI,LiteRT-LM 是目前最成熟、文档最完善、生态最开放的选择之一。建议访问其主页获取更详细信息。
