【litellm】一套代码,调用百种大模型的智能网关

LiteLLM 是一个开源的统一接口层,它让开发者能用标准 OpenAI API 格式(如 /chat/completions)调用 100+ 种不同厂商和自托管的大语言模型服务,彻底解决多 LLM 平台接入复杂、协议不一致、维护成本高的问题。

主要功能与特性

  • 跨平台统一调用:支持 OpenAI、Anthropic、Azure、Google Vertex AI、AWS Bedrock、Groq、Ollama、Hugging Face 等 100+ LLM 提供商,覆盖文本生成、嵌入、图像、音频、重排序、批量处理、消息流等多种能力。
  • 双模式部署:提供轻量级 Python SDK(直接集成进应用代码)和可独立部署的 AI 网关(LiteLLM Proxy),后者具备虚拟密钥、多租户计费、日志审计、缓存、防护规则等企业级能力。
  • Agent-to-Agent(A2A)协议支持:原生集成 LangGraph、Vertex AI Agent Engine、Azure AI Foundry 等主流 Agent 框架,实现 Agent 间的标准化通信与编排。
  • MCP(Model Control Protocol)桥接能力:可将任意 MCP 兼容工具服务器(如 GitHub PR 分析工具)无缝接入 LLM 调用链,让大模型“即插即用”调用外部系统能力。
  • 生产就绪特性:内置自动路由与故障转移、OpenAI 兼容错误码、可观测性回调(Langfuse / MLflow / Lunary)、8ms P95 延迟(1k RPS 基准)、Docker 稳定版发布机制及管理控制台。

快速上手示例

安装 SDK:

pip install litellm

Python SDK 调用(无需改业务逻辑):

from litellm import completion
import os
os.environ["OPENAI_API_KEY"] = "sk-..."
os.environ["ANTHROPIC_API_KEY"] = "anthropic-..."

# 一行切换模型后端
response = completion(model="openai/gpt-4o", messages=[{"role": "user", "content": "Hello!"}])
response = completion(model="anthropic/claude-3-5-sonnet-20240620", messages=[{"role": "user", "content": "Hello!"}])

启动本地 AI 网关(Proxy):

pip install 'litellm[proxy]'
litellm --model gpt-4o

之后即可用标准 OpenAI 客户端对接:

import openai
client = openai.OpenAI(api_key="anything", base_url="http://0.0.0.0:4000")
client.chat.completions.create(model="gpt-4o", messages=[{"role": "user", "content": "Hello!"}])

适用场景与目标用户

  • ML 平台/GenAI 工程团队:需要构建统一 LLM 接入层、实施细粒度权限管控、多项目成本分摊与审计的中大型技术组织(如 README 中提到的 Netflix 已采用)。
  • LLM 应用开发者:希望快速验证多个模型效果、避免重复适配各家 API、或在本地/私有环境中灵活切换模型(如 Ollama + Groq + Azure 组合测试)。
  • Agent 与工具链构建者:依赖 A2A 协议连接异构 Agent,或通过 MCP 集成代码仓库、数据库、API 等外部能力的智能体开发者。
  • IDE 插件与低代码平台:如 Cursor IDE 可直接通过 LiteLLM Proxy 接入各类模型与工具,降低客户端集成负担。

总结

LiteLLM 不是一个新模型,而是一把真正好用的“LLM 万能钥匙”——它不替代任何大模型,却极大降低了使用它们的门槛与复杂度。无论是单机实验、团队协作还是企业级部署,它都提供了清晰的抽象、扎实的稳定性(含性能基准与稳定发布机制)和持续活跃的生态支持。如果你正被多模型适配、密钥轮换、协议转换或 Agent 互通等问题困扰,LiteLLM 值得作为基础设施优先引入。建议访问其主页获取更详细信息。

作加

类似文章