【cosmos】打通感知与动作:NVIDIA全模态物理AI世界模型平台解析
NVIDIA Cosmos 是一个面向 Physical AI(物理人工智能)的开放平台,其核心是名为 Cosmos 3 的全模态世界模型家族。它旨在通过统一的架构,让开发者能够构建真正理解物理世界并与之交互的智能体,从而弥合感知与动作之间的鸿沟,为机器人、自动驾驶等领域提供从世界理解到世界生成的完整能力。
主要功能与特性
- 全模态统一架构:基于 Mixture-of-Transformers (MoT) 架构,在单一框架内联合处理语言、图像、视频、音频和动作序列,而非简单拼接多个独立模型。
- 双模态运行能力:提供两种核心模式——Generator(生成器)负责生成图像、视频、声音和动作;Reasoner(推理器)负责理解视觉内容并进行文本推理。
- 丰富的模型选择:包含 16B 参数的 Nano 和 64B 参数的 Super 两个版本,以及专门用于文生图、图生视频和机器人策略的特化模型。
- 灵活的生成控制:支持 256p 到 720p 分辨率、多种宽高比、最高 30 FPS、最长 300 帧的视频生成,并支持立体声音频输出。
- 多元动作建模:支持相机运动、自动驾驶、单/双臂机器人、人形机器人等多种具身形态的动作预测与模拟。
- 完整部署路径:研究阶段可使用 Hugging Face Diffusers 和 Transformers;生产环境可通过 vLLM-Omni、vLLM 或 NVIDIA NIM 进行高并发部署,并提供 OpenAI 兼容的 API。
安装与快速上手
项目提供了多条路径供不同需求的开发者使用。开始前,需先创建 Hugging Face 访问令牌并在本地完成认证:
uvx hf@latest auth login
通过 Diffusers 进行生成式研究
如果你想快速体验模型生成能力,可以使用 Diffusers 库。以下命令会创建 Python 3.13 虚拟环境并安装所需依赖,其中 --torch-backend=auto 能自动匹配你的 NVIDIA 驱动版本:
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
"diffusers @ git+https://github.com/huggingface/diffusers.git" \
accelerate av cosmos_guardrail huggingface_hub imageio \
imageio-ffmpeg torch torchvision transformers
安装完成后,可通过以下 Python 代码进行文生视频:
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano",
torch_dtype=torch.bfloat16,
device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)
result = pipe(
prompt="A mobile robot navigates a warehouse aisle and stops at a shelf.",
num_frames=189,
height=720,
width=1280,
fps=24,
num_inference_steps=35,
guidance_scale=6.0,
generator=torch.Generator(device="cuda").manual_seed(1234),
)
export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)
通过 vLLM-Omni 部署生产级 API
对于需要生产环境部署的用户,vLLM-Omni 提供了 OpenAI 兼容的服务端点。最简单的启动方式是使用官方 Docker 镜像:
docker run --runtime nvidia --gpus all \
-v ~/.cache/huggingface:/root/.cache/huggingface \
-v "$(pwd):/workspace" \
-p 8000:8000 \
--ipc=host \
vllm/vllm-omni:cosmos3 \
vllm serve nvidia/Cosmos3-Nano \
--omni \
--model-class-name Cosmos3OmniDiffusersPipeline \
--allowed-local-media-path / \
--port 8000 \
--init-timeout 1800
启动后,即可通过标准的 HTTP 请求生成视频:
curl -sS -X POST http://localhost:8000/v1/videos/sync \
--form-string "prompt=A small warehouse robot moves a blue box across a clean floor." \
--form-string "size=1280x720" \
--form-string "num_frames=189" \
--form-string "fps=24" \
-o cosmos3_t2v_output.mp4
通过 NIM 快速启动推理服务
如果你更关注世界理解能力,NVIDIA NIM 提供了预构建的推理容器,是部署 Reasoner 的最快路径。拉取镜像并运行后,即可在本地获得一个兼容 OpenAI 协议的 Chat Completions 服务:
docker run -it --rm --name=nvidia-cosmos3-reasoner \
--runtime=nvidia --gpus all --shm-size=32GB \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-v "$HOME/.cache/nim:/opt/nim/.cache" \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0
随后便可用常见的 OpenAI 客户端或 curl 发送包含图片或视频的请求进行问答。
适用场景与目标用户
NVIDIA Cosmos 特别适合以下场景:
- 机器人与具身智能:生成机器人操作视频、预测动作轨迹、进行物理推理和任务规划,为 DROID 等机器人平台提供策略支持。
- 自动驾驶:理解驾驶场景、进行常识推理、生成合成训练数据以及预测未来状态。
- 工业与创意内容生成:根据文本描述生成高质量的工业场景视频或图像,甚至同步生成匹配的音效。
其目标用户主要是拥有 NVIDIA Ampere、Hopper 或 Blackwell 架构 GPU 资源的 AI 研究人员、机器人与自动驾驶工程师,以及希望将 Physical AI 能力集成到产品中的企业开发团队。由于模型规模较大且对硬件有明确要求,它更适合具备相应算力基础的团队使用。
总结
NVIDIA Cosmos 的最大价值在于将“理解世界”与“生成世界”统一到了同一个全模态架构之下。它不仅提供了从轻量到前沿的不同规模模型,还覆盖了从研究原型到生产部署的完整工具链,包括 Diffusers、vLLM 和 NIM。对于希望让 AI 系统真正具备物理世界认知与模拟能力的开发者而言,这是一个功能全面且值得深入探索的基础设施。不过,考虑到其对高端 GPU 和 Linux 环境的依赖,以及较大的模型体积,建议团队在投入前充分评估自身的硬件与基础设施条件。
