【cosmos】打通感知与动作：NVIDIA全模态物理AI世界模型平台解析

🚀 工具网址： https://github.com/NVIDIA/cosmos

NVIDIA Cosmos 是一个面向 Physical AI（物理人工智能）的开放平台，其核心是名为 Cosmos 3 的全模态世界模型家族。它旨在通过统一的架构，让开发者能够构建真正理解物理世界并与之交互的智能体，从而弥合感知与动作之间的鸿沟，为机器人、自动驾驶等领域提供从世界理解到世界生成的完整能力。

主要功能与特性

全模态统一架构：基于 Mixture-of-Transformers (MoT) 架构，在单一框架内联合处理语言、图像、视频、音频和动作序列，而非简单拼接多个独立模型。
双模态运行能力：提供两种核心模式——Generator（生成器）负责生成图像、视频、声音和动作；Reasoner（推理器）负责理解视觉内容并进行文本推理。
丰富的模型选择：包含 16B 参数的 Nano 和 64B 参数的 Super 两个版本，以及专门用于文生图、图生视频和机器人策略的特化模型。
灵活的生成控制：支持 256p 到 720p 分辨率、多种宽高比、最高 30 FPS、最长 300 帧的视频生成，并支持立体声音频输出。
多元动作建模：支持相机运动、自动驾驶、单/双臂机器人、人形机器人等多种具身形态的动作预测与模拟。
完整部署路径：研究阶段可使用 Hugging Face Diffusers 和 Transformers；生产环境可通过 vLLM-Omni、vLLM 或 NVIDIA NIM 进行高并发部署，并提供 OpenAI 兼容的 API。

安装与快速上手

项目提供了多条路径供不同需求的开发者使用。开始前，需先创建 Hugging Face 访问令牌并在本地完成认证：

uvx hf@latest auth login

通过 Diffusers 进行生成式研究

如果你想快速体验模型生成能力，可以使用 Diffusers 库。以下命令会创建 Python 3.13 虚拟环境并安装所需依赖，其中 --torch-backend=auto 能自动匹配你的 NVIDIA 驱动版本：

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install --torch-backend=auto \
  "diffusers @ git+https://github.com/huggingface/diffusers.git" \
  accelerate av cosmos_guardrail huggingface_hub imageio \
  imageio-ffmpeg torch torchvision transformers

安装完成后，可通过以下 Python 代码进行文生视频：

import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
from diffusers.utils import export_to_video

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=10.0)

result = pipe(
    prompt="A mobile robot navigates a warehouse aisle and stops at a shelf.",
    num_frames=189,
    height=720,
    width=1280,
    fps=24,
    num_inference_steps=35,
    guidance_scale=6.0,
    generator=torch.Generator(device="cuda").manual_seed(1234),
)
export_to_video(result.video, "cosmos3_t2v.mp4", fps=24, macro_block_size=1)

通过 vLLM-Omni 部署生产级 API

对于需要生产环境部署的用户，vLLM-Omni 提供了 OpenAI 兼容的服务端点。最简单的启动方式是使用官方 Docker 镜像：

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  -v "$(pwd):/workspace" \
  -p 8000:8000 \
  --ipc=host \
  vllm/vllm-omni:cosmos3 \
  vllm serve nvidia/Cosmos3-Nano \
  --omni \
  --model-class-name Cosmos3OmniDiffusersPipeline \
  --allowed-local-media-path / \
  --port 8000 \
  --init-timeout 1800

启动后，即可通过标准的 HTTP 请求生成视频：

curl -sS -X POST http://localhost:8000/v1/videos/sync \
  --form-string "prompt=A small warehouse robot moves a blue box across a clean floor." \
  --form-string "size=1280x720" \
  --form-string "num_frames=189" \
  --form-string "fps=24" \
  -o cosmos3_t2v_output.mp4

通过 NIM 快速启动推理服务

如果你更关注世界理解能力，NVIDIA NIM 提供了预构建的推理容器，是部署 Reasoner 的最快路径。拉取镜像并运行后，即可在本地获得一个兼容 OpenAI 协议的 Chat Completions 服务：

docker run -it --rm --name=nvidia-cosmos3-reasoner \
  --runtime=nvidia --gpus all --shm-size=32GB \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -v "$HOME/.cache/nim:/opt/nim/.cache" \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:1.7.0

随后便可用常见的 OpenAI 客户端或 curl 发送包含图片或视频的请求进行问答。

适用场景与目标用户

NVIDIA Cosmos 特别适合以下场景：

机器人与具身智能：生成机器人操作视频、预测动作轨迹、进行物理推理和任务规划，为 DROID 等机器人平台提供策略支持。
自动驾驶：理解驾驶场景、进行常识推理、生成合成训练数据以及预测未来状态。
工业与创意内容生成：根据文本描述生成高质量的工业场景视频或图像，甚至同步生成匹配的音效。

其目标用户主要是拥有 NVIDIA Ampere、Hopper 或 Blackwell 架构 GPU 资源的 AI 研究人员、机器人与自动驾驶工程师，以及希望将 Physical AI 能力集成到产品中的企业开发团队。由于模型规模较大且对硬件有明确要求，它更适合具备相应算力基础的团队使用。

总结

NVIDIA Cosmos 的最大价值在于将“理解世界”与“生成世界”统一到了同一个全模态架构之下。它不仅提供了从轻量到前沿的不同规模模型，还覆盖了从研究原型到生产部署的完整工具链，包括 Diffusers、vLLM 和 NIM。对于希望让 AI 系统真正具备物理世界认知与模拟能力的开发者而言，这是一个功能全面且值得深入探索的基础设施。不过，考虑到其对高端 GPU 和 Linux 环境的依赖，以及较大的模型体积，建议团队在投入前充分评估自身的硬件与基础设施条件。

【cosmos】打通感知与动作：NVIDIA全模态物理AI世界模型平台解析

【OpenViking】让 AI 代理像管理本地文件一样管理上下文

【exercises-dataset】一键搭建健身应用后端的结构化多语言数据集

【hello-agents】一本手把手带你造出真正AI原生智能体的实战指南

【GLM-5】突破百万上下文与长程智能体任务的前沿开源模型

【multica】让 AI 编程助手真正成为你团队里“能指派、会汇报、可复用”的成员

【claude-cookbooks】一份开箱即用的 Claude 开发实战手册

类似文章