国产AI再突破:从几秒GIF到完整短片的跨越
过去几年,AI生成视频还停留在“几秒动图”的阶段——画面不稳定、剧情断断续续,更像是技术演示而非真正可用的内容。但现在,这一局面正在被打破。
中国科学技术大学与字节跳动联手推出了一款全新的端到端长视频生成模型,能够直接生成长达一分钟、480p分辨率、24帧每秒的连贯视频。更令人惊叹的是,这段视频不仅时间够长,还能实现多个镜头之间的自然切换,讲述一个视觉上连贯的“小故事”。
这标志着中国在生成式AI赛道上,首次实现了对“分钟级叙事视频”生成的技术掌控——不再是碎片化的动画,而是真正意义上的迷你短片。
MoGA来了:让AI“记住”整个剧情
为什么此前大多数AI视频模型都卡在几秒钟?核心问题在于上下文长度和计算成本。
传统模型受限于显存和算力,无法处理长时间视频所需的庞大信息量。就像一个人记不住整部电影的情节,只能回忆几个片段一样,AI也难以维持长视频的逻辑与连贯性。
这次的突破,关键就在于一种名为 MoGA(Modular Global Attention,模块化全局注意力) 的全新注意力机制。它通过结构化的方式优化信息流动,让模型可以处理高达 580K token 的上下文长度,相当于让AI“一口气”记住并协调整个视频的节奏、场景和动作。
更重要的是,MoGA大幅降低了计算开销。这意味着生成一分钟的视频不再需要“超算级”资源,而是可以在更现实的硬件条件下完成——为实际应用铺平了道路。
不只是炫技:模块化设计直指产业落地
如果说技术突破是“硬实力”,那么MoGA的模块化与兼容性则展现了它的“实用潜力”。
该架构可无缝集成主流加速库,如 FlashAttention、xFormers 和 DeepSpeed,显著提升训练与推理效率。换句话说,这套系统不仅能跑得快,还能轻松嵌入现有的AI生产流程中。
这意味着什么?
– 影视行业可以用它快速生成分镜预览;
– 广告公司能一键产出多个创意短片;
– 游戏开发者可自动制作过场动画;
– 数字人内容团队能高效更新动态素材……
从创作辅助到批量生产,MoGA打开了一扇通往“AI原生视频内容时代”的大门。
中国AI弯道超车?这次我们走在了前面
全球范围内,OpenAI 的 Sora、Pika、Runway 等公司已在短视频生成领域激烈角逐。而中国科大与字节跳动此次发布的模型,被业内视为国内首个真正意义上实现分钟级多镜头视频生成的系统。
它不仅在算法设计上独树一帜,在效率与可扩展性方面也展现出领先潜力。随着后续开源和生态建设推进,这套技术有望成为中国在生成式AI领域的一张新名片。
未来已来——而且是以“一分钟电影”的形式悄然登场。
🔗 了解详情:https://jiawn-creator.github.io/mixture-of-groups-attention/