一张照片 + 一段录音 = 会眨眼、会点头、会呼吸的真人视频,全部本地运行

你有没有试过:用 AI 把一张静态人像变成会说话的视频?

市面上很多工具确实能“动嘴”,但仔细一看——头是僵的、眼是干的、肩膀像焊死的,整个画面像一张被强行配音的照片。

InfiniteTalk 不这么干。
它不修图、不贴嘴、不套动画。
它是从零开始,“生成”一个真正会说话的人:
– 嘴巴跟着音频动(唇形精准到 1.8mm 误差)
– 眼睛自然眨动(不是固定间隔,而是有节奏、有松紧)
– 头部微微倾斜、点头(响应语义,不是机械循环)
– 肩膀随呼吸起伏(连呼吸感都算进去了)

而且——全程在你自己的电脑上跑,不上传、不联网、不存档、不审核。
你给一张照片、一段录音(MP3 或 WAV 都行),30 秒后,就得到一个 3 秒钟的高清 talking video。想做 3 分钟?它能无缝拼接,不掉身份、不闪背景、不破音画同步。

为什么比别的工具更“活”?
因为大多数开源方案(比如 SadTalker、MuseTalk)只改嘴——像给照片“打个嘴部补丁”。
而 InfiniteTalk 是“重绘整个人”:音频信号直接驱动整张脸 + 头部 + 上半身的运动模型,不是局部修补,是全局生成。

硬件门槛也友好:
– 最低只要 RTX 3060(6GB 显存)就能跑 480p
– 推荐 RTX 3090 或 4090 做 720p(实测 3 秒生成约 45 秒)
– 所有模型都已量化优化(.gguf / .safetensors 格式),开箱即用

操作简单到像发微信:
1. 双击 01-run.bat(Windows)或运行启动脚本(Mac/Linux)
2. 浏览器自动打开 http://localhost:7860
3. 左边传入:人像图 + 录音文件 + 一句话提示词(比如“轻松微笑”“略带思考”)
4. 点生成 → 右边直接播放 + 下载 MP4

没有账户、没有订阅、没有隐藏费用。
你掌控数据,也掌控表达——不管是产品演示、教学讲解,还是个人创意实验,它都安静、可靠、彻底属于你。

直达网址:https://www.patreon.com/posts/151286461

类似文章