一张照片 + 一段录音 = 会眨眼、会点头、会呼吸的真人视频，全部本地运行

你有没有试过：用 AI 把一张静态人像变成会说话的视频？

市面上很多工具确实能“动嘴”，但仔细一看——头是僵的、眼是干的、肩膀像焊死的，整个画面像一张被强行配音的照片。

InfiniteTalk 不这么干。
它不修图、不贴嘴、不套动画。
它是从零开始，“生成”一个真正会说话的人：
– 嘴巴跟着音频动（唇形精准到 1.8mm 误差）
– 眼睛自然眨动（不是固定间隔，而是有节奏、有松紧）
– 头部微微倾斜、点头（响应语义，不是机械循环）
– 肩膀随呼吸起伏（连呼吸感都算进去了）

而且——全程在你自己的电脑上跑，不上传、不联网、不存档、不审核。
你给一张照片、一段录音（MP3 或 WAV 都行），30 秒后，就得到一个 3 秒钟的高清 talking video。想做 3 分钟？它能无缝拼接，不掉身份、不闪背景、不破音画同步。

为什么比别的工具更“活”？
因为大多数开源方案（比如 SadTalker、MuseTalk）只改嘴——像给照片“打个嘴部补丁”。
而 InfiniteTalk 是“重绘整个人”：音频信号直接驱动整张脸 + 头部 + 上半身的运动模型，不是局部修补，是全局生成。

硬件门槛也友好：
– 最低只要 RTX 3060（6GB 显存）就能跑 480p
– 推荐 RTX 3090 或 4090 做 720p（实测 3 秒生成约 45 秒）
– 所有模型都已量化优化（.gguf / .safetensors 格式），开箱即用

操作简单到像发微信：
1. 双击 01-run.bat（Windows）或运行启动脚本（Mac/Linux）
2. 浏览器自动打开 http://localhost:7860
3. 左边传入：人像图 + 录音文件 + 一句话提示词（比如“轻松微笑”“略带思考”）
4. 点生成 → 右边直接播放 + 下载 MP4

没有账户、没有订阅、没有隐藏费用。
你掌控数据，也掌控表达——不管是产品演示、教学讲解，还是个人创意实验，它都安静、可靠、彻底属于你。

直达网址：https://www.patreon.com/posts/151286461

一张照片 + 一段录音 = 会眨眼、会点头、会呼吸的真人视频，全部本地运行

别让AI帮你改代码时“顺手修了全世界”——三步锁死Claude的修改范围

用 Make.com 5 分钟搭出「自动同步全平台价格」的工作流，连 Excel 都能实时联动

医疗AI聊天机器人实战指南：30%客服减负、秒级分诊、零基础也能搭的私有化方案

让AI自己跑命令、改文件、修Bug：开发者终于有了真·编程搭档

AI让打工人更忙？这5个硬核工具正在悄悄改写规则

用 Slack 收到竞品新功能推送，比客户还早知道他们上线了啥

类似文章