【voicebox】本地就能克隆声音、生成多语种语音的开源语音工作室

Voicebox 是一款完全在你自己的电脑上运行的开源语音合成工具,它让普通人也能轻松克隆人声、生成自然流畅的多语言语音,并添加专业级音频效果——所有处理过程不上传任何数据,彻底保障隐私。

核心功能一览:
– ✅ 5 种可切换的本地 TTS 引擎:支持 Qwen3-TTS、LuxTTS、Chatterbox 多语种版、Chatterbox Turbo(带情绪标签)和 HumeAI 的 TADA 模型
– ✅ 覆盖 23 种语言:包括英语、阿拉伯语、日语、印地语、斯瓦希里语等,满足国际化内容需求
– ✅ 实时音频后处理:提供变调、混响、延迟、合唱、压缩、增益、高低通滤波共 8 种效果,附带 4 套预设(如“广播风”“机器人声”)
– ✅ 表达力增强:在文本中输入 [laugh][sigh] 等标签,即可让语音自然融入笑声、叹息等副语言表现(Chatterbox Turbo 支持)
– ✅ 无限长度文本合成:自动按句切分长文并交叉淡入淡出,最高支持 5 万字符,智能识别中英文标点与标签
– ✅ 多轨故事编辑器:可视化时间轴,支持多角色对话、播客剪辑与叙事编排,可拖拽调整、同步播放、逐段锁定版本
– ✅ 完整 API 接口:开箱即用的 REST API,方便集成到游戏、无障碍工具、自动化内容系统等自有项目中
– ✅ 全平台本地运行:原生支持 macOS(Metal/MLX)、Windows(CUDA/DirectML)、Linux(ROCm/XPU)、Docker,甚至纯 CPU 模式

快速开始:
– 下载安装包:访问 voicebox.sh 选择对应系统的安装文件(macOS/Windows DMG/MSI),或直接运行 Docker:
bash
docker compose up

– 启动后,即可通过图形界面导入音频创建声纹、输入文字生成语音、添加效果、编辑多轨故事。
– 开发者还可通过内置 API 快速调用:
bash
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好,世界", "profile_id": "abc123", "language": "zh"}'

适合谁用?在什么场景下发挥价值?
内容创作者:制作多语种播客、有声书、短视频配音,无需依赖云端服务或担心版权与隐私风险;
开发者与产品团队:利用本地 API 快速为 App、游戏、智能硬件接入高质量语音能力;
教育与无障碍工作者:为视障用户生成定制化朗读语音,或为语言学习者合成带情感的真实语料;
隐私敏感型用户:拒绝将语音数据上传至第三方服务器,所有模型、声纹、音频均保留在本地设备。

总结:
Voicebox 不只是一款“能说话”的工具,而是一个真正以隐私为前提、以生产力为导向的本地语音创作平台。它把原本属于专业工作室的能力——多引擎选型、多轨编排、情绪化表达、实时效果处理——打包成简洁直观的桌面应用,同时保持开放与可扩展性。对于追求可控性、安全性与创作自由的用户来说,这是一个值得认真尝试的成熟起点。建议访问其主页获取更详细信息。

作加

类似文章