语音即命令:Genspark Workspace 2.0 正在让键盘“退休”


🎙️ 不用打字,只用说话——办公方式正在被重写

还记得上一次你完整敲完一封邮件、一份PPT大纲、一段视频脚本,花了多少分钟吗?Genspark 最新发布的 Workspace 2.0 正在悄悄改写这个答案:它不鼓励你敲键盘,而是邀请你开口说话——然后,一切就自动发生了。

这不是概念演示,也不是未来预告。这是已在 macOS 和 Windows 上独立运行的 Speakly ——一个真正意义上的“语音工作入口”。它不依赖快捷键、不等待光标定位,也不需要你把想法翻译成精准的提示词。你说“帮我把上周会议纪要整理成3页PPT,风格简洁专业,配两张数据图”,Speakly 就能听懂语境、拆解意图、调用工具、跨应用执行,并直接输出可交付成果。

官方实测数据显示:在处理中高复杂度任务(如多步骤内容生成+格式化+跨平台分发)时,语音驱动的工作流效率比传统键盘输入高出4倍以上。这不是“快一点”,而是“省下整个上午”。

🤖 全链路智能体协同:从灵感到成品,一气呵成

如果说 Speakly 是 Workspace 2.0 的“声控大脑”,那么它的“四肢”就是一套深度协同的 AI Agent 生态系统。这一次,Genspark 没有堆砌功能,而是围绕真实工作流做了精密编排:

  • AI Creative Slides:输入一句话主题,10秒内生成结构清晰、视觉统一、适配品牌色系的专业演示文稿(支持自动排版、图表嵌入、演讲备注生成);
  • 多媒体矩阵全面升级
  • 图像编辑 Agent 支持语义级精修(例如:“把背景换成东京雨夜,人物肤色提亮15%,保留胶片颗粒感”);
  • 全新上线的 视频生成 Agent,可基于文案自动生成带转场、字幕与节奏匹配的短视频;
  • 定制化音乐生成专业级配音 Agent 可联动使用——输入脚本,即得带情绪起伏、语速自然、配乐贴合的成品音频;

最关键的是,这些 Agent 并非孤立存在。你可以让它们“接力协作”:比如让 Slides Agent 输出大纲后,自动触发视频 Agent 制作讲解视频,再调用配音 Agent 配音,最后由音乐 Agent 生成片尾BGM——整条流水线,只需最初一句话启动。

💰 资本与市场的双重认可:不是噱头,而是刚需

技术狂奔的背后,是扎实的商业验证。Genspark 近期完成 超3亿美元B轮融资,资金将重点投向三件事:
✅ Speakly 的语音理解鲁棒性提升(尤其应对口音、环境噪音、行业术语);
✅ 自建AI基础设施,降低长流程Agent调度延迟;
✅ 加速进入欧美、日韩等企业服务主战场。

更硬核的信号来自营收:公司 年度经常性收入(ARR)已突破1亿美元。这意味着,已有大量知识工作者和团队,正把 Workspace 2.0 当作日常办公的“操作系统”而非玩具。

当语音不再只是搜索或设闹钟的辅助手段,而成为驱动创意、生产、协作的核心接口——我们或许正站在一个拐点上:键盘没有消失,但它,正在慢慢退居为备选方案。