M4芯片暗藏训练核弹：Mac mini 被“解封”，1瓦功耗跑通Transformer训练

你手边那台安静运行的 Mac mini，可能正悄悄颠覆AI训练的规则。

过去几年，苹果M系列芯片的神经引擎（ANE）一直被默认为“推理专用”——就像一把上了锁的高性能引擎，只允许你开车，不许你修车、更不许你重装活塞。开发者想调用它做模型训练？抱歉，Core ML 框架挡在前面，系统级限制写得明明白白：仅限推理（inference-only）。

但2026年春天，一道裂缝出现了。

印度工程师 Manjeet Singh 在 Claude AI 的深度协作下，完成了一次教科书级的逆向突破：他绕过 Core ML，直击底层——深入苹果私有编译中间语言 MIL（Machine Intermediate Language），并解析 ANE 运行时的 E5 二进制指令流。结果不是“勉强可用”，而是硬核解锁：M4 芯片的神经引擎，不仅能跑推理，更能端到端执行 Transformer 模型的前向+反向传播——也就是真正的训练。

数据不会说谎：能效比吊打数据中心GPU

实验中，Singh 在搭载 M4 芯片的 Mac mini 上训练单层 Transformer 模块，测得其峰值能效达 6.6 TFLOPS/W。

这个数字意味着什么？
– 是 NVIDIA A100（315W TDP）能效的 80 倍；
– 是 H100（700W TDP）的 50 倍以上；
– 更震撼的是：整机训练 Stories110M 模型时，系统总功耗压低至不足 1 瓦——相当于点亮一颗LED小灯珠的能量，却在完成参数更新与梯度计算。

这彻底推翻了一个行业信条：NPU 不适合训练，因为硬件不行。真相恰恰相反：硬件早就是训练级的，只是软件墙太高，没人敢拆。

不是“玩具项目”，而是新范式的起点

目前，该方案仍处于早期工程验证阶段：
✅ 已实现完整训练循环（含自动微分、权重更新）；
✅ 支持 Stories110M 等中等规模语言模型的端到端训练；
✅ 全流程在 macOS 原生环境运行，无需外接设备或虚拟化层；
⚠️ 但尚未支持分布式训练、混合精度动态调度，且需手动优化张量布局以提升 ANE 利用率（当前约 35–42%）。

可关键不在“现在多完美”，而在于——门被打开了。

当训练不再依赖 $10,000+ 的 GPU 服务器集群，当一个家庭开发者能在深夜用咖啡机旁的 Mac mini 迭代自己的小语言模型，AI 开发的重心，正从“云上巨兽”悄然滑向“桌面终端”。

下一站：你的 MacBook，正在进化成私密大脑

Singh 在开源笔记中写道：“Claude 不是替代我思考，而是放大我的逆向直觉——它帮我快速验证 MIL 指令假设、定位 E5 中的同步屏障、甚至生成测试用例。” 这种人机协同的破解路径，本身已是端侧 AI 新哲学的预演。

未来已不是“能否在本地训练”，而是：
🔹 如何让 ANE 与 CPU/GPU 协同编排，释放异构算力；
🔹 如何将训练栈轻量化，嵌入 macOS 的隐私沙盒；
🔹 当 MacBook 合盖休眠时，它是否正在后台悄悄微调你的个人知识图谱？

一块芯片的解封，从来不只是技术胜利。它是对“算力垄断叙事”的一次温柔但坚定的松动——
最强大的AI，未必诞生于千卡集群，而可能始于你指尖敲下的第一行MIL汇编。

M4芯片暗藏训练核弹：Mac mini 被“解封”，1瓦功耗跑通Transformer训练

数据不会说谎：能效比吊打数据中心GPU

不是“玩具项目”，而是新范式的起点

下一站：你的 MacBook，正在进化成私密大脑

当AI跑得比社会快：Anthropic成立独立智库，为AGI时代按下“社会校准键”

一个人，三步，造出一款App：百度“秒哒”把AI开发塞进聊天框

结构化图像生成新纪元：港中文团队发布革命性 AI 编辑系统

AI视频编辑进入“零门槛”时代：谷歌Veo新功能让删改视频像打字一样简单

密钥泄露48小时，账单飙到59万！一个墨西哥小团队的Google Gemini“天价罚单”实录

开源守护者，免费解锁 Claude Max 20x：Anthropic 推出专属算力支援计划

数据不会说谎：能效比吊打数据中心GPU

不是“玩具项目”，而是新范式的起点

下一站：你的 MacBook，正在进化成私密大脑

类似文章