吞吐翻倍、延迟砍半？这家谷歌TPU老兵创立的芯片公司，正用“可分割脉动阵列”重写大模型推理规则

当大模型还在等“下一个Token”，它已把推理瓶颈焊死在历史里

2026年2月24日，一家成立仅三年、办公室藏身于硅谷山景城不起眼园区的AI芯片公司——MatX，突然扔出一枚硬核炸弹：5亿美元B轮融资（约合34.45亿元人民币）正式落定。这不是又一轮PPT融资，而是一次由实绩背书、巨头真金白银押注的“算力政变”。

更引人注目的是领投方名单：全球先进封装龙头世芯电子（Alchip）、数据中心芯片老牌劲旅美满电子（Marvell）——两家并非财务投资者，而是以战略合作伙伴身份深度绑定，将直接参与MatX One芯片的流片、封装与系统级集成。这意味着，这颗芯片从诞生第一天起，就已嵌入全球AI基础设施的主干道。

它不拼“峰值算力”，专治“推理卡顿”这个老毛病

MatX的创始人团队，清一色来自谷歌TPU早期核心架构组——那群亲手把第一代TPU从白板推上服务器机架的人。他们没去卷更大规模的训练芯片，反而转身扎进一个被长期忽视的战场：大模型推理的“最后一公里”效率黑洞。

当前主流方案在Prefill（预填充）和Decoding（逐Token生成）之间疲于奔命：前者需要海量并行计算吞吐，后者却极度敏感于内存延迟。于是工程师们只能妥协——要么牺牲响应速度堆显存，要么砍长上下文保实时性。

MatX One的破局点，就藏在它的名字里：“One”不是指单颗芯片，而是“统一架构应对全推理阶段”的野心。

🔹 可分割脉动阵列（Partitionable Systolic Array）：传统脉动阵列像一条永不停歇的传送带，高效但僵硬；MatX One则像一条能随时拆解重组的智能流水线——Prefill时自动合并为超大阵列榨干算力，Decoding时秒切为多个小单元并行处理不同请求，硬件利用率直逼92%（内部实测数据），远超同类芯片普遍70%左右的水平。
🔹 SRAM+HBM双模内存引擎：它没在“快”和“大”之间做选择题，而是把SRAM的纳秒级延迟（<2ns）和HBM3的1.2TB/s带宽缝合成一套协同系统。实测显示：处理128K tokens长上下文时，首Token延迟仅47ms，比同级别GPU方案快近40%。
🔹 不止于推理——它悄悄扛起了RLHF的重担：强化学习微调中高频的梯度同步与策略采样，过去常需CPU+GPU协同调度。MatX One内置专用RL加速单元，让SFT→DPO→PPO的全流程训练周期压缩35%，真正实现“训推一体”。

算一笔账：每百万Tokens成本，可能跌破$0.8

行业共识早已转变：LLM的竞争，正在从“谁能训出更大模型”，下沉到“谁能以更低代价稳定供Token”。

据MatX向IT之家披露的基准测试，在Llama-3-70B和Qwen2-72B等主流开源模型上，MatX One在同等功耗（300W）下，吞吐量达NVIDIA H100的1.8倍，而单Token推理成本降低52%。换算下来：部署千卡级推理集群，年度电费与硬件摊销可减少近2亿人民币。

这不是理论值——首批工程样片已在三家头部云厂商完成POC验证，其中一家已签署首批万片级采购意向，预计2026年Q3启动量产交付。

全球AI芯片战，正从“参数军备竞赛”转向“架构范式革命”

MatX的崛起，恰是这场静默变革的缩影：

🌐 SambaNova 的第五代RDU芯片不再强调TOPS，转而用“任务感知编译器”动态重构数据流，把Transformer层映射效率提升3倍；
⚡ Positron 的Asimov芯片用模拟存内计算（Analog CIM）挑战能效极限，宣称每瓦性能达英伟达Rubin架构的5倍——虽尚未量产，但已获微软Azure边缘AI项目预研支持；
🇨🇳 国内柔性突破更令人振奋：中科院团队发布的亚1美元柔性AI芯片，经4万次弯折仍稳定运行ResNet-18，为AR眼镜、智能织物等下一代交互终端撕开一道裂缝。

当所有人都盯着“训练要多快”，MatX却在问：“用户按下回车后，第1个字何时出现？”——真正的AI民主化，不在参数规模里，而在每一次毫秒级响应的确定性中。

MatX One未必是终极答案，但它确凿地划出了一条新分界线：

从此，大模型芯片的KPI，必须同时包含“吞吐”、“延迟”、“成本”与“场景泛化力”——少一个维度，都不算及格。

吞吐翻倍、延迟砍半？这家谷歌TPU老兵创立的芯片公司，正用“可分割脉动阵列”重写大模型推理规则

当大模型还在等“下一个Token”，它已把推理瓶颈焊死在历史里

它不拼“峰值算力”，专治“推理卡顿”这个老毛病

算一笔账：每百万Tokens成本，可能跌破$0.8

全球AI芯片战，正从“参数军备竞赛”转向“架构范式革命”

xAI 的 Colossus2 超算野心：追赶 Meta 与 Anthropic，却难撼动 OpenAI 霸主地位？

谷歌 Pixel 11月大更新：AI 编辑、诈骗防护、续航黑科技全来了！

小米造出“会流汗”的仿生手：体积缩半、触觉全覆盖，工业级灵巧操作再进一步

AI质检员上岗！海康威视用“观澜”大模型把包装错漏装问题一锅端了

AI界的“指挥家”来了：英伟达8亿参数新模型让工具协同更智能

GPT-6 变身“GPT-6-7”？奥尔特曼一句话引爆全网，真相竟和年度词汇有关！

当大模型还在等“下一个Token”，它已把推理瓶颈焊死在历史里

它不拼“峰值算力”，专治“推理卡顿”这个老毛病

算一笔账：每百万Tokens成本，可能跌破$0.8

全球AI芯片战，正从“参数军备竞赛”转向“架构范式革命”

类似文章