吞吐翻倍、延迟砍半?这家谷歌TPU老兵创立的芯片公司,正用“可分割脉动阵列”重写大模型推理规则
当大模型还在等“下一个Token”,它已把推理瓶颈焊死在历史里
2026年2月24日,一家成立仅三年、办公室藏身于硅谷山景城不起眼园区的AI芯片公司——MatX,突然扔出一枚硬核炸弹:5亿美元B轮融资(约合34.45亿元人民币)正式落定。这不是又一轮PPT融资,而是一次由实绩背书、巨头真金白银押注的“算力政变”。
更引人注目的是领投方名单:全球先进封装龙头世芯电子(Alchip)、数据中心芯片老牌劲旅美满电子(Marvell)——两家并非财务投资者,而是以战略合作伙伴身份深度绑定,将直接参与MatX One芯片的流片、封装与系统级集成。这意味着,这颗芯片从诞生第一天起,就已嵌入全球AI基础设施的主干道。
它不拼“峰值算力”,专治“推理卡顿”这个老毛病
MatX的创始人团队,清一色来自谷歌TPU早期核心架构组——那群亲手把第一代TPU从白板推上服务器机架的人。他们没去卷更大规模的训练芯片,反而转身扎进一个被长期忽视的战场:大模型推理的“最后一公里”效率黑洞。
当前主流方案在Prefill(预填充)和Decoding(逐Token生成)之间疲于奔命:前者需要海量并行计算吞吐,后者却极度敏感于内存延迟。于是工程师们只能妥协——要么牺牲响应速度堆显存,要么砍长上下文保实时性。
MatX One的破局点,就藏在它的名字里:“One”不是指单颗芯片,而是“统一架构应对全推理阶段”的野心。
-
🔹 可分割脉动阵列(Partitionable Systolic Array):传统脉动阵列像一条永不停歇的传送带,高效但僵硬;MatX One则像一条能随时拆解重组的智能流水线——Prefill时自动合并为超大阵列榨干算力,Decoding时秒切为多个小单元并行处理不同请求,硬件利用率直逼92%(内部实测数据),远超同类芯片普遍70%左右的水平。
-
🔹 SRAM+HBM双模内存引擎:它没在“快”和“大”之间做选择题,而是把SRAM的纳秒级延迟(<2ns)和HBM3的1.2TB/s带宽缝合成一套协同系统。实测显示:处理128K tokens长上下文时,首Token延迟仅47ms,比同级别GPU方案快近40%。
-
🔹 不止于推理——它悄悄扛起了RLHF的重担:强化学习微调中高频的梯度同步与策略采样,过去常需CPU+GPU协同调度。MatX One内置专用RL加速单元,让SFT→DPO→PPO的全流程训练周期压缩35%,真正实现“训推一体”。
算一笔账:每百万Tokens成本,可能跌破$0.8
行业共识早已转变:LLM的竞争,正在从“谁能训出更大模型”,下沉到“谁能以更低代价稳定供Token”。
据MatX向IT之家披露的基准测试,在Llama-3-70B和Qwen2-72B等主流开源模型上,MatX One在同等功耗(300W)下,吞吐量达NVIDIA H100的1.8倍,而单Token推理成本降低52%。换算下来:部署千卡级推理集群,年度电费与硬件摊销可减少近2亿人民币。
这不是理论值——首批工程样片已在三家头部云厂商完成POC验证,其中一家已签署首批万片级采购意向,预计2026年Q3启动量产交付。
全球AI芯片战,正从“参数军备竞赛”转向“架构范式革命”
MatX的崛起,恰是这场静默变革的缩影:
- 🌐 SambaNova 的第五代RDU芯片不再强调TOPS,转而用“任务感知编译器”动态重构数据流,把Transformer层映射效率提升3倍;
- ⚡ Positron 的Asimov芯片用模拟存内计算(Analog CIM)挑战能效极限,宣称每瓦性能达英伟达Rubin架构的5倍——虽尚未量产,但已获微软Azure边缘AI项目预研支持;
- 🇨🇳 国内柔性突破更令人振奋:中科院团队发布的亚1美元柔性AI芯片,经4万次弯折仍稳定运行ResNet-18,为AR眼镜、智能织物等下一代交互终端撕开一道裂缝。
当所有人都盯着“训练要多快”,MatX却在问:“用户按下回车后,第1个字何时出现?”——真正的AI民主化,不在参数规模里,而在每一次毫秒级响应的确定性中。
MatX One未必是终极答案,但它确凿地划出了一条新分界线:
从此,大模型芯片的KPI,必须同时包含“吞吐”、“延迟”、“成本”与“场景泛化力”——少一个维度,都不算及格。
