原创 大浪淘沙始见金:超节点重塑AI算力新标准
创始人
2026-01-26 10:17:45
0

在技术创新与应用渗透的双轮驱动下,人工智能引领的新一轮工业革命渐入佳境,算力基础设施的谋变突围也成为当下最热门的话题。

图片:摄图网

一方面,大模型正从单模态LLM走向全模态融合统一,模型上下文长度从K级迈向兆级,训练数据规模由10TB 级跃升至100TB级,迭代速度缩短到一两个月,这对算力底座的支撑能力提出前所未有的高要求;另一方面,AI应用在各个行业的落地进程明显加快,金融风控、自动驾驶、远程医疗等时延敏感型场景层出不穷,狂飙突进的Agentic AI尤需更多任务协同,传统的计算架构面临诸多挑战。

显而易见,曾经屡试不爽的摩尔定律已逐渐失效,仅靠单一芯片性能的提升无法满足AI训推的算力需求。通过多芯片互联、做大规模计算节点日益成为业界共识,围绕集群建设的各种尝试亦备受瞩目,多种版本的“超节点”更是纷至沓来。

不过,倘若采用过往的服务器堆叠模式或基于现成的以太网联接技术构建集群,依然难以从根本上突破AI算力的瓶颈:一些客户采用PCIe+RoCE协议互联的方式,由于服务器之间带宽不足、时延较高,集群的规模越大,算力利用率反而越低;与此同时,集群规模扩张还会带来可靠性问题,某知名大模型在54天的训练过程中累计出现419次中断,造成的损失不言而喻。

正是在这样的背景下,超节点必须借助崭新的互联协议及技术架构,扫除服务器扩展的重重壁垒,充分满足大模型训练与规模AI应用的严苛要求,进而推动算力基础设施迈上更高台阶。换言之,超节点本质上即是计算节点通过高速互联协议组成更大内存空间的计算系统,而大带宽、低时延和内存统一编址堪称其摧营拔寨的核心利器,借此方能真正打通AI算力的任督二脉。

当下,各种超节点方案“乱花渐欲迷人眼”,而要全面契合上述要求殊为不易。正所谓“大浪淘沙始见金”,以NVlink、灵衢等超节点互联协议为代表的开路先锋已脱颖而出,超节点“见真章”的时刻加速来临。

打破服务器之间的“通信墙”:大带宽、低时延是必由之路

在相当长一段时间里,传统计算架构的卡间互联主要依赖PCIe或以太网,跨服务器互联带宽多为200~400Gb/s且时延达数十微秒。这显然无法适应AI时代的要求——特别是从千亿稠密模型向万亿稀疏MoE模型演进的过程中,虽可借助EP、DP等并行技术降低单卡内存容量需求,但会带来30%以上的通信开销增加,打破“通信墙”迫在眉睫。

图片:摄图网

根据IDC咨询发布的研究报告,2025年逾70%的大规模AI集群因通信瓶颈导致训练效率比理论值低40%,缓解GB级数据传输阻塞的需求快速上升,底层的计算架构创新被寄予厚望。

不难看出,高带宽、低时延是算力集群实现突围的核心基石,而超节点借助高效的互联协议打破传统架构限制,支持AI处理器的高效协同,为更大范围、更高流量的数据传输创造必要条件。业界已出现不少有益的探索,在灵衢协议的加持下,通信带宽比传统服务器架构提升15倍,RTT通信时延则从7微秒缩短到3微秒,树立起AI集群的新标杆。

值得关注的是,这并非单点突破,而是覆盖多个环节的系统工程。依托超节点架构,总线互联范围可从单台服务器扩展到整机乃至跨机柜的大规模集群,并基于灵活的并行切分匹配业务需求。相关统计显示,在DeepSeek、Qwen等大模型的实践中,超节点相较于传统集群可使训练性能提升3倍,并依托大带宽能力将训推权重的传输从小时级降到60s。

从行业落地的维度看,互联网领域无疑是AI创新的开路先锋,其对基础大模型及算力底座的积极探索具有风向标意义。很多互联网企业正在推进大模型加速进化,对计算平台的集群通信能力提出极致要求,具备大带宽、低时延能力的超节点可以发挥巨大作用:基于超节点集群通信能力进行MoE大模型预训练,可更好地支持多专家、长序列需求,且以更灵活的分布式策略擢升EP扩展空间;借助超节点突出的跨服务器通信能力,还能将不可掩盖的all2all通信占比从40%降至3.5%,大幅提升整体算力利用率。

穿透超节点的“含金量”:内存统一编址能力是核心标尺

如果说大带宽、低时延的互联技术是打破服务器“通信墙”、为超节点注入澎湃动力的助推利器,那么内存统一编址能力就是穿透超节点“含金量”、衡量其能否真正重塑AI算力格局的核心标尺。

不容回避的是,目前市场中存在一些“自定义”的超节点方案,主要通过PCIe+RoCE协议互联,跨服务器带宽、时延受限,且不支持“内存统一编址”能力,本质上仍是传统堆叠架构的延续,而非真正的颠覆性创新。事实上,PCIe原生是一种外设互连总线,其基础传输模型依赖于事务的请求-响应,难以满足大规模直联的高效访问,互联带宽也远低于超节点的高标准;采用RoCE协议的不同服务器内存之间的访存则需要RDMA编解码,无法直接访问,造成算子通信时延大、效率低等弊端。

由此可见,“内存统一编址”能力既是实现“One NPU/GPU”的必备基础,更是超节点完成实质性跃迁的重要基石。真正的超节点必须做到所有互联设备的内存地址全局唯一,且可达成任意设备间的灵活访问,通过load/store指令级访存,即可直接读写远端NPU or CPU内存资源,为应对AI训推的严峻挑战铺平道路。

以大模型训练场景为例:频繁的参数同步操作是最明显的需求痛点,而在超节点内存统一编址能力的辅助下,客户无需经过传统的“序列化-网络传输-反序列化”流程,直接通过内存语义通信就能完成目标,显著提升小包数据传输及离散随机访存通信效率,并可在超节点域内实现更大的共享内存池。灵衢协议即是典型代表,其通过统一CPU、NPU内存语义,实现DDR和片上内存的池化,能做到128TB的全局内存统一编址,充分释放超节点的潜能。

除了大模型训练,日趋火爆的AI推理同样离不开内存池化全局共享的加持。在推理多轮对话中,每轮对话都需要Put和Get——Put将KV数据存入内存池,Get从内存池取KV数据,通常依托于更大的KVCache空间进行频繁的数据存储。基于超节点内存语义实现KV Cache池化方案,可支持Prefix Cache复用,达成一存多取的效果,在PreFix Cache命中率100%时,吞吐性能将提升3倍。

奔赴可商用超节点的未来:仰望星空,更要脚踏实地

2025年被称为超节点的“量产元年”,是其从概念走向商用的重要起点。据权威研究机构预测,在AI训推需求爆发、传统集群向新架构迁移、自主创新加速等因素的助力下,超节点市场在2025~2030年的复合增速有望超过60%。

在这条高速增长的超级赛道上,不乏蹭热度的追风者,也有更多着眼长远的实干家。此刻,唯有厘清“真”超节点的“金”标准,确立符合AI时代要求的进化方向,才能为可商用超节点的全面落地奠定坚实基础。

从技术标准的层面看,依托“大带宽、低时延、内存统一编址”三大能力的相互协同,方能让集群像一台计算机一样工作,使超节点真正名副其实,NVlink、灵衢、UALink、SUE等超节点互联协议已率先垂范;以规模商用的角度看,志存高远的超节点还要进一步增强工程能力和系统能力,在模块化架构、散热及连接技术、冗余和供电等领域不断精进,并持续提升高可靠、灵活切分等客户关注的核心竞争力,驱动AI算力底座实现质的飞跃。

仰望星空,更要脚踏实地。AI变革的大幕刚刚拉开,可商用超节点还有很长的路要走。经历了元年的“喧哗与骚动”之后,超节点在2026年将进入令人期待的商用兑现期——那些留在路上的扎实脚印,会成为一座座新的里程碑。

相关内容