整理|冬梅
2026 年开年第一天,DeepSeek 又“整活儿了”!
DeepSeek发布了一篇重要学术论文,提出了一种名为 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)的新型网络架构。该研究旨在解决现有超连接(HC)架构在大规模模型训练中存在的数值不稳定和信号爆炸等瓶颈,同时保留其性能提升优势,成为新一代基础模型设计的潜在方向。
论文题为 “mHC: Manifold-Constrained Hyper-Connections”,已于 2025 年底发布在 arXiv、Huggingface 平台,并迅速引起业界关注。论文由 Zhenda Xie、Yixuan Wei 和 Huanqi Cao 等人担任第一作者,DeepSeek 创始人兼 CEO 梁文锋也列于作者名单中。
论文地址:https://arxiv.org/pdf/2512.24880
1架构创新解决了什么问题
这篇论文中提到,传统 Transformer 网络中的残差连接结构(即 x + F(x))因能维持恒等映射而保证信号稳定传递,是深度学习模型得以顺利训练的核心机制之一。然而,近年来提出的 Hyper-Connections(超连接)虽然拓宽了残差流通道并增强了表达能力,但其无约束的连接矩阵破坏了恒等映射特性,在大规模训练中经常导致信号爆炸或梯度异常,影响训练稳定性和可扩展性。
DeepSeek 提出的 mHC通过引入一种几何约束的思路,将传统 HC 的残差映射空间投影到特定的流形上,将连接矩阵限制在双随机矩阵(Birkhoff 多胞形)流形内。这一投影不仅恢复了恒等映射性质,还在数学上保证了信号范数的稳定性,有效避免了信号放大和梯度爆炸等数值问题。
核心技术实现上,研究团队采用了 Sinkhorn-Knopp 算法进行投影约束,并结合内核融合、重计算和通信重叠等基础设施层面的优化手段,控制系统开销,从工程角度确保训练效率不会显著下降。
这款新架构“解决了什么问题”?在弄清楚这件事之前,首先是要搞清楚问题从哪里来:为什么传统 Hyper-Connections 会失控?
传统 Transformer 残差连接之所以能够支撑极深网络,其关键并不只是“有残差”,而在于残差结构中天然存在一个权重为 1 的恒等映射通路,这使得无论子模块在训练早期表现如何,主信号都可以稳定向前传播,信号范数不会随着层数增加而系统性放大或衰减。
超连接(Hyper-Connections)在此基础上进一步放宽结构假设,将单一残差流扩展为多条并行残差流,并通过一个可学习的连接矩阵在不同流之间进行线性组合,从表达能力角度看更具潜力,但问题也正是出在这里:当连接矩阵完全自由学习时,它不再保证包含恒等映射成分,其谱性质也无法受到约束,在大规模训练中极易导致信号放大、梯度爆炸或数值不稳定,这也是超连接在小模型中有效、但在十亿甚至百亿参数规模上频繁失效的根本原因。
mHC 的核心思路并不是否定多流残差,而是通过引入几何约束,重新为这种复杂连接结构建立稳定性边界。DeepSeek 将跨流连接矩阵的可行空间限制在双随机矩阵所构成的流形上,即要求矩阵的每一行和每一列元素之和都为 1,且所有元素非负。
这一约束对应于数学上的 Birkhoff 多胞形,其关键性质在于:单位矩阵本身就是双随机矩阵,因此传统残差结构仍然是该空间中的一个特例;同时,双随机矩阵的最大特征值为 1,意味着其不会系统性放大信号范数,本质上只能在不同残差流之间重新分配权重,而不能凭空放大或削弱整体能量。通过这种方式,多流超连接在保留表达灵活性的同时,重新获得了与经典残差连接相近的稳定性基础。
在实现层面,mHC 并未直接在受约束空间内进行复杂优化,而是采用了工程上成熟且可微的 Sinkhorn-Knopp 算法,对无约束的连接矩阵进行投影。
训练过程中,模型首先学习一个普通实值矩阵,然后在每次前向传播前,通过有限步 Sinkhorn 归一化,将其投影为近似双随机矩阵,从而保证连接始终位于安全的流形之内。由于 Sinkhorn-Knopp 算法本身计算结构简单、数值稳定,并且可以与主干计算进行融合和重叠,其引入的额外开销在整体训练中是可控的。
论文披露的实验结果显示,在 3B、9B 乃至 27B 参数规模下,mHC 不仅避免了传统超连接中常见的训练不收敛问题,还在多个任务上维持甚至提升了性能表现,表明这种“硬约束式”的几何投影在大模型场景中具有现实可行性。
从更宏观的角度看,mHC 的意义并不在于提出一种立刻取代 Transformer 的新范式,而在于为复杂残差拓扑的进一步探索提供了一种可扩展的理论与工程框架。
它表明,在大规模模型训练中,单纯依赖正则项或经验性初始化往往不足以抵御数值不稳定,而将模型结构显式限制在具备良好谱性质的几何空间内,反而能够系统性地解决稳定性问题。这一思路为未来更复杂的多流、多路径网络设计打开了空间,也为如何在“更强表达能力”与“可控可训性”之间取得平衡,提供了一种具有启发意义的解法。
2网友怎么看?
论文发布后,在人工智能研究者与产业从业者中引发了广泛讨论。
多位业内人士在社交平台和技术社区中对 DeepSeek 提出的 mHC 架构进行了分析与解读,讨论重点集中在其对传统 Transformer 残差连接方式的改动,以及该方法在大模型扩展性和训练成本控制方面的潜在意义。也有观点指出,DeepSeek 近年来持续通过公开论文释放技术信号,其研究方向往往与后续模型迭代节奏密切相关。
在领英平台,有用户认为,这件事说明了一个趋势,中国 AI 公司之间越来越愿意把研究成果公开出来,这反映出中国人工智能公司之间日益开放、协作的文化。他感慨道:
中国人工智能初创公司 DeepSeek 在创始人梁文锋参与撰写的一份新论文中迎来了 2026 年。这篇论文建议重新思考用于训练基础人工智能模型的基本架构。这种名为 mHC 的方法,是这家杭州公司推动其模型更具成本效益的部分努力。DeepSeek 试图以此跟上资金更充裕、算力获取途径更深的其他竞争对手的步伐。
这也反映出中国人工智能公司之间日益开放、协作的文化,这些公司公开发表的研究成果所占比例越来越高。对于行业观察人士来说,DeepSeek 的论文往往为其下一个重要模型发布所采用的工程选择,提供了重要的早期信号。
在 2026 年 1 月 1 日(周四)发布的一篇论文中,DeepSeek 的 19 名研究人员组成的团队表示,他们在拥有 30 亿、90 亿和 270 亿参数的模型上测试了“流形约束超连接”方法,发现其扩展性良好,且没有增加显著的计算负担。
在 Reddit 平台,新年第一天就看到这类研究成果发布,令人印象深刻。
Reddit 用户名为 SlowFail2433 的用户是一位长期从事深度学习研究的评论者,他指出,在深层神经网络中,如果缺乏恒等残差连接,梯度往往会出现不稳定甚至“崩溃”的问题,这一现象不仅存在于大语言模型中,在卷积神经网络,尤其是 ResNet 架构中同样普遍。因此,如果 DeepSeek 提出的“流形约束超连接”方法能够在保持稳定性的同时实现良好扩展,其意义不容小觑。
不过他也强调,该论文在数学推导和底层实现上都具有较高复杂度。他表示:
为了保证效率,研究团队在 CUDA 内核层面进行了算子融合,并对训练流水线进行了专门优化,这类工作对工程能力提出了较高要求。有评论者直言,仅完全理解论文内容就可能需要数周时间,不过在进一步研读后发现,其核心主要围绕投影矩阵与流形约束展开,并非不可实现。