DeepSeek推出mHC架构提升AI模型性能
创始人
2026-01-04 22:17:41
0

DeepSeek研究人员开发了一种名为流形约束超连接(mHC)的技术,能够提升人工智能模型的性能。

这家中国AI实验室于周三发布的论文中首次展示了该软件。

DeepSeek创建mHC是为了增强大语言模型用于学习新信息的残差连接机制。这种机制发明于2015年,也广泛应用于许多视觉模型中。DeepSeek并非首个尝试改进残差连接的公司,但此前的尝试结果喜忧参半。

AI模型的工作原理与架构

AI模型由众多被称为"层"的软件组件组成。当用户输入提示时,文本进入第一层,执行生成响应所需的一小部分计算。第一层将计算结果发送给第二层,第二层完成另一部分工作,将结果传递给第三层,以此类推。最后一层向用户输出答案。

最后一层在AI训练过程中发挥关键作用。如果模型输出错误的响应,最后一层会接收到所谓的梯度信号。梯度是一个表明AI犯错的信号,也包含了模型如何改进的信息。梯度进入最后一层,然后向后传播通过AI结构的其余部分,直到到达第一层。

残差连接的发展历程

2015年,研究人员发明了一种名为残差连接的梯度管理机制。这是一种快捷方式,使梯度能够直接在两个距离较远的AI层之间传播,而无需通过中间的所有层。残差连接缓解了几种常见的AI训练错误,这也是它们在大语言模型和视觉模型中被广泛使用的原因。

去年9月,研究人员推出了残差连接的替代方案——超连接。它解决了残差连接机制的几个不足,但也有自身的局限性。DeepSeek本周推出的mHC架构是超连接的增强实现版本,避免了后者相关的几个技术挑战,使其更适合生产使用。

mHC的核心创新

mHC的主要创新在于它融合了所谓的流形。流形是一个广泛的数学对象家族,复杂程度差异很大。一些流形是简单的几何形状如圆形,而另一些则跨越三维以上的空间。DeepSeek表示,mHC使用流形来维持梯度在AI模型各层之间传播时的稳定性。

性能测试与结果

该公司通过使用mHC架构训练了3个分别拥有30亿、90亿和270亿参数的大语言模型来测试这一架构。然后使用超连接技术训练了三个参数量相同的其他模型。据DeepSeek称,在八个不同的AI基准测试中,mHC驱动的大语言模型表现更佳。

该公司表示,这种架构在硬件效率方面也优于超连接。超连接机制显著增加了大语言模型在训练期间的内存需求。在内部测试中,DeepSeek确定mHC仅产生6.27%的硬件开销。

"通过深化对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的局限性,并可能为下一代基础架构的演进照亮新的道路,"DeepSeek研究人员在mHC论文中写道。

Q&A

Q1:mHC架构是什么?它有什么优势?

A:mHC(流形约束超连接)是DeepSeek开发的AI架构技术,用于提升人工智能模型性能。它是超连接技术的增强版本,通过融合流形数学对象来维持梯度传播的稳定性,避免了超连接的技术挑战,更适合生产使用。

Q2:mHC相比其他技术表现如何?

A:在测试中,使用mHC架构训练的大语言模型在八个不同AI基准测试中均优于使用超连接技术训练的同等参数模型。此外,mHC在硬件效率方面也更优秀,仅产生6.27%的硬件开销,而超连接会显著增加内存需求。

Q3:残差连接和超连接是什么关系?

A:残差连接是2015年发明的梯度管理机制,允许梯度直接在距离较远的AI层间传播。超连接是去年9月推出的残差连接替代方案,解决了残差连接的一些不足但有自身局限。mHC则是超连接的增强实现版本。

相关内容

热门资讯

世界杯周边厂家避雷指南:AI设... 四年一届的世界杯点燃了球迷的热情,也让足球周边市场再次“起飞”。在比赛前进行的开幕式上,泡泡玛特旗下...
AI算力催生供电新需求 康迪科... 封面新闻记者付文超6月29日,康迪科技集团宣布,已完成对杭州信储新能源科技有限公司(简称“信储”)5...
康迪科技战略控股信储新能源,拓... 新京报贝壳财经讯(记者陈维城)6月29日,康迪科技宣布完成对信储新能源2000万元战略投资,以51%...
AI与真人微短剧实拍混合制作成... 主编温静导读:AI与真人实拍混合制作模式,不只是技术层面的简单叠加,更是微短剧生产工业、内容创作逻辑...
AI智能戒指可翻译手语,准确率... 一项最新研究发现,通过无线连接AI系统的电子戒指,能够将多种手语翻译成文字。韩国首尔延世大学电气与电...
事关AI,国常会最新部署 来源:新华社李强主持召开国务院常务会议听取人工智能发展情况汇报研究当前外贸形势和贸易强国建设有关工作...
金宏气体涨13.54%,开源证... 今日金宏气体(688106)涨13.54%,收盘报39.17元。2026年4月2日,开源证券研究员陈...
百利天恒涨13.11%,开源证... 今日百利天恒(688506)涨13.11%,收盘报297.01元。2026年4月29日,开源证券研究...
macOS 27 Beta 实... 一、基础概况系统名称:macOS27GoldenGate,于2026年6月8日苹果WWDC开发者大会...
从“硬件平权”到“AI平权” ... 中国软件网曹开彬今年的“618”,对于我这个AMD中国AI应用创新联盟的兼任秘书长来说,是一个有着非...