ZPedia｜Kimi K2 Thinking开源反超顶尖闭源模型，训练成本仅460万美元_社区互动

ZPedia｜Kimi K2 Thinking开源反超顶尖闭源模型，训练成本仅460万美元

创始人

2025-11-08 06:16:50

0次

如果有关注近期资本市场的新闻，「月之暗面」的名字又开始刷屏了。

多家媒体报道，这家公司正在敲定一笔数亿美元的新一轮融资。

而就在最新一轮融资传闻四起的时间点上，月之暗面把自己的新故事端了上来：一款号称是「迄今为止能力最强的开源思考模型」——Kimi K2 Thinking。

这次他们没有只做一个「更聪明一点」的聊天机器人，而是把K2 Thinking 定位成一个原生的Thinking Agent：可以一边思考一边调度搜索、浏览、写代码等工具，在复杂任务上，自己拆解步骤、自己查资料、自己写脚本。

官方和第三方评测显示，它在Humanity’s Last Exam、BrowseComp、SEAL-0 等一批高难度基准上，直接把不少闭源旗舰模型按在了身后。

在资金重新押注、估值重新抬升的当口，月之暗面试图用一个真正能「打赢闭源」的开源模型，去换回技术叙事里的主动权。

从「国产 SOTA」到开源正面超车闭源

把官方文案和外部评测拆开看，会发现Kimi K2 Thinking 有一个非常鲜明的设计前提：它不是先做一个语言模型，再往外「外挂」Agent 能力，而是从第一天就被当成一个「模型即Agent」的内核来训练。

K2 Thinking 基于此前的Kimi K2 架构：总参数量约1 万亿，是一个稀疏MoE模型，但每次推理只激活约320 亿参数，这一设计在GitHub 与Hugging Face 的模型卡中都有披露。

预训练规模则来自月之暗面的技术报告：K2 在15.5 万亿Token 上完成训练，采用Muon 优化器、QK-Clip 等一整套「为超大规模准备的」训练技巧，解决了大Token 量、长时间训练下的稳定性问题。

在此基础上，K2 Thinking 做了两层关键强化。

第一层是推理深度。Kimi 自己在技术页面上给出的数据是：K2 Thinking 能稳定完成200 到300 轮工具调用，在整个过程中保持逻辑一致，不会因为「思考太久」而崩溃。这其实就是Test-Time Scaling 的一个极端版本：不再只强调「模型大不大、训练多不多」，而是强调在测试时能否持续延长思考链条，把工具调度也算进「推理的一部分」。

第二层是工具使用的原生化。在K2 Thinking 的设定里，搜索网页、打开SEC 公告、写Python、小步调试脚本，都不是外挂能力，而是真正融入到策略里的一部分。在官方展示的示例中，K2 Thinking 会自动先判断问题适不适合查资料，再决定是先搜一轮新闻，还是直接打开官方文档，然后根据每一步新获得的信息，重写自己的假设与下一步计划。

正是这种「思考+工具」的打包设计，让它在一组专门为Agent 设计的基准上打出了极高的分数。

在Humanity’s Last Exam 上，K2 Thinking 在允许使用工具的条件下拿到了44.9% 的成绩，官方和VentureBeat 都把它标成了新的SOTA。这套题跨越一百多个专业领域，本意是测「如果你把AI 当成一个可以上场考试的研究员，它能考到几分」。早前在同一任务上，领先的闭源模型大多集中在40% 左右，这一次K2 Thinking 不只把国产模型甩在身后，也把不少闭源旗舰平推了一截。

在BrowseComp 这项网络浏览基准上，这种优势更加明显。BrowseComp 原本是OpenAI 为了考察Agent「像研究员一样刨根问底」的能力设计的，题目要求模型在信息噪音极多的网页环境中，自己规划搜索路径、筛选证据，给出可验证的结论。这套任务上，人类研究员的平均分也只有二十多分，而K2 Thinking 在最新公开数据里交出的是60.2% 的成绩，超过了最强的闭源模型GPT-5和Claude Sonnet 4.5。

对一个开源模型而言，这里有一个非常微妙的「视角切换」。过去提到「国产SOTA」，大家默认的补全句是：在ChatGPT、Claude 这些闭源前沿模型之下，国产追到了它们身后、或者在部分维度赶上。而在K2 Thinking 的多项评测中，叙事第一次变成了：在最考验Agentic 推理能力的几项任务上，开源模型开始压过闭源旗舰。

这不是媒体一家之言。

Hugging Face 有一篇博客在7 月专门写过一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》，点名Kimi K2 在开源社区上线24 小时内，冲到了平台Trending 榜单第一，靠的是在编码任务上的表现直接超过了GPT-4，并且开源了完整权重。

到了K2 Thinking 发布这一次，HuggingFace CEO Clément Delangue 在LinkedIn上的评论更直接，他说，看着Moonshot/Kimi 团队「几乎出现在每一次社区讨论、每一个Pull Request 里」，是一件很美好的事。这句话的潜台词是，在开源基础设施的建设上，月之暗面不再只是一个偶尔贡献模型的「外来者」，而是一个真正深度参与、被全球工程社区认可的一方。

HuggingFace 联合创始人Thomas Wolf 甚至表示，我们正在见证又一次DeepSeek 时刻：

有趣的是，个人开发者手里的体验也在印证这些数字。LocalLLaMA 社区里有工程师复现了一部分评测，发现K2 Thinking 在Humanity’s Last Exam、BrowseComp 上确实跑出了类似成绩，甚至在GPQA-Diamond 这类高难问答上略微超过GPT-5。当然，GPT-5 和Claude 在其他很多综合测试、尤其是长上下文稳定性上依然有优势，但至少在「让一个模型像研究员和工程师一样干活」这件事上，开源阵营终于不再只是追随者。

综合下来，这更像是中国开源阵营端出的一块「前沿Agent 中枢」：在核心能力上不再刻意回避闭源，而是主动站到最硬的那几项任务之上。

在黄仁勋的「主权AI」叙事里，中国走出了另一条路

如果只看能力，很容易把K2 Thinking 当成「中国版的GPT-5 开源平替」：参数级别、推理水平、编码能力都在快速接近。但真正意义上的差异，在于它背后的成本结构与算力路径。

南华早报等媒体曾经援引Moonshot 内部人士说，K2 的整体研发成本「只花了西方巨头一小部分的钱」，用的是MoE+优化器+工程打磨的组合拳，而不是把钱直接堆在GPU 数量上。

在K2 Thinking 这一代，月之暗面在推理效率上又做了一件挺有象征意义的事：把原生INT4 量化做到大规模思考模型上。官方技术说明写得很直白，普通的低比特量化在「思考模型」上往往会造成性能雪崩，因为这类模型的输出序列极长、对数值精度极其敏感。月之暗面为此在后训练阶段引入了量化感知训练（QAT），并对MoE 模块做了专门的INT4 纯权重量化，使得K2 Thinking 能在保留复杂推理和Agent 能力的前提下，把推理速度提升至原来的两倍左右。官方还特别加了一句：这种INT4 方案对国产加速芯片会更加友好。

据CNBC 的报道，K2 Thinking 的整体训练成本大约为460 万美元——只有OpenAI 或xAI 训练GPT-5、Grok 等模型成本的1% 左右。换句话说，这家被美国多方打压、芯片采购受限的中国公司，用几百分之一的预算，做出了在多项关键基准测试中击败Sam Altman 和Elon Musk 团队的模型。

如果把这条技术路线放在更大的「中美AI 竞赛」背景下，意味就完全不同了。

一边是以OpenAI 为代表的美国阵营，公开承诺在未来几年投入高达1.4 万亿美元建设AI 基础设施，配合微软、亚马逊、谷歌的巨量数据中心建设，把赌注压在「超大规模闭源系统」上。另一边，则是像Kimi 这样的一批中国创业公司，用MoE、量化、数据重写等手段把成本拧到极致，在有限的算力预算下榨出更高的性价比，然后再把模型权重开源出去，让更多人站在这条「成本曲线」上往前走。

这个对照，和黄仁勋近期的发言，形成了某种呼应。他在伦敦的一场峰会上把话说得透彻：如果美国继续用出口管制、芯片封锁等方式来处理中国，「中国很可能会赢下这场AI 竞赛」。随后英伟达公关部门出了澄清，强调他的本意是美国应该加速创新、赢得全球开发者，但「中国只落后几纳秒」和「如果政策不改，中国会赢」这两层意思，并没有被否认。

结合这一点再看K2 Thinking，就会发现，它实际上代表的是中国在这场竞赛里走出的一条「非对称路线」。

一方面，在核心能力上，K2 Thinking 用开源的方式，在Humanity’s Last Exam、BrowseComp等多项高难Agent 评测中压过了不少闭源旗舰，证明中国团队完全有能力在最硬的技术战场上正面碰撞。

另一方面，在成本和生态上，它又刻意拉开了和闭源巨头的距离：训练阶段用MoE 和优化器控制投入规模；推理阶段用INT4 和工程优化做好国产算力兼容；分发阶段用开放权重的方式，把模型放上Hugging Face 与国内开源平台，让更多团队可以直接拿来做Agent、做应用。

如果说黄仁勋口中的「主权AI」，是鼓励各国砸钱建自己的数据中心、堆自己的GPU 集群，那么K2 Thinking 代表的，则是一种「轻一点但更聪明」的方案：在不拥有最多GPU 的前提下，用更聪明的架构和更开放的生态，让自己的模型足够强、足够便宜、足够容易被全球开发者采用。

这也是为什么，最近几年你会看到越来越多西方分析文章谈「来自中国的开源威胁」：从DeepSeek到通义，再到Kimi，很多模型的共同点是——性能逼近甚至超越闭源旗舰，但API 价格只有后者的几分之一，还附带开放权重。

对月之暗面自己而言，K2 Thinking 给它带来的直接收益当然是更高的商业想象力和融资空间：在投融资降温的一年里，一家公司能在估值30 多亿美元的基础上，紧接着拿到新一轮数亿美元、本身就是一种投票。

参考文献：

[1] https://moonshotai.github.io/

欢迎扫码加群参与讨论

--------

Agent 闭源 ZPedia 模型训练 Kimi 工具官方思考任务暗面

上一篇：科创生物涨1.51%，开源证券一周前给出“买入”评级

下一篇：Salesforce签署排他性协议，将收购Spindle AI

ZPedia｜Kimi K2 Thinking开源反超顶尖闭源模型，训练成本仅460万美元

相关内容

热门资讯