ZPedia|Kimi K2 Thinking开源反超顶尖闭源模型,训练成本仅460万美元
创始人
2025-11-08 06:16:50
0

如果有关注近期资本市场的新闻,「月之暗面」的名字又开始刷屏了。

多家媒体报道,这家公司正在敲定一笔数亿美元的新一轮融资。

而就在最新一轮融资传闻四起的时间点上,月之暗面把自己的新故事端了上来:一款号称是「迄今为止能力最强的开源思考模型」——Kimi K2 Thinking

这次他们没有只做一个「更聪明一点」的聊天机器人,而是把K2 Thinking 定位成一个原生的Thinking Agent:可以一边思考一边调度搜索、浏览、写代码等工具,在复杂任务上,自己拆解步骤、自己查资料、自己写脚本。

官方和第三方评测显示,它在Humanity’s Last ExamBrowseCompSEAL-0 等一批高难度基准上,直接把不少闭源旗舰模型按在了身后。

在资金重新押注、估值重新抬升的当口,月之暗面试图用一个真正能「打赢闭源」的开源模型,去换回技术叙事里的主动权。

从「国产 SOTA」到开源正面超车闭源

把官方文案和外部评测拆开看,会发现Kimi K2 Thinking 有一个非常鲜明的设计前提:它不是先做一个语言模型,再往外「外挂」Agent 能力,而是从第一天就被当成一个「模型即Agent」的内核来训练。

K2 Thinking 基于此前的Kimi K2 架构:总参数量约1 万亿,是一个稀疏MoE模型,但每次推理只激活约320 亿参数,这一设计在GitHub Hugging Face 的模型卡中都有披露。

预训练规模则来自月之暗面的技术报告:K2 15.5 万亿Token 上完成训练,采用Muon 优化器、QK-Clip 等一整套「为超大规模准备的」训练技巧,解决了大Token 量、长时间训练下的稳定性问题。

在此基础上,K2 Thinking 做了两层关键强化。

第一层是推理深度Kimi 自己在技术页面上给出的数据是:K2 Thinking 能稳定完成200 300 轮工具调用,在整个过程中保持逻辑一致,不会因为「思考太久」而崩溃。这其实就是Test-Time Scaling 的一个极端版本:不再只强调「模型大不大、训练多不多」,而是强调在测试时能否持续延长思考链条,把工具调度也算进「推理的一部分」。

第二层是工具使用的原生化K2 Thinking 的设定里,搜索网页、打开SEC 公告、写Python、小步调试脚本,都不是外挂能力,而是真正融入到策略里的一部分。在官方展示的示例中,K2 Thinking 会自动先判断问题适不适合查资料,再决定是先搜一轮新闻,还是直接打开官方文档,然后根据每一步新获得的信息,重写自己的假设与下一步计划。

正是这种「思考+工具」的打包设计,让它在一组专门为Agent 设计的基准上打出了极高的分数。

Humanity’s Last Exam 上,K2 Thinking 在允许使用工具的条件下拿到了44.9% 的成绩,官方和VentureBeat 都把它标成了新的SOTA。这套题跨越一百多个专业领域,本意是测「如果你把AI 当成一个可以上场考试的研究员,它能考到几分」。早前在同一任务上,领先的闭源模型大多集中在40% 左右,这一次K2 Thinking 不只把国产模型甩在身后,也把不少闭源旗舰平推了一截。

BrowseComp 这项网络浏览基准上,这种优势更加明显。BrowseComp 原本是OpenAI 为了考察Agent「像研究员一样刨根问底」的能力设计的,题目要求模型在信息噪音极多的网页环境中,自己规划搜索路径、筛选证据,给出可验证的结论。这套任务上,人类研究员的平均分也只有二十多分,而K2 Thinking 在最新公开数据里交出的是60.2% 的成绩,超过了最强的闭源模型GPT-5Claude Sonnet 4.5

对一个开源模型而言,这里有一个非常微妙的「视角切换」。过去提到「国产SOTA」,大家默认的补全句是:在ChatGPTClaude 这些闭源前沿模型之下,国产追到了它们身后、或者在部分维度赶上。而在K2 Thinking 的多项评测中,叙事第一次变成了:在最考验Agentic 推理能力的几项任务上,开源模型开始压过闭源旗舰。

这不是媒体一家之言。

Hugging Face 有一篇博客在7 月专门写过一篇《5 Things You Need to Know About Moonshot AI and Kimi K2》,点名Kimi K2 在开源社区上线24 小时内,冲到了平台Trending 榜单第一,靠的是在编码任务上的表现直接超过了GPT-4,并且开源了完整权重。

到了K2 Thinking 发布这一次,HuggingFace CEO Clément Delangue LinkedIn上的评论更直接,他说,看着Moonshot/Kimi 团队「几乎出现在每一次社区讨论、每一个Pull Request 里」,是一件很美好的事。 这句话的潜台词是,在开源基础设施的建设上,月之暗面不再只是一个偶尔贡献模型的「外来者」,而是一个真正深度参与、被全球工程社区认可的一方。

HuggingFace 联合创始人Thomas Wolf 甚至表示,我们正在见证又一次DeepSeek 时刻:

有趣的是,个人开发者手里的体验也在印证这些数字。LocalLLaMA 社区里有工程师复现了一部分评测,发现K2 Thinking Humanity’s Last ExamBrowseComp 上确实跑出了类似成绩,甚至在GPQA-Diamond 这类高难问答上略微超过GPT-5。当然,GPT-5 Claude 在其他很多综合测试、尤其是长上下文稳定性上依然有优势,但至少在「让一个模型像研究员和工程师一样干活」这件事上,开源阵营终于不再只是追随者。

综合下来,这更像是中国开源阵营端出的一块「前沿Agent 中枢」:在核心能力上不再刻意回避闭源,而是主动站到最硬的那几项任务之上。

在黄仁勋的「主权AI」叙事里,中国走出了另一条路

如果只看能力,很容易把K2 Thinking 当成「中国版的GPT-5 开源平替」:参数级别、推理水平、编码能力都在快速接近。但真正意义上的差异,在于它背后的成本结构与算力路径

南华早报等媒体曾经援引Moonshot 内部人士说,K2 的整体研发成本「只花了西方巨头一小部分的钱」,用的是MoE+优化器+工程打磨的组合拳,而不是把钱直接堆在GPU 数量上。

K2 Thinking 这一代,月之暗面在推理效率上又做了一件挺有象征意义的事:把原生INT4 量化做到大规模思考模型上。官方技术说明写得很直白,普通的低比特量化在「思考模型」上往往会造成性能雪崩,因为这类模型的输出序列极长、对数值精度极其敏感。月之暗面为此在后训练阶段引入了量化感知训练(QAT),并对MoE 模块做了专门的INT4 纯权重量化,使得K2 Thinking 能在保留复杂推理和Agent 能力的前提下,把推理速度提升至原来的两倍左右。 官方还特别加了一句:这种INT4 方案对国产加速芯片会更加友好。

CNBC 的报道,K2 Thinking 的整体训练成本大约为460 万美元——只有OpenAI xAI 训练GPT-5Grok 等模型成本的1% 左右。换句话说,这家被美国多方打压、芯片采购受限的中国公司,用几百分之一的预算,做出了在多项关键基准测试中击败Sam Altman Elon Musk 团队的模型。

如果把这条技术路线放在更大的「中美AI 竞赛」背景下,意味就完全不同了。

一边是以OpenAI 为代表的美国阵营,公开承诺在未来几年投入高达1.4 万亿美元建设AI 基础设施,配合微软、亚马逊、谷歌的巨量数据中心建设,把赌注压在「超大规模闭源系统」上。另一边,则是像Kimi 这样的一批中国创业公司,用MoE、量化、数据重写等手段把成本拧到极致,在有限的算力预算下榨出更高的性价比,然后再把模型权重开源出去,让更多人站在这条「成本曲线」上往前走。

这个对照,和黄仁勋近期的发言,形成了某种呼应。他在伦敦的一场峰会上把话说得透彻:如果美国继续用出口管制、芯片封锁等方式来处理中国,「中国很可能会赢下这场AI 竞赛」。随后英伟达公关部门出了澄清,强调他的本意是美国应该加速创新、赢得全球开发者,但「中国只落后几纳秒」和「如果政策不改,中国会赢」这两层意思,并没有被否认。

结合这一点再看K2 Thinking,就会发现,它实际上代表的是中国在这场竞赛里走出的一条「非对称路线」。

一方面,在核心能力上,K2 Thinking 用开源的方式,在Humanity’s Last ExamBrowseComp等多项高难Agent 评测中压过了不少闭源旗舰,证明中国团队完全有能力在最硬的技术战场上正面碰撞。

另一方面,在成本和生态上,它又刻意拉开了和闭源巨头的距离:训练阶段用MoE 和优化器控制投入规模;推理阶段用INT4 和工程优化做好国产算力兼容;分发阶段用开放权重的方式,把模型放上Hugging Face 与国内开源平台,让更多团队可以直接拿来做Agent、做应用。

如果说黄仁勋口中的「主权AI」,是鼓励各国砸钱建自己的数据中心、堆自己的GPU 集群,那么K2 Thinking 代表的,则是一种「轻一点但更聪明」的方案:在不拥有最多GPU 的前提下,用更聪明的架构和更开放的生态,让自己的模型足够强、足够便宜、足够容易被全球开发者采用。

这也是为什么,最近几年你会看到越来越多西方分析文章谈「来自中国的开源威胁」:从DeepSeek到通义,再到Kimi,很多模型的共同点是——性能逼近甚至超越闭源旗舰,但API 价格只有后者的几分之一,还附带开放权重。

对月之暗面自己而言,K2 Thinking 给它带来的直接收益当然是更高的商业想象力和融资空间:在投融资降温的一年里,一家公司能在估值30 多亿美元的基础上,紧接着拿到新一轮数亿美元、本身就是一种投票。

参考文献:

[1] https://moonshotai.github.io/

欢迎扫码加群参与讨论

--------

相关内容