神秘爆款模型被小米认领！雷军直言超过马斯克 xAI Grok，罗福莉透露MiMo-V2-Pro将开源_社区互动

神秘爆款模型被小米认领！雷军直言超过马斯克 xAI Grok，罗福莉透露MiMo-V2-Pro将开源

创始人

2026-03-19 13:16:01

0次

整理 | 褚杏娟

最近，那个被广泛好评、并占领 OpenRouter 调用量榜单第一的神秘模型 Hunter Alpha，终于被正式认领了。

今天，小米正式发布 MiMo-V2 家族三款新模型：MiMo-V2-Pro、MiMo-V2-Omni 和 MiMo-V2-TTS。与此同时，小米也首次确认，此前外界热议的匿名模型 Hunter Alpha，正是 MiMo-V2-Pro 的早期内部测试版本；而另一个神秘模型 Healer Alpha，则对应 MiMo-V2-Omni。

“一周前，代号为 Hunter Alpha 的匿名模型上线全球最大的 API 聚合平台 OpenRouter。上线后，其调用量持续上涨，连续多天登顶日榜，累计调用量已突破 1T tokens。而 Hunter Alpha 正是 MiMo-V2-Pro 的早期内部测试版本。经过一周持续迭代和优化，MiMo-V2-Pro 在长文能力以及 Agent 场景稳定性方面获得了显著提升。”小米在官方介绍中写道。

这次发布，雷军也亲自为新品站台。他表示，MiMo-V2-Pro 的榜单表现已经超过马斯克旗下 xAI 的 Grok，并直言：“我们在 AI 领域一直相对比较低调，但实际进展可能比大家看到的要快很多。在 AI 领域，我们今年的研发和资本投入将超过 160 亿元。”

同时，罗福莉也在推特发文分享了研发过程中的感受，也透露出未来模型会开源：

MiMo-V2-Pro、Omni 和 TTS 已经发布了。这是我们第一套真正为 Agent 时代打造的全栈模型家族。

我把这称作一次“安静的突袭”。不是因为我们早有预谋，而是因为从 Chat 范式转向 Agent 范式的速度实在太快了，快到连我们自己都几乎不敢相信。其间经历的整个过程，让人既兴奋又痛苦，同时也极其迷人。

这个 1T 基座模型其实几个月前就已经开始训练了。最初的目标，是提升长上下文推理效率。Hybrid Attention 确实带来了真正的创新，而且并没有用力过猛；后来我们才发现，它恰好成了 Agent 时代最合适的基础。100 万上下文窗口，配合 MTP 推理，实现了极低延迟和低成本。这些架构决策当时并不算时髦，但它们后来证明，正是我们在真正需要之前就提前构建好的结构性优势。

真正改变一切的，是我第一次体验到一个复杂的 agentic scaffold：我更愿意把它叫作“编排式上下文”。第一天我就被震住了。我试图说服团队去用它，但没成功。于是我直接下了死命令：MiMo 团队里，谁到明天为止还没有完成 100 次对话，谁就可以走人。结果证明，这招奏效了。团队一旦真正被 agentic system 所能做到的事点燃想象力，这种想象力就会立刻转化成研究推进的速度。

很多人问我们为什么推进得这么快。我在做 DeepSeek R1 的时候已经亲眼见过一次，我的真实总结是：

底座模型和基础设施研究周期很长，你必须在回报出现前一年，就先有战略判断和投入决心。后训练阶段的敏捷性，则是完全不同的一种能力：靠产品直觉驱动评估，把迭代周期压缩到极致，尽早捕捉范式变化。而始终不变的部分，是好奇心、敏锐的技术直觉、果断的执行力、全力以赴的投入，以及还有一点很容易被低估：你必须真心热爱你正在为之构建的那个世界。

等这些模型稳定到真正配得上开源的时候，我们会把它们开源出来。

发自北京，深夜，很晚了，人还没完全清醒。

当前，MiMo-V2-Pro 模型已正式开放 API 服务，支持 1M 上下文长度，并根据使用量分段计价：

256K 上下文以内：输入 1 美元（约合 6.87 人民币） / 百万 tokens，输出 3 美元（约合 20.62 人民币） / 百万 tokens
1M 上下文以内：输入 2 美元（约合 13.75 人民币） / 百万 tokens，输出 6 美元（约合 41.24 人民币） / 百万 tokens

与智谱最近也面向真实 Agent 长链路任务深度优化的模型 GLM-5-Turbo 相比，小米的模型定价整体略高。不过，此前 Hunter Alpha 在 Claw-Eval 测试中击败了 GLM-5。

1为高强度 Agent 场景而生的旗舰模型

在三款模型中，最受关注的显然是 MiMo-V2-Pro。这款模型在匿名测试阶段就已经引起了大量关注，甚至 OpenClaw 也都早早支持了该模型。

根据官方介绍，MiMo-V2-Pro 专为现实世界中高强度的 Agent 工作场景打造，总参数量超过 1T，激活参数为 42B，采用创新的混合注意力架构，并支持 1M 超长上下文。同时，团队还在更广泛的 Agent 场景中持续进行算力 Scaling，进一步拓展了模型的动作空间，实现了从 Coding 到 Claw 的关键泛化。

在大模型综合智能排行榜 Artificial Analysis 上，MiMo-V2-Pro 位列全球第八、国内第二。

从实际使用表现看，MiMo-V2-Pro 在 OpenClaw、Claude Code 等智能体框架中展现出了突出的端到端任务完成能力，能够在较少人工干预的情况下完成复杂工作流编排、长程规划和精准工具调用，还能持续可靠地交付最终结果。官方称，其整体使用体感已经超越 Claude Sonnet 4.6，逼近 Claude Opus 4.6，但 API 定价仅为后者的 1/5，大幅拉低了前沿智能的使用门槛。

从技术规格来看，MiMo-V2-Pro 相比前代 MiMo-V2-Flash，总参数量扩大了约 3 倍。它延续了前代的 Hybrid Attention 机制，并将混合比例从 5:1 提升到 7:1，在参数规模显著增大的同时依然维持了较高推理效率，并支持 1M 级别的超长上下文。与此同时，轻量级 MTP（Multi Token Prediction）层也进一步提升了生成速度。

更重要的是，MiMo-V2-Pro 的目标已经不再局限于“回答问题”或“生成 Demo”，而是转向“完成任务”。在后训练阶段，团队针对更广泛的 Agent 场景进行了持续 Scaling，使模型逐渐能够胜任真实生产环境中的复杂执行工作，并朝着“生产力系统的大脑”这一定位推进。

在多项关键基准测试中，MiMo-V2-Pro 的 Coding Agent、通用 Agent、Tool Use 等能力，已经与 Claude Sonnet 4.6、GPT-5.2、Gemini 3.0 Pro 处于同一梯队。小米表示，团队始终坚持以“实际体感”为导向进行训练优化，重点关注模型在真实应用场景中的落地表现。

Pro：重点关注 Agent、编程

从官方对外传递的信息看，MiMo-V2-Pro 最明确的定位，就是一款“为 Agent 而生的旗舰模型”。

近期高度关注的通用智能体框架 OpenClaw，正是这种能力的代表性场景。作为支撑这类框架的底层模型，模型本身的能力上限会直接决定整套系统的业务表现。针对这类复杂、多样的 Agent Scaffold，MiMo-V2-Pro 在 SFT 和 RL 阶段进行了专门优化，因此具备更强的工具调用能力与多步推理能力。

在 OpenClaw 相关标准评测榜单 PinchBench、ClawEval 上，MiMo-V2-Pro 的表现处于全球顶尖水平。再加上 1M 上下文窗口的优势，这款模型可以更加从容地支撑高强度、复杂的真实 Claw 应用流。

小米还提到，在早期测试阶段，也就是 Hunter Alpha 版本期间，来自社区的真实反馈显示，绝大多数使用场景下，效果都已经超过 Claude Sonnet 4.6。这也解释了它为什么能在 OpenRouter 上迅速走红。

编程也是 MiMo-V2-Pro 重点发力方向之一。

根据小米内部工程师的深度评测，MiMo-V2-Pro 的整体体验已经接近 Claude Opus 4.6，并在系统设计、任务规划、代码风格以及问题解决路径上展现出更高阶的代码智能。官方还表示，在 Hunter Alpha 的测试阶段，调用量最高的几款应用大多是编程工具，这也从侧面说明 MiMo-V2-Pro 在真实研发场景中已经具备了较高的可用性和可靠性。

在 OpenClaw 里，Pro 生成的网页

同时，小米宣布，MiMo-V2-Pro 将联合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

Omni：关注全模态交互

与 Hunter Alpha 对应的另一款匿名模型 Healer Alpha，这次也终于揭开真身，它就是 MiMo-V2-Omni。

如果说 MiMo-V2-Pro 的核心任务是强化 Agent 执行能力，那么 MiMo-V2-Omni 则更进一步，瞄准的是现实世界中复杂的多模态交互与执行场景。

在音频理解方面，MiMo-V2-Omni 支持从环境声分类、多说话人分离，到音频—视觉联合推理，再到超过 10 小时长音频的连续理解。官方称，其综合表现超过 Gemini 3 Pro，是当前最强的音频理解基座模型之一。
在图像理解方面，MiMo-V2-Omni 展现出强大的多学科视觉推理与复杂图表分析能力，官方称其效果已经超过 Claude Opus 4.6，逼近 Gemini 3 Pro 等顶尖闭源模型。
在视频理解方面，MiMo-V2-Omni 支持原生音视频联合输入，实现真正意义上的多模态视频理解。通过创新性的视频预训练，模型具备了更强的情境感知与未来推理能力。

小米表示，在与真实数字环境交互的评测基准上，MiMo-V2-Omni 的整体表现已经比肩 Gemini 3 Pro。其前沿感知能力与原生训练的行动能力结合后，形成了明显的复合优势：感知越准确，行动就越有效。

目前，MiMo-V2-Omni 已正式开放 API 服务，支持 256K 上下文长度，定价为：

输入 0.4 美元（约合 2.75 / 人民币）/ 百万 tokens
输出 2 美元（约合 13.75 人民币） / 百万 tokens

同时，小米也将联合 OpenClaw、OpenCode、KiloCode、Blackbox、Cline 等五大 Agent 开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

TTS：面向高表现力语音生成

除了 Pro 和 Omni，这次一同发布的还有语音合成模型 MiMo-V2-TTS。

这是一款由小米自研的语音合成大模型，基于自研 Audio Tokenizer 与多码本语音—文本联合建模架构，经过上亿小时语音数据的大规模预训练和多维度强化学习，具备高度可控的多粒度语音风格控制能力。

按照官方说法，MiMo-V2-TTS 不仅可以完成整体风格定调，也能对局部情绪表达进行精准调节。从训练路径看，MiMo-V2-TTS 先通过超大规模语音—文本混合预训练，建立起较强的跨模态对齐、理解和生成能力；随后再通过少量高质量监督数据微调，获得可泛化的多粒度、多风格指令控制能力。小米在预训练中使用的语音数据量突破上亿小时。

为了进一步激发模型在预训练阶段积累的高表现力语音生成潜力，团队又引入了多维度强化学习，重点围绕更自然的韵律、更稳定的音质、更准确的字词表达、更高质量的音色克隆，以及不同场景下更合适的语气与表达方式进行持续优化。

此外，得益于多层码本建模架构，MiMo-V2-TTS 能够在高保真的离散 token 空间中建模语音，最大限度保留原始语音中的丰富信息，也让强化学习阶段可以更直接地利用语音相关奖励信号对模型进行优化，从而让多维奖励更有效地作用于生成过程。

2结束语

小米这次释放出的信号其实非常明确，它押注是一套面向 Agent 时代的通用智能底座。而此次匿名爆红，压力就给到了 DeepSeek，此前人们纷纷猜测 Healer Alpha 是 V4。虽然此前就有人测试在去掉系统提示词后自我认知都是 Mimo，通过分词器里的特殊 token，也能直接确定就是 Mimo，但谜底正式揭晓后有人直呼小米成为“万亿参数的隐形冠军”。

不过，近日白鲸实验室报道称，DeepSeek-V4 将于 4 月正式上线。作为梁文锋打磨已久的多模态大模型，DeepSeek-V4 除了在 Coding 能力上跃升之外，还将在 LTM（long term memory 长期记忆）上取得突破。这恰好也是智能体当前的短板之一。据报道，梁文锋近半年的主要工作是补齐 DeepSeek 此前在视觉内容处理，以及 AI 搜索等方面的短板。为了强化 DeepSeek 的 AI 搜索能力，DeepSeek 早在去年就与百度合作。

对于已经很久没有非常重磅发布的 DeepSeek 来说，4 月份的发布已经吊足了人们的胃口。而随着国内各模型厂家的战略和人才调整，今年国内大模型市场应该会非常热闹。

参考链接：

会议推荐

OpenClaw 出圈，“养虾”潮狂热，开年 Agentic AI 这把火烧得不可谓不旺。在这一热潮下，自托管 Agent 形态迅速普及：多入口对话、持久记忆、Skills 工具链带来强大生产力。但这背后也暴露了工程化落地的真实难题——权限边界与隔离运行、Skills 供应链安全、可观测与可追溯、记忆分层与跨场景污染、以及如何把 Agent 纳入团队研发 / 运维流程并形成稳定收益。

针对这一系列挑战，在 4 月 16-18 日即将举办的 QCon 北京站上，我们特别策划了「OpenClaw 生态实践」专题，将聚焦一线实践与踩坑复盘，分享企业如何构建私有 Skills、制定安全护栏、搭建审计与回放机制、建立质量 / 效率指标体系，最终把自托管 Agent 从可用的 Demo 升级为可靠的生产系统。

Agent -Pro Grok MiMo-V 雷军模型上下文马斯克罗福莉小米 Omni Pro

上一篇：苹果 macOS 26.4 RC 发布：新增“充电上限”功能、Safari 浏览器重新引入紧凑标签页布局

下一篇：从“学AI”到“用AI做科研”

神秘爆款模型被小米认领！雷军直言超过马斯克 xAI Grok，罗福莉透露MiMo-V2-Pro将开源

相关内容

热门资讯