小米大模型：不谈“颠覆”，只谈“活着”的性价比

近日，小米发布并开源了最新MoE大模型MiMo-V2-Flash。老实说，当看到“309B参数”这个数字时，下意识的反应是：也不是太大呀。

但如果我们把目前主流的开源模型按总参数量画一个金字塔，那么MiMo-V2-Flash (309B) 也处于塔第一梯队：DeepSeek-V3/R1: 总参数 671B（MoE架构）；Llama 3.1 405B: 总参数 405B（稠密模型）；Grok-1: 总参数 314B（MoE架构）；Qwen3：总参数235B激活参数22B (MoE)。

而细看“激活参数15B”，那股熟悉的“小米味儿”立马就回来了。

虽然罗福莉在演讲时说到了MiMo-V2-Flash在代码和Agent测评基准测试中的表现，但核心还是那句“极致推理效率”。AI资本局认为，MiMo-V2-Flash不是一个为了在榜单上刷分、或者为了写诗作画而生的模型。这是一个带着点“过日子”精打细算的工程产物。在如今言必称“AGI”的宏大叙事里，小米这步棋走得很像当年的红米手机——不谈星辰大海，先让你用得起、跑得动。

309B的外壳，15B的心跳

MiMo-V2-Flash 这个架构很有意思。总参数3090亿，保证了它的“脑容量”，知识覆盖面够广；但干活的时候，每次只调动150亿参数。就像雇了一个拥有300人智库的机构，但平时处理具体任务时，只派最懂行的15个人出面。

为什么要这么做？为了速度和成本。

对于卖手机、卖车的小米来说，“反应慢”是致命的。想象一下，你开着小米SU7，喊一声“帮我规划路线”，如果车机要反应3秒钟才能回答，你可能早就错过路口了。

15B的激活参数，恰好卡在高性能边缘计算和低成本云端推理的“甜点区”，Qwen用在AI眼镜上的模型，也在这个区间。它比纯粹的端侧小模型要聪明，又足够快，所以叫Flash。小米要的不是一个高高在上的“智者”，而是一个能塞进车机、塞进手机助手里，甚至未来塞进机器人里的“熟练工”。

醉翁之意不在“聊”，在“OS”

很用户看大模型，盯着看它能不能写代码、能不能写周报。但对小米来说，MiMo-V2-Flash的战场不在聊天框里。

雷军现在手里的牌是“人车家全生态”。这个生态最缺的是什么？是粘合剂。

以前的智能家居和车机，所谓的“智能”其实是“指令集”——你得按特定的句式说话它才听得懂。而大模型是用来把这些硬件变成“Agent”的。

小米这次特意强调了“Agent场景”和“代码能力”以及物理世界感知，这非常关键。这意味着在这个模型眼里，你的手机不仅仅是一个问答机器，而是一个能调用APP、能操作系统，且能够跟物理世界直接交互的工具人。

DeepSeek也好，Qwen也好，它们在通用领域很强，但它们还没有硬件入口。小米有数以亿计的手机和50万台在路上跑的小米汽车，它需要一个自家的、可控的、成本极低的模型来接管这些设备的底层交互，这样大模型在操作系统层面的“全天候待机”才有经济上的可能性。

雷军为何选择开源？