近日,小米发布并开源了最新MoE大模型MiMo-V2-Flash。老实说,当看到“309B参数”这个数字时,下意识的反应是:也不是太大呀。
但如果我们把目前主流的开源模型按总参数量画一个金字塔,那么MiMo-V2-Flash (309B) 也处于塔第一梯队:DeepSeek-V3/R1: 总参数 671B(MoE架构);Llama 3.1 405B: 总参数 405B(稠密模型);Grok-1: 总参数 314B(MoE架构);Qwen3:总参数235B激活参数22B (MoE)。
而细看“激活参数15B”,那股熟悉的“小米味儿”立马就回来了。
虽然罗福莉在演讲时说到了MiMo-V2-Flash在代码和Agent测评基准测试中的表现,但核心还是那句“极致推理效率”。AI资本局认为,MiMo-V2-Flash不是一个为了在榜单上刷分、或者为了写诗作画而生的模型。这是一个带着点“过日子”精打细算的工程产物。在如今言必称“AGI”的宏大叙事里,小米这步棋走得很像当年的红米手机——不谈星辰大海,先让你用得起、跑得动。
309B的外壳,15B的心跳
MiMo-V2-Flash 这个架构很有意思。总参数3090亿,保证了它的“脑容量”,知识覆盖面够广;但干活的时候,每次只调动150亿参数。就像雇了一个拥有300人智库的机构,但平时处理具体任务时,只派最懂行的15个人出面。
为什么要这么做?为了速度和成本。
对于卖手机、卖车的小米来说,“反应慢”是致命的。想象一下,你开着小米SU7,喊一声“帮我规划路线”,如果车机要反应3秒钟才能回答,你可能早就错过路口了。
15B的激活参数,恰好卡在高性能边缘计算和低成本云端推理的“甜点区”,Qwen用在AI眼镜上的模型,也在这个区间。它比纯粹的端侧小模型要聪明,又足够快,所以叫Flash。小米要的不是一个高高在上的“智者”,而是一个能塞进车机、塞进手机助手里,甚至未来塞进机器人里的“熟练工”。
醉翁之意不在“聊”,在“OS”
很用户看大模型,盯着看它能不能写代码、能不能写周报。但对小米来说,MiMo-V2-Flash的战场不在聊天框里。
雷军现在手里的牌是“人车家全生态”。这个生态最缺的是什么?是粘合剂。
以前的智能家居和车机,所谓的“智能”其实是“指令集”——你得按特定的句式说话它才听得懂。而大模型是用来把这些硬件变成“Agent”的。
小米这次特意强调了“Agent场景”和“代码能力”以及物理世界感知,这非常关键。这意味着在这个模型眼里,你的手机不仅仅是一个问答机器,而是一个能调用APP、能操作系统,且能够跟物理世界直接交互的工具人。
DeepSeek也好,Qwen也好,它们在通用领域很强,但它们还没有硬件入口。小米有数以亿计的手机和50万台在路上跑的小米汽车,它需要一个自家的、可控的、成本极低的模型来接管这些设备的底层交互,这样大模型在操作系统层面的“全天候待机”才有经济上的可能性。
雷军为何选择开源?
最后说说开源。小米为什么要把这么大的模型开源?
AI资本局认为,除了“技术自信”这种场面话,更深层的原因是:焦虑。
在国内,阿里千问和DeepSeek在开源社区的统治力太强了。开发者习惯了用Qwen微调,习惯了DeepSeek的生态,这对小米的HyperOS生态是个威胁。如果未来的AI原生应用都是基于别人的基座开发的,小米在系统层面的话语权就会被稀释。
把MiMo-V2-Flash开源,是在向开发者喊话:“来我这儿玩,我的模型虽然大,但推理便宜,而且完美适配小米的硬件。”这是在争夺未来AI应用的“定义权”。
所以,小米发布的大模型不是一个用来“炫技”的艺术品,MiMo-V2-Flash虽然号称对标Claude Sonnet 4.5,但肯定不是全世界最聪明的模型,不过它一定是最适合小米当前商业逻辑的模型。
在别的厂商还在比拼谁的模型更像“神”的时候,小米做了一个更像“人”的决定:把价格打下来,把速度提上去,然后把它塞进你生活的每一个缝隙里。
这很雷军,也很小米。



































