小米大模型负责人罗福莉首秀：算力和数据也并非最后的护城河

发布时间: 2025-12-18 12:42:05 来源：界面新闻

观看：125

罗福莉在小米大模型团队不仅仅要担任一个科学家角色，她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力。

12月17日，小米召开2025人车家全生态合作伙伴大会。但实际上，几乎所有目光都瞄准了其中一位演讲者——Xiaomi Mimo大模型负责人罗福莉。

自离开DeepSeek、低调入职小米后，这是被行业誉为“AI天才少女”的罗福莉首次代表小米大模型团队公开对外。而大会开始前，小米发布并开源了最新MoE大模型MiMo-V2-Flash，这构成了罗福莉演讲的核心内容。

罗福莉在开场时指出，下一代智能体系统核心围绕Agent执行与Omni（全能）感知，涵盖记忆、推理、自主规划、决策、执行多个维度，应当从回答问题走向完成任务，并且应当统一多模态感知，为理解物理世界打基础。

她由此表示，MiMo-V2-Flash在研发之初，主要围绕三个关键问题展开。

第一，当代智能体必须要有高效的沟通语言，即代码能力和工具调用能力；第二，“高带宽”是Agent协作的关键，因此需要围绕极致推理效率设计模型结构；第三，模型训练范式逐步从预训练转向后训练，为了激发后训练的更多潜能，需要高效稳定的扩展强化学习训练。

MiMo-V2-Flash是小米全新一代面向Agent的基座模型，总参数309B，激活参数15B，支持256k上下文窗口，整体针对推理、编码和Agent场景构建，支持混合思维模式，允许用户切换“思考”和即时回答模式。

在基准测试中，MiMo-V2-Flash的表现整体接近DeepSeek-V3.2，在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹，仅在HLE（人类最后的考试）及Arena-Hard（创意写作评估）两项测试中不及后者。此外，该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。

作为首秀成果，同时也是小米未来可能全面落地各个业务场景的智能体模型底座，罗福莉花了大量篇幅重点讲述MiMo-V2-Flash的性价比优势及其技术来由。

目前，MiMo-V2-Flash推理吞吐速度为每秒150个token，定价0.7元/每百万输入token，2.1元/每百万输出token。

在一张价格与速度构成的坐标轴图标中，MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平，但价格是其约二十分之一；其价格是DeepSeek V3.2的约一半，但速度是后者的近3倍。

这样的推理效率主要来自两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention（Hybrid SWA/混合滑动窗口注意力机制），其中SWA与Full Attention（全局注意力机制）的比例是5:1。

罗福莉指出，相较于一些复杂的Linear Attention（线性注意力机制），SWA在兼顾长短文的推理、知识检索等方面更胜一筹。

一名AI大模型行业从业者对界面新闻记者表示，SWA本质上是一种Sparse Attention（稀疏注意力机制），业界普遍利用它解决长上下文的推理效率问题，其最大优势是可以将KV Cache保持在一个固定最大值，而不会随着上下文扩大而无限增长，从而实现降本增效的目的。

他指出，这种机制核心要考虑的问题是在长文本任务中受到窗口策略限制可能表现不佳，这也是SWA会与Full Attention进行混合配比的原因之一。

MiMo-V2-Flash另一项重要创新在于MTP（Multi-Token Prediction）。罗福莉表示，团队在训练时加入了一层MTP层以提高基座模型能力，并在微调时也加入了更多MTP层，最终在推理时加入了3层MTP，以加速并行token验证的方式实现了2-2.6倍推理速度的提升。

此外，为了提高强化学习训练的稳定性，MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation（MOPD）的后训练范式。相较于传统SFT+RL（微调+强化学习）的后训练方式，它可以提供稠密的token level监督学习信号，以简单快速的方式获得各个专家模型的能力。

“我们还发现一个很意外的事情，当学生很快超越老师的时候，我们能不能把老师替换成学生继续自我迭代提升，这是一个正在进行中的工作。”罗福莉预告称。

从这场演讲可以看出的是，罗福莉在小米大模型团队不仅仅要担任一个科学家角色，她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面开始跨越自己的阶段性门槛后，AI能力是小米撑起下一个十年技术叙事的核心底座。

罗福莉也几乎没有谈论自己，唯一涉及团队构成的表述是，一个“小而美，却充满创业精神极度好奇、追求真理”的年轻团队。此外，她认为在大模型的能力竞争中，算力和数据也并非最终的护城河，“而是科学的研究文化与方法，是将未知问题结合模型优势转化可用产品的能力”。

此外，在大会上，小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展：用户规模方面，小米全球月活跃用户数达到7.42亿；硬件生态方面，小米AIoT平台连接设备数达到10.4亿，硬件合作伙伴数量突破15000家；软件生态方面，小米全球开发者规模达到120万，国内应用生态每月应用分发量突破11亿。