设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河

发布时间: 来源: 界面新闻

罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月17日,小米召开2025人车家全生态合作伙伴大会。但实际上,几乎所有目光都瞄准了其中一位演讲者——Xiaomi Mimo大模型负责人罗福莉。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自离开DeepSeek、低调入职小米后,这是被行业誉为“AI天才少女”的罗福莉首次代表小米大模型团队公开对外。而大会开始前,小米发布并开源了最新MoE大模型MiMo-V2-Flash,这构成了罗福莉演讲的核心内容。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在开场时指出,下一代智能体系统核心围绕Agent执行与Omni(全能)感知,涵盖记忆、推理、自主规划、决策、执行多个维度,应当从回答问题走向完成任务,并且应当统一多模态感知,为理解物理世界打基础。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她由此表示,MiMo-V2-Flash在研发之初,主要围绕三个关键问题展开。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,当代智能体必须要有高效的沟通语言,即代码能力和工具调用能力;第二,“高带宽”是Agent协作的关键,因此需要围绕极致推理效率设计模型结构;第三,模型训练范式逐步从预训练转向后训练,为了激发后训练的更多潜能,需要高效稳定的扩展强化学习训练。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash是小米全新一代面向Agent的基座模型,总参数309B,激活参数15B,支持256k上下文窗口,整体针对推理、编码和Agent场景构建,支持混合思维模式,允许用户切换“思考”和即时回答模式。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在基准测试中,MiMo-V2-Flash的表现整体接近DeepSeek-V3.2,在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹,仅在HLE(人类最后的考试)及Arena-Hard(创意写作评估)两项测试中不及后者。此外,该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为首秀成果,同时也是小米未来可能全面落地各个业务场景的智能体模型底座,罗福莉花了大量篇幅重点讲述MiMo-V2-Flash的性价比优势及其技术来由。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,MiMo-V2-Flash推理吞吐速度为每秒150个token,定价0.7元/每百万输入token,2.1元/每百万输出token。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在一张价格与速度构成的坐标轴图标中,MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平,但价格是其约二十分之一;其价格是DeepSeek V3.2的约一半,但速度是后者的近3倍。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样的推理效率主要来自两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention(Hybrid SWA/混合滑动窗口注意力机制),其中SWA与Full Attention(全局注意力机制)的比例是5:1。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉指出,相较于一些复杂的Linear Attention(线性注意力机制),SWA在兼顾长短文的推理、知识检索等方面更胜一筹。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一名AI大模型行业从业者对界面新闻记者表示,SWA本质上是一种Sparse Attention(稀疏注意力机制),业界普遍利用它解决长上下文的推理效率问题,其最大优势是可以将KV Cache保持在一个固定最大值,而不会随着上下文扩大而无限增长,从而实现降本增效的目的。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他指出,这种机制核心要考虑的问题是在长文本任务中受到窗口策略限制可能表现不佳,这也是SWA会与Full Attention进行混合配比的原因之一。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash另一项重要创新在于MTP(Multi-Token Prediction)。罗福莉表示,团队在训练时加入了一层MTP层以提高基座模型能力,并在微调时也加入了更多MTP层,最终在推理时加入了3层MTP,以加速并行token验证的方式实现了2-2.6倍推理速度的提升。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,为了提高强化学习训练的稳定性,MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation(MOPD)的后训练范式。相较于传统SFT+RL(微调+强化学习)的后训练方式,它可以提供稠密的token level监督学习信号,以简单快速的方式获得各个专家模型的能力。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还发现一个很意外的事情,当学生很快超越老师的时候,我们能不能把老师替换成学生继续自我迭代提升,这是一个正在进行中的工作。”罗福莉预告称。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从这场演讲可以看出的是,罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面开始跨越自己的阶段性门槛后,AI能力是小米撑起下一个十年技术叙事的核心底座。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉也几乎没有谈论自己,唯一涉及团队构成的表述是,一个“小而美,却充满创业精神极度好奇、追求真理”的年轻团队。此外,她认为在大模型的能力竞争中,算力和数据也并非最终的护城河,“而是科学的研究文化与方法,是将未知问题结合模型优势转化可用产品的能力”。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,在大会上,小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展:用户规模方面,小米全球月活跃用户数达到7.42亿;硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家;软件生态方面,小米全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月17日,小米召开2025人车家全生态合作伙伴大会。但实际上,几乎所有目光都瞄准了其中一位演讲者——Xiaomi Mimo大模型负责人罗福莉。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自离开DeepSeek、低调入职小米后,这是被行业誉为“AI天才少女”的罗福莉首次代表小米大模型团队公开对外。而大会开始前,小米发布并开源了最新MoE大模型MiMo-V2-Flash,这构成了罗福莉演讲的核心内容。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉在开场时指出,下一代智能体系统核心围绕Agent执行与Omni(全能)感知,涵盖记忆、推理、自主规划、决策、执行多个维度,应当从回答问题走向完成任务,并且应当统一多模态感知,为理解物理世界打基础。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

她由此表示,MiMo-V2-Flash在研发之初,主要围绕三个关键问题展开。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一,当代智能体必须要有高效的沟通语言,即代码能力和工具调用能力;第二,“高带宽”是Agent协作的关键,因此需要围绕极致推理效率设计模型结构;第三,模型训练范式逐步从预训练转向后训练,为了激发后训练的更多潜能,需要高效稳定的扩展强化学习训练。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash是小米全新一代面向Agent的基座模型,总参数309B,激活参数15B,支持256k上下文窗口,整体针对推理、编码和Agent场景构建,支持混合思维模式,允许用户切换“思考”和即时回答模式。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在基准测试中,MiMo-V2-Flash的表现整体接近DeepSeek-V3.2,在SWE-Bench Verified/Multiligual、GPQA-Diamond等测试中略胜一筹,仅在HLE(人类最后的考试)及Arena-Hard(创意写作评估)两项测试中不及后者。此外,该模型在AIME2025能力上接近GPT-5和Gemini 3.0 Pro。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为首秀成果,同时也是小米未来可能全面落地各个业务场景的智能体模型底座,罗福莉花了大量篇幅重点讲述MiMo-V2-Flash的性价比优势及其技术来由。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,MiMo-V2-Flash推理吞吐速度为每秒150个token,定价0.7元/每百万输入token,2.1元/每百万输出token。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在一张价格与速度构成的坐标轴图标中,MiMo-V2-Flash的速度与Gemini-2.5 Pro齐平,但价格是其约二十分之一;其价格是DeepSeek V3.2的约一半,但速度是后者的近3倍。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样的推理效率主要来自两项创新。其一是模型注意力机制采用了Hybrid Sliding Window Attention(Hybrid SWA/混合滑动窗口注意力机制),其中SWA与Full Attention(全局注意力机制)的比例是5:1。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉指出,相较于一些复杂的Linear Attention(线性注意力机制),SWA在兼顾长短文的推理、知识检索等方面更胜一筹。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一名AI大模型行业从业者对界面新闻记者表示,SWA本质上是一种Sparse Attention(稀疏注意力机制),业界普遍利用它解决长上下文的推理效率问题,其最大优势是可以将KV Cache保持在一个固定最大值,而不会随着上下文扩大而无限增长,从而实现降本增效的目的。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他指出,这种机制核心要考虑的问题是在长文本任务中受到窗口策略限制可能表现不佳,这也是SWA会与Full Attention进行混合配比的原因之一。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiMo-V2-Flash另一项重要创新在于MTP(Multi-Token Prediction)。罗福莉表示,团队在训练时加入了一层MTP层以提高基座模型能力,并在微调时也加入了更多MTP层,最终在推理时加入了3层MTP,以加速并行token验证的方式实现了2-2.6倍推理速度的提升。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,为了提高强化学习训练的稳定性,MiMo团队提出了一种叫做Multi-Teacher On-Policy Distillation(MOPD)的后训练范式。相较于传统SFT+RL(微调+强化学习)的后训练方式,它可以提供稠密的token level监督学习信号,以简单快速的方式获得各个专家模型的能力。 5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“我们还发现一个很意外的事情,当学生很快超越老师的时候,我们能不能把老师替换成学生继续自我迭代提升,这是一个正在进行中的工作。”罗福莉预告称。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从这场演讲可以看出的是,罗福莉在小米大模型团队不仅仅要担任一个科学家角色,她需要真正带领小米做出能够落地其人车家全生态产品的AI基座模型及应用能力——在汽车、手机、大家电、智能穿戴等硬件产品线全面开始跨越自己的阶段性门槛后,AI能力是小米撑起下一个十年技术叙事的核心底座。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

罗福莉也几乎没有谈论自己,唯一涉及团队构成的表述是,一个“小而美,却充满创业精神极度好奇、追求真理”的年轻团队。此外,她认为在大模型的能力竞争中,算力和数据也并非最终的护城河,“而是科学的研究文化与方法,是将未知问题结合模型优势转化可用产品的能力”。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,在大会上,小米集团合伙人、集团总裁卢伟冰披露了小米“人车家全生态”的最新进展:用户规模方面,小米全球月活跃用户数达到7.42亿;硬件生态方面,小米AIoT平台连接设备数达到10.4亿,硬件合作伙伴数量突破15000家;软件生态方面,小米全球开发者规模达到120万,国内应用生态每月应用分发量突破11亿。5rQ速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国科学院深圳先进技术研究院15日发布消息称,该院科研团队研发了一种具有靶向送药功能的磁驱软体机器人,该机器人能够根据器官内部环境的特点选择合适的运动模式,实现靶向送药的同时还可以控制 民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精神的持续亢奋,该大学生还经常出现整晚不睡觉 记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学会新矿物命名与分类专业委员会审查、投票,均 南方财经全媒体记者马嘉璐 研究员仇雯 广州报道凭借一纸证书,就能获批100万、500万、甚至千万元贷款……数据要素链接金融市场开辟的新财路,正吸引着越来越多的入局者。南方财经全媒 有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权其型号。这可能是为了向中国的iPhone客户提 作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得拥挤,24小时内,阿里、360、百度紧急“出手”,纷 。

本文链接:小米大模型负责人罗福莉首秀:算力和数据也并非最后的护城河http://www.sushuapos.com/show-2-14585-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 提升地震监测精准度!我国突破强震动加速度计检定技术

下一篇: 美团优选全国关停,社区团购格局一家独大

热门资讯

  • 明天氢能荣获国家电网科技进步奖一等奖

    记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • 什么是“时空连续体”?

    英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuu

  • CRISPR能消除培养细胞中艾滋病病毒

    荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈

  • 研究:“16:8”间歇性禁食可能与心脏病死亡风险上升相关

    据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行

  • 云海二号02组卫星发射成功

    记者从中国航天科技集团获悉,3月21日13时27分,长征二号丁运载火箭/远征三号上面级在酒泉卫星发射中心起飞,随后将云海二号02组卫星送入预定轨道,发射任

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

  • 新疆:南山26米射电望远镜4Gbps宽带VLBI联测首获成功

    记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 王昕:春晚赞助商变了,消费风转向年轻人

      中新经纬3月4日电 题:春晚赞助商变了,消费风转向年轻人  作者 王昕 国家广告研究院副院长、中国传媒大学教授  从1984年至今,春晚一直是全国观众共享的文化“年夜饭”

  • 黑色星期三!韩国综指暴跌12%,日经指数跌超2000点

      中新经纬3月4日电 受中东局势持续发酵影响,韩国、日本股市遭遇“黑色星期三”。  4日早间,韩国综指(KOSPI)低开后迅速下探,跌幅达8%后,连续第二天触发熔断机制;韩国创业板

  • 恒指半日跌2.78% 航运股集体回调

      中新经纬3月4日电 周三早盘,港股三大指数集体下跌,恒生指数盘中跌超3%。截至午间收盘,恒生指数跌2.78%,恒生科技指数跌1.96%,恒生国企指数跌2.4%。大市半日成交额2076亿港元

  • 【财眼观两会】田轩代表:建议延长A股交易时长至6小时

      中新经纬3月3日电 (宋亚芬)2026年全国两会即将召开,全国人大代表、北京大学博雅特聘教授田轩将围绕资本市场高质量发展提出多项建议,涵盖交易机制优化等方面。  田轩指

  • 中消协:春节期间交通出行吐槽类信息占比超三成

      中新经纬3月3日电 3日,中国消费者协会(下称“中消协”)发布2026年春节消费维权舆情分析报告。报告显示,交通出行、景区管理、住宿履约、用餐服务等方面维权诉求较为突出。

  • 日韩股市集体大跌,韩国综指盘中重挫逾6%

      中新经纬3月3日电 3日,日韩股市双双大跌,韩国股市盘中一度触发熔断机制。  具体来看,日本股市方面,截至发稿,日经225指数跌2.73%,报56471.33点。  来源:Wind  个股方面,住

  • 跳水又拉涨!黄金、白银高位震荡加剧,后市怎么走?|宅男财经

      【宅男财经|专家面对面】3日早间,贵金属价格冲高。截至目前,现货黄金涨0.8%报5364.2美元/盎司;现货白银涨1.25%报90.379美元/盎司。2日晚间,贵金属市场短线跳水,COMEX白银

  • 钨价高热不退!中钨高新、章源钨业提示风险

      中新经纬3月2日电 中钨高新、章源钨业股价涨停后,双双发布股票交易异常波动公告。  中钨高新3月1日公告,截至2026年2月27日,公司股价年初至今涨幅138.98%,公司滚动市盈率9

  • 便茄卡包可以提现吗2026科普解答

    便茄卡包可以提现吗2026科普解答一手渠道微:1024370571羊小咩便荔卡包是一种便捷的预付卡,可以用于线上购物、线下消费等多种场景。有时候,用户可能需要将卡包内的余额取出。以

  • 便茄卡包购物额度可以提现吗内部讲解

    便茄卡包购物额度可以提现吗内部讲解一手渠道微:1024370571羊小咩便荔卡包是一种便捷的预付卡,可以用于线上购物、线下消费等多种场景。有时候,用户可能需要将卡包内的余额取出

  • 便利卡包怎么提现出来一手流程攻略

    便利卡包怎么提现出来一手流程攻略一手渠道微:1024370571羊小咩便荔卡包是一种便捷的预付卡,可以用于线上购物、线下消费等多种场景。有时候,用户可能需要将卡包内的余额取出。

  • 便荔卡如何提现简单实操步骤讲解

    便荔卡如何提现简单实操步骤讲解一手渠道微:1024370571羊小咩便荔卡包是一种便捷的预付卡,可以用于线上购物、线下消费等多种场景。有时候,用户可能需要将卡包内的余额取出。以

  • 日榜
  • 周榜
  • 月榜