设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识

发布时间: 来源:

21世纪经济报道记者邓浩 上海报道N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM


近期基础大模型领域热点不断,先是量化巨头幻方上线全新系列模型DeepSeek-V3首个版本上线并同步开源,以极低训练成本引发海内外对大模型经济性的广泛讨论。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1月15日,本土“大模型六小龙”之一的MiniMax发布并开源了MiniMax-01全新系列模型,第一次大规模实现线性注意力机制,直接挑战传统的Transformer架构,再一次在行业掀起巨浪。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

某大模型领域专家对记者解释,“传统的Transformer的注意力机制的计算复杂度随着序列长度的增加而呈二次增长,所以做长文本效率很低。MiniMax一直在做’线性注意力机制’这一套,做了比较大的改进,从而可以做到400万token的超长上下文。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也有不少业内人士对记者表示,MiniMax的创新可以增强现有方法的效率,但没有改变本质。实际效果还需要应用的验证和共识。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

创新大模型增强效率N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此前,MiniMax一直选择闭源,外界对其技术细节知之甚少,没想到这一次上手即是“王炸”。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不仅采用全新架构,而且实现综合性能比肩海外顶尖模型。据MiniMax透露,该模型的参数量高达4560亿个,其中单次激活459亿个。能够高效处理全球最长400万token的上下文,是GPT-4o的32倍,Claude-3.5-Sonnet的20倍。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为什么需要这么大的窗口处理能力?N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上,在处理长文本内容、复杂任务的高效执行以及应对多模态/跨模态任务等情况时,越高的信息处理能力越能让模型充分理解需求,从而得到更优的结果。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

雪浪云高级副总裁、雪浪工业软件研究院副院长郭翘就对记者表示,“我们已经积累了不少工业语料,相当于工业场景数据,可以很快测试一些基础大模型的能力,而上下文的长度是非常重要的指标。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为什么可以做到?关键在于其使用了基于线性注意力机制的新架构,其中每8层中有7个是基于Lightning Attention的线性注意力,有1层是传统的SoftMax注意力。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用个通俗的比喻,假如我们需要在一个装满卷轴的藏宝箱,找出一个与宝藏位置最相关的卷轴。传统的注意力机制类似于一群赏金猎人,每一个猎人会把手里的每一个卷轴都与其他所有卷轴依次做比较,随着卷轴书数量的增多,工作量会呈平方级增长。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而线性注意力机制相当于一位聪明的考古学家,他用一套相对简单的办法,依次对这些卷轴进行检阅,不断记录并累计对线索的理解,最后得出综合判断。这个工作量是随着卷轴增加而线性增长的,相对更高效。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax称,主要“受益于我们的架构创新,我们的模型在处理长输入的时候有非常高的效率,接近线性复杂度。”而且,MiniMax还在技术论文中透露,“我们正在研究更高效的架构,以期完全摒弃softmax注意力机制,从而有可能实现无计算负担的无限上下文窗口。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

况客科技(北京)有限公司管理合伙人安嘉晨对记者表示,“(MiniMax的影响)现在谈可能还为之过早,之前很多类似的其实最终没有成功证明自己比transformer好,这个需要应用的验证和共识。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

某硅谷技术专家也对记者分析,“从去年开始,硅谷一直在诟病Transformer架构,认为没办法商用,成本消耗太大。Minimax的模型本质是对现有方法效率的增强,但是没有改变本质。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于MiniMax来说,花费巨大精力和成本构建这个全新的架构,有着更大的野心。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax直言,“我们相信2025年会是Agent高速发展的一年,不管是单Agent的系统需要持续的记忆,还是多Agent的系统中Agent之间大量的相互通信,都需要越来越长的上下文。在这个模型中,我们走出了第一步,并希望使用这个架构持续建立复杂Agent所需的基础能力。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,上述硅谷技术专家表示并不太认可这个说法,其认为“就单纯AI agent来说,其实用不了太多的token,几千个足够了。多模态会需要,但技术还没到这个点上。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

安嘉晨则坦言,“MiniMax的应用很成功,星野之类的APP,但是(Agent)用模型的话,我觉得竞争还是很激烈的,现在很难说谁比谁明显领先多少。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源、口碑与性价比N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其实,在基础大模型领域,自从OpenAI推出O1和O3模型之后,产业界和投资界都逐渐形成新的共识,Scaling Law已经趋缓,预训练模型热度开始转向推理模型。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前述硅谷技术专家称,“预训练大模型,现在大家有一个统一的共识,还没办法转化成真实的生产力,性价比极不合适。投资人也有点慌,因为不知道要烧(钱)到什么时候。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最近的案例是李开复的零一万物,李开复公开表态,只有大厂能烧超大的模型,“我们觉得要和一个烧得起大模型的大厂合作,以后超大的模型由阿里训练,我们就可以用小而精的团队来做小而便宜的模型,拥抱应用的爆发。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际上,商业化是摆在现在大模型初创公司面前的一条必答题。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了零一万物,月之暗面、百川智能、智谱AI等也在加速探索B端业务的变现,而MiniMax相对比较另类,2023年6月和9月,其相继在海外和国内上线AI陪伴产品“Talkie”、“星野”。2024年5月上线C端产品“海螺AI”,作为生产力助手。此前有媒体预测,MiniMax2024年收入预计达到7000万美元,而大部分收入来自Talkie的广告。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该硅谷技术专家透露,“Minimax在国内比较犹豫,但在海外愿意花钱去租GPU,可以侧面印证海外收入还不错。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实际上,某熟悉MiniMax的业内人士曾对记者表示,由于MiniMax创始团队出身传统AI四小龙,吃过不少B端的“亏”,比如项目制开发,无法规模化做大,利润微薄,因此其在大模型领域创业时特别注重商业变现。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可是,现在价格内卷也开始在预训练模型不断蔓延,如何在白菜价中实现规模盈利,仍将继续考验入局的玩家。N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MiniMax称,“受益于架构的创新、效率的优化、集群训推一体的设计以及我们内部大量并发算力复用,我们得以用业内最低的价格区间提供文本和多模态理解的API,标准定价是输入token 1元/百万token,输出token 8元/百万token。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于业内比较关心的开源问题,MiniMax解释,“选择开源,一是因为我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

前述硅谷技术专家对此表示,“我觉得大模型开源,主要还是做口碑。特别是在中国,一旦开源,客户的选择成本会很低。而且后续也可以有延伸的增值服务。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

安嘉晨也认为,“闭源模型要盈利,就只能卷性能,但卷性能和盈利这两者几乎很难平衡,也许只有少数的一两个才能坚持闭源且盈利;开源的话,卷性能的需求下降了,自然成本压力也能缓释,还有可能占个生态位,未来还有建立商业模式的可能性。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

郭翘则对记者分析,“我们只关注开源模型,为什么不用闭源(模型)?因为制造业的客户更关心数据安全,必须要保证私有化部署,而闭源模型通常是提供网络接口,通过公有云服务,这是B端客户不太容易接受的。”N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

 N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

N18速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领域关键供应商的地位。“我们需要更加强大的 3月19日,记者从香港科技大学获悉,该校以人工智能生成式工具设计出10位“AI讲师”, 这些“AI讲师”来自世界各地,属不同民族及文化背景。该校希望通过创新教学模式,激发学生学习热情,提升课堂参与度 据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行的间歇性禁食指限制进食时间,在每天或每周的 3月22日消息,美国司法部对iPhone提起诉讼,声称其苹果生态系统构成垄断。司法部表示,iPhone将苹果生态系统视为一种垄断,以牺牲消费者、开发者和竞争对手的利益为代价,推动公司估值的飙升。司法部还指 3月23日消息,据最新爆料,vivo X100s Pro已经获得3C认证,估计 会在5月份前后发布。该机可以看做是vivo X100 Pro的小迭代机型,属于半代升级款,与去年X90s类似。新机从此前的天玑9300升级为天玑9300+,处 3月23日消息,荣耀Magic6 RSR 保时捷设计于3月22日正式开售,售价为9999元。该款电话首销当天即被抢购一空,荣耀商城显示,下一轮销售时间将是3月29日上午10:08。荣耀总裁赵明在微博上表示,荣耀Magic6 RS 。

本文链接:MiniMax挑战Transformer架构,要做AI agent时代的新基建?业内称没有改变本质,尚需应用共识http://www.sushuapos.com/show-2-10182-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 新鲜早科技丨支付宝称交易bug不会向用户追款;TikTok禁令或不予执行;抖音未放开海外用户注册

下一篇: CES深观察丨AI是绝对主角 中国产品展现竞争力

热门资讯

推荐资讯

  • 报告:芯片工程师岗位“全链条紧缺,高薪抢人”

      中新经纬3月27日电 日前,智联招聘平台依托2026年春节后一个月及2025年春节后同期的招聘与求职数据,发布《2026新质生产力人才发展报告》(简称《报告》)。  《报告》将新

  • 商务部:2025年居民数字消费规模同比增长8.7%

      中新经纬3月27日电 据商务部网站27日消息,2025年居民数字消费规模达25.3万亿元。  2025年,我国居民数字消费规模达25.3万亿元,同比增长8.7%,其中数字服务消费增长12.5%,成

  • 金价银价急跌后直线拉升 贵金属为何“上蹿下跳”|宅男财经

      【宅男财经|专家面对面】27日早间,国际黄金和白银价格经历急跌后直线拉升,现货黄金现涨1.26%,报4437.225美元,现货白银现涨1.67%,报69.224美元。自1月29日达到年内新高后,

  • 国家医保局:长期护理保险不设起付线

      中新经纬3月26日电 26日,国新办就加快建立长期护理保险制度有关情况举行新闻发布会。国家医保局待遇保障司负责人张西凡在发布会上表示,长期护理保险不设起付线。  张西

  • 沪指半日跌0.58% 光伏设备板块集体回调

      中新经纬3月26日电 周四早盘,A股三大指数早盘冲高回落。截至午间收盘,上证指数跌0.58%,报3909.16点;深证成指跌0.38%,报13748.30点;创业板指跌0.07%,报3314.64点。  沪深两市

  • 官方:长期护理保险已拉动社会资本投入相关产业超600亿

      中新经纬3月26日电 26日,国新办就加快建立长期护理保险制度有关情况举行新闻发布会。国家医保局副局长王文君在发布会上介绍,据初步统计,自2016年试点以来,长期护理保险共拉

  • 外媒:索尼与本田放弃联合开发纯电动汽车

      中新经纬3月26日电 据日本共同社报道,索尼与本田放弃EV联合开发,跨界合作遇挫。  报道称,索尼集团与本田共同出资的索尼・Honda移动出行公司25日宣布,已放弃开发和

  • 中国航空工业集团原董事长谭瑞松一审被判死缓

      中新经纬3月25日电 “大连市中级人民法院”微信号消息,2026年3月25日,辽宁省大连市中级人民法院一审公开宣判中国航空工业集团有限公司原党组书记、董事长谭瑞松贪污、受

  • 泡泡玛特营收破300亿,股价盘中跌超21%

      中新经纬3月25日电 (郑艺佳)在泡泡玛特2025年8月举办的2025年中期业绩会上,泡泡玛特创始人、CEO王宁曾表示感觉营收“300亿也很轻松”。  3月25日,泡泡玛特国际集团有限

  • 妙可蓝多亿元投资公允价值归零

      中新经纬3月25日电 上海妙可蓝多食品科技股份有限公司(下称“妙可蓝多”)24日披露2025年年度报告。其中提到,对上海祥民投资的公允价值调整至零。  亿元投资公允价值归

  • 中国中车等5户央企人事变动

      中新经纬3月24日电 “国资小新”微信号24日发布5户中央企业5名领导人员职务任免消息。  中国中车集团有限公司  王锋任中国中车集团有限公司党委副书记、董事,提名为

  • 多地二手房迎“小阳春”:刚需进场、老破小“真香”

      中新经纬3月24日电 (薛宇飞)“您昨天看的房子,今天卖掉了。”北京工作的郑玫(化名)在看完房子的第二天,房产经纪人就电话告知她,她看中的一套二手房源降价20万元成交了。 

  • 日榜
  • 周榜
  • 月榜