用人工智能生成视频,是许多人乐于尝试的应用。但AI的技术缺陷也引来很多吐槽:“上一段视频中生成的是张三,下一段视频就变成了另一张脸。无论怎么调整,都无法让两段视频的主角变成同一人。”人物角色一致性的难题,让AI难以制作出同一人物角色、不同故事情节的短片,大大限制了AI生成视频的应用场景。
2025年1月,稀宇科技(MiniMax)发布的最新视频模型化解了这一难题。用户只需提供1张人物的正面照片,不论生成多少段风格迥异的视频,主角都是这个人。这让网友惊呼,一张照片就能做电影,这不是梦!
在创业过程中,MiniMax始终坚持技术驱动。动态视频中如何保持人物面部多角度的真实度和稳定性,如何保持人物角色高度一致……开发团队进行了大量技术探索,比选不同的技术路径,最后开发出S2V模型——只需传统方案1%的输入量和计算成本,“上传1张图片”的效果就足够好。在3年多时间里,一次次迭代升级,文生视频、图生视频、主体参考等功能持续优化。这些创新,让海螺AI视频在激烈竞争中杀出重围,用户分布在全球超200个国家和地区。
在文生语音等功能上,MiniMax也走出了差异化路线。网友发现,MiniMax的语音功能竟然带有情绪调节和效果器功能,AI生成的语音可以带上开心、难过、生气等情绪,这一创新让有声书和广播剧的生产力大幅提升。“通用人工智能不是简单的互联网流量变化,而是计算范式的颠覆式创新,将会引领生产力、社会分工以及产业结构的深刻变革。”MiniMax创始人闫俊杰说。
算力、算法和数据是人工智能发展的“铁三角”。MiniMax创立之初,算力和数据十分有限,唯一选择就是在算法上求突破。从2023年夏天开始,公司将80%的算力与研发资源投入底层架构研发,这在外人看来就像一场豪赌。“我们在工程上遇到的很多问题,源于一片漆黑的未知。”公司技术团队在没有成熟经验可供借鉴的情况下,一次次试错,持续进行摸索。一年后,公司成功推出基于MoE架构的模型。今年1月,大规模实现线性注意力机制的MiniMax-01模型诞生,并逐渐为行业广泛认可。
“底层模型能力是决定大模型应用成功与否的首要因素。”MiniMax副总裁刘华告诉记者,虽然照着现成的图纸盖楼相对容易,但图纸的不足也会限制楼房的高度。我们选择用自己的图纸构筑大厦,一开始或许慢一些,但希望能更好应对未来的挑战。底层架构如同AI“新基建”,MiniMax-01模型突破了长文本处理瓶颈,可高效处理最长400万token(词元)的上下文。在工业领域,该模型可以快速解析百万字设备日志,辅助故障诊断;在医疗场景,它可连续跟踪患者数年病历,生成个性化治疗方案。最近两年,大模型技术快速迭代,国际国内AI行业都在白热化竞争。底层模型一次重大迭代对产品带来的优化效果,会远超在工程实现层面对产品进行“雕花”。这也是MiniMax始终紧盯模型本身,加速迭代升级的重要原因。
作为上海人工智能高地孵化的代表性企业,MiniMax的成长离不开这座城市独特的文化和基因。上海汇聚了全球顶尖的AI人才,大量富有热情的年轻人才,为产业快速发展提供了支撑。在MiniMax上海总部大楼,研发人员持续增多。不久前,上海推出人工智能“模塑申城”实施方案,在算力、场景、数据、人才方面推出一批有力举措。上海还积极推动大模型企业与场景企业对接。以MiniMax为例,他们与小红书合作打造生成式智能搜索,与阅文集团合作将数千本小说变成超自然、高保真的有声书等,通过相互赋能实现更快发展。闫俊杰相信,“真正有价值的事,不是当前做得怎么样,而是技术进化的速度。”
用人工智能生成视频,是许多人乐于尝试的应用。但AI的技术缺陷也引来很多吐槽:“上一段视频中生成的是张三,下一段视频就变成了另一张脸。无论怎么调整,都无法让两段视频的主角变成同一人。”人物角色一致性的难题,让AI难以制作出同一人物角色、不同故事情节的短片,大大限制了AI生成视频的应用场景。
2025年1月,稀宇科技(MiniMax)发布的最新视频模型化解了这一难题。用户只需提供1张人物的正面照片,不论生成多少段风格迥异的视频,主角都是这个人。这让网友惊呼,一张照片就能做电影,这不是梦!
在创业过程中,MiniMax始终坚持技术驱动。动态视频中如何保持人物面部多角度的真实度和稳定性,如何保持人物角色高度一致……开发团队进行了大量技术探索,比选不同的技术路径,最后开发出S2V模型——只需传统方案1%的输入量和计算成本,“上传1张图片”的效果就足够好。在3年多时间里,一次次迭代升级,文生视频、图生视频、主体参考等功能持续优化。这些创新,让海螺AI视频在激烈竞争中杀出重围,用户分布在全球超200个国家和地区。
在文生语音等功能上,MiniMax也走出了差异化路线。网友发现,MiniMax的语音功能竟然带有情绪调节和效果器功能,AI生成的语音可以带上开心、难过、生气等情绪,这一创新让有声书和广播剧的生产力大幅提升。“通用人工智能不是简单的互联网流量变化,而是计算范式的颠覆式创新,将会引领生产力、社会分工以及产业结构的深刻变革。”MiniMax创始人闫俊杰说。
算力、算法和数据是人工智能发展的“铁三角”。MiniMax创立之初,算力和数据十分有限,唯一选择就是在算法上求突破。从2023年夏天开始,公司将80%的算力与研发资源投入底层架构研发,这在外人看来就像一场豪赌。“我们在工程上遇到的很多问题,源于一片漆黑的未知。”公司技术团队在没有成熟经验可供借鉴的情况下,一次次试错,持续进行摸索。一年后,公司成功推出基于MoE架构的模型。今年1月,大规模实现线性注意力机制的MiniMax-01模型诞生,并逐渐为行业广泛认可。
“底层模型能力是决定大模型应用成功与否的首要因素。”MiniMax副总裁刘华告诉记者,虽然照着现成的图纸盖楼相对容易,但图纸的不足也会限制楼房的高度。我们选择用自己的图纸构筑大厦,一开始或许慢一些,但希望能更好应对未来的挑战。底层架构如同AI“新基建”,MiniMax-01模型突破了长文本处理瓶颈,可高效处理最长400万token(词元)的上下文。在工业领域,该模型可以快速解析百万字设备日志,辅助故障诊断;在医疗场景,它可连续跟踪患者数年病历,生成个性化治疗方案。最近两年,大模型技术快速迭代,国际国内AI行业都在白热化竞争。底层模型一次重大迭代对产品带来的优化效果,会远超在工程实现层面对产品进行“雕花”。这也是MiniMax始终紧盯模型本身,加速迭代升级的重要原因。
作为上海人工智能高地孵化的代表性企业,MiniMax的成长离不开这座城市独特的文化和基因。上海汇聚了全球顶尖的AI人才,大量富有热情的年轻人才,为产业快速发展提供了支撑。在MiniMax上海总部大楼,研发人员持续增多。不久前,上海推出人工智能“模塑申城”实施方案,在算力、场景、数据、人才方面推出一批有力举措。上海还积极推动大模型企业与场景企业对接。以MiniMax为例,他们与小红书合作打造生成式智能搜索,与阅文集团合作将数千本小说变成超自然、高保真的有声书等,通过相互赋能实现更快发展。闫俊杰相信,“真正有价值的事,不是当前做得怎么样,而是技术进化的速度。”
患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情况等一目了然。日前,中国科学院精密测量科学 北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正式推出名为Blackwell的新一代AI图形处理器(G 诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要 中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力? “做研究保持好奇心很重要。”3月17日,2004年诺贝尔化学 3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行的间歇性禁食指限制进食时间,在每天或每周的 3月23日消息,据最新爆料,vivo X100s Pro已经获得3C认证,估计 会在5月份前后发布。该机可以看做是vivo X100 Pro的小迭代机型,属于半代升级款,与去年X90s类似。新机从此前的天玑9300升级为天玑9300+,处 。本文链接:MiniMax紧盯底层模型加速迭代http://www.sushuapos.com/show-2-10792-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: AI时代 仍需一锤一凿的“笨功夫”