设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

发布时间: 来源: 量子位

团队成果3次与OpenAI大撞车E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一支人大系大模型团队,前后与OpenAI进行了三次大撞车!E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一次是与Clip,第二次是与GPT-4V,最新一次撞在了Sora上:E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年5月,他们联合并联合伯克利、港大等单位于在arXiv上发表了关于VDT的论文。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那时候,该团队就在在技术架构上提出并采用了Diffusion Transformer。并且,VDT还在模型中引入统一的时空掩码建模。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个团队,正由中国人民大学高瓴人工智能学院教授卢志武带队。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Sora问世已经两个多月,现在这支国产团队在视频生成领域的进度怎么样了?什么时候我们能迎来国产Sora的惊艳时刻?E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在本次中国AIGC产业峰会上,卢志武对上述问题进行了毫无保留的分享。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

为了完整体现卢志武的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

话题要点

  • VDT使用Transformer作为基础模型,能更好地捕捉长期或不规则的时间依赖性;
  • Scaling Law是视频生成模型从基于Diffusion model转向基于Transformer的重要原因;
  • VDT采用时空分离的注意力机制,而Sora采用时空合一的注意力机制;
  • VDT采用token concat方式,实现快速收敛和良好效果;
  • 消融实验发现,模型效果与训练消耗的计算资源正相关,计算资源越多,效果越好;
  • 只要拿到更多算力,超过Sora也不是那么难的事。

……E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以下为卢志武演讲全文:E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为什么做视频生成突然要转到用Transformer上?

今天的报告,我将重点介绍我们在视频生成领域的工作,特别是VDT(Video Diffusion Transformer)。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项工作已于去年5月发布在arXiv上,并已被机器学习顶级会议ICLR接收。接下来,我将介绍我们在这一领域取得的进展。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

众所周知,Sora非常出色,那么它的优势在哪里呢?之前,所有的工作都是基于Diffusion Model,那为什么我们在视频生成中突然转向使用Transformer呢?E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从Diffusion到Transformer的转变,原因如下:E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与基于U-net的Diffusion模型不同,Transformer具有许多优点,如token化处理和注意力机制,这两个特点使其能够更好地捕捉长期或不规则的时间依赖性。因此,在视频领域,许多工作开始采用Transformer作为基础模型。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,这些都是表面现象,最根本的原因是什么呢?使用Transformer进行视频生成,是因为其背后的scaling law发挥了作用。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Diffusion Model的模型参数量是有限的,而一旦将Transformer作为基础模型,参数量可以随意增加,只要有足够的计算能力,就可以训练出更好的模型。实验证明,只要增加计算量,效果就会得到提升。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当然,视频生成涉及各种任务,使用Transformer能够将这些任务统一在一个架构下。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于上面三个原因探索用Transformer当视频生成的底座,这是我们当时的考虑。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

我们的创新点有两个E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一是将Transformer应用于视频生成,并结合了Diffusion的优点;二是在建模过程中,我们考虑了统一的时空掩码建模,将时间和空间置于同等重要的位置。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无论是VDT还是Sora,第一步都是对视频进行压缩和token化处理。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这与基于DM的方法最大的区别在于,基于DM的方法只能进行空间压缩,无法进行时间压缩;而现在,我们可以同时考虑时间和空间,实现更高的压缩程度。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体来说,我们需要训练一个时空空间中的3D量化重构器,这可以作为tokenizer,得到三维空间中的patches。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,通过这种方式,我们可以得到Transformer的输入,输入实际上是3D的tokens。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一旦我们将输入的视频进行token化处理,就可以像通常的Transformer一样,使用标准的Transformer架构对3D的token序列进行建模,细节我就不赘述了。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

VDT和Sora有什么差别?

VDT模型中最重要的部分是时空的Transformer BlockE0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们与Sora有一点不同,当时设计这个Block时,我们将时空的Attention分开了。高校团队没有OpenAI那么多的计算资源,这样分开后,所需的计算资源会少很多——除此之外,其他所有设计都一模一样。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

现在,让我们来看看我们与Sora的区别。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

刚才我说过,VDT采用了时空分离的注意力机制,空间和时间是分开的,这是在计算资源有限的情况下的折中方案。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Sora采用的是时空统一的token化,注意力机制也是时空合一的,我们推测Sora强大的物理世界模拟能力主要来自于这个设计。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

至于输入条件不同,这不是VDT与Sora最大的区别,基本上图生视频能做好,文生视频也能做好。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

文生视频的难度较大,但并非无法克服,没有本质上的差别。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,我将介绍我们当时探索的一些事项。架构设计完成后,我们特别关注输入条件。这里有C代表的Condition Frame,以及F代表的Noisy Frame。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这两种输入条件应该如何结合,我们探索了三种方式:E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 通过Normalization的方式;
  • 通过token concat的方式;
  • 通过Cross attention。

我们发现,这三种方式中,token concat的效果最佳,不仅收敛速度最快,而且效果最好,因此VDT采用了token concat方式。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们还特别关注了通用时空掩码机制E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,由于Sora没有公布细节,我们不清楚它是否也采用了这个机制,但在模型训练过程中,我们特别强调了设计这样的掩码机制,最终发现效果非常好,各种生成任务都能顺利完成——我们发现Sora也能达到类似的效果。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

消融实验特别有趣,无论是Sora还是VDT,有一个非常重要的问题,就是模型中有大量的超参数,这些超参数与模型密切相关,不同的参数会对模型的效果产生很大影响。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,通过大量实验验证,我们发现超参数的选择有一个规律,即如果超参数使得模型的训练计算量增加,那么对模型效果是有益的E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这意味着什么?我们模型的性能只与其背后引入的计算量有关,模型训练所需的计算资源越多,最终的生成效果就越好,就这么简单。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个发现与DiT类似,DiT被称为Sora的基础模型,它是用于图片生成的。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总之,消融实验是Sora或我们工作中最重要的事情之一,我们模型的效果只与训练消耗的计算资源有关,消耗的计算资源越大,效果越好。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有更多算力,超过Sora不是太难

考虑到我们的计算资源确实有限,我们团队在模型训练规模上,肯定不能与OpenAI相比。但是,我们也进行了一些深入的思考。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

物理世界模拟本身就在我们的论文中,并不是说这是OpenAI首先想到的,我们一年前就想到了。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当时有这个底座以后,很自然想到这样模型到底能不能进行物理规律模拟。后来在物理数据集上训练了一下VDT,发现它对简单的物理规律模拟得特别好。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如,这些例子有抛物线的运动,加速运动,还有碰撞的运动,模拟得都还可以。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

所以我们当时做了两个在思想上特别有前瞻性的事情,一个是当时我们想到Diffusion Transformer用到视频生成里面,第二个是我们得到了这样模型以后,我们当时觉得这就是做物理世界模拟很好的模型,我们做实验验证了这个事情。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当然,如果我们有更多的算力,我们有更多的数据,我相信肯定可以模拟更复杂的物理规律。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们这个模型也跟现在有模型做了对比,比如人像生成,给一张写真的照片让它动起来,我们只考虑做这个小的事情,因为我们算力特别有限。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这些结果表明VDT比Stable Video Diffusion要好一些,你可以看看生成得人物眼睛眨的更明显一些,更自然一点。另一个模型生成有点不太自然。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,如果人脸从侧面转成正脸,甚至用扇子把脸遮住了,要把人脸预测出来,还是挺难的。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会

关于这个写真视频是怎么做的我简单说一下。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

先提供几张写真的照片,VDT把每一张写真照片变成两秒的镜头,通过剪辑的方式把镜头拼在一起。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结合我们团队本身的特点,如果说我做通用的模型,我肯定做不过市面上的大部分,但是我当时挑了一个应用点,在这个点上VDT并不比Sora差。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Sora出来以后很多人要做视频生成,我要考虑怎么保证我的团队在这个方向上,哪怕很小的一个点保持世界最前沿。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,我们做了写真视频生成,国外的Pika、Sora也研究了一下。VDT生成的超写实人物,是超过Pika和Sora的。在通用的视频生成我们很难超过Sora,这里的主要原因是我们算力很有限。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

只要拿到更多算力,超过Sora也不是那么难的事。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我就讲这么多,谢谢大家。E0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣耀CEO赵明表示,人工智能大模型时代,他们的AI战 3月21日是世界睡眠日,今年中国主题为“健康睡眠 人人共享”。人的一生约有三分之一的时间是在睡眠中度过,睡眠、运动、营养被视为保障机体正常发育和健康的三大要素。关于睡眠有哪些常见认知误 近年来,电动自行车以便利性受到大众青睐,但相关起火事故威胁着居民的生命财产安全。据国家消防救援局发布的统计数据,2023年全国共接报电动自行车火灾2.1万起,比2022年增加17.4%。电动自行车起火 联合国机构3月20日发布的《全球电子垃圾监测》报告显示,2022年全球范围内共产生6200万吨电子垃圾,其中仅有不到四分之一被回收利用。报告显示,2022年全球电子垃圾的产生量相比2010年增长了82%。 记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不低于200P Flops、智算算力(FP16)不低于400P F 聊到安卓电话的拍照,大部分用户还是比较认可的,而在与iPhone电话的对比中,用户也普遍以为安卓电话的拍照水平要比iPhone更好,当然这一说法也并非空穴来风,其背后的原因直接而明确。首先,硬件配置的竞争 。

本文链接:人大卢志武:只要拿到更多算力,超过Sora也不是那么难的事|中国AIGC产业峰会http://www.sushuapos.com/show-2-5651-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: Claude iOS版本推出!11MB大小,体验丝滑,网友:快上语音功能

下一篇: 可精准杀伤肿瘤细胞 我国医疗团队最新发现

热门资讯

推荐资讯

  • 官方:到2030年进一步提高高端检测仪器国产化率

      中新经纬3月27日电 据国家市场监督管理总局网站消息,近日国家市场监管总局发布《关于促进特种设备安全与节能科技创新发展的指导意见》(简称《意见》),其中指出,到2030年,突

  • 三连涨长飞光纤:部分产品单价波动对业绩影响需综合判断

      中新经纬3月26日电 26日盘后,长飞光纤发布《关于股票交易异常波动的公告》称,当前国内外光纤光缆市场供需结构有一定改善,但部分产品的阶段性单价波动对公司未来业绩的影响

  • 能源安全,中国悄悄上了分

      中新经纬3月26日电 (薛宇飞)“不稳定,对于稳健的经济而言是最糟糕的情况,能源供应该怎么办?我认为我们刚刚意识到,我们不能依赖石油,不能依赖特定地区的石油,对此必须格外谨慎

  • 东阿阿胶副总裁李庆川辞职

      中新经纬3月26日电 东阿阿胶股份有限公司(下称“东阿阿胶”)近日发布公告称,董事会收到李庆川提交的书面辞职报告,由于工作变动原因,李庆川申请辞去公司副总裁职务。辞职后

  • 2年、5年和10年,人形机器人的“ChatGPT时刻”何时到来?

      中新经纬3月25日电 (薛宇飞 王玉玲)“你们觉得人形机器人的‘ChatGPT时刻’还有几年?”当主持人在博鳌亚洲论坛2026年年会抛出这个问题时,台上的几位人形机器人公司负责人

  • 拟撤销私人银行专营牌照?交通银行回应:现有业务不受影响

      中新经纬3月25日电 (魏薇)近日,有媒体报道称,交通银行拟申请撤销私人银行专营机构牌照。25日,中新经纬从交通银行方面获悉,为强化财富金融特色,提升客户服务能力,经董事会审议

  • 2月国内市场手机出货量同比降14.6%

      中新经纬3月25日电 中国信通院网站25日披露2026年2月国内手机市场运行分析报告。其中提到,2026年2月,国内市场手机出货量1678.9万部,同比下降14.6%。  国内手机市场总体

  • 【经纬晚班车】多地二手房迎“小阳春”;外企加码对华投资

    【晚间热点要闻】官方:深入整治“内卷式”竞争,推进涉企收费全链条治理3月24日,全国市场监管系统价格监督检查和反不正当竞争工作座谈会在北京召开。会议总结2025年价监竞争工

  • 泸州银行管理团队变阵,行长、副行长同日辞任

      中新经纬3月24日电 (魏薇)泸州银行23日公告称,董事会接到行长刘仕荣的书面辞呈。刘仕荣因临近退休年龄,辞去行长之职务,自书面辞呈送达董事会时生效。同日,泸州银行副行长薛

  • 石油紧缩,已经影响到韩国泡面了

      中新经纬3月24日电 据彭博社报道,中东原油短缺日益严重,影响已经传递到了韩国的食品行业。  日前,由于中东局势紧张导致石脑油供应不稳,韩国将于下月起对石脑油出口实施管

  • 英轮凯旋召回2157辆摩托车

      中新经纬3月24日电 据国家市场监督管理总局网站24日消息,日前,英轮凯旋(上海)商贸有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要

  • 沪指高开近1%,金属铜、黄金概念等板块上涨

      中新经纬3月24日电 周二,A股三大指数集体高开。上证指数涨0.95%,报3849.63点;深证成指涨1.27%,报13514.67点;创业板指涨0.98%,报3266.93点。  来源:同花顺  盘面上,行业板块

  • 日榜
  • 周榜
  • 月榜