揭秘Sora：开发团队成立不到1年，核心成员含多位华人

发布时间: 2024-02-21 09:11:45 来源：

观看：351

　　揭秘Sora：开发团队成立不到1年，核心成员包含多位华人

每经记者文巧

　　2月16日，OpenAI的AI视频模型Sora炸裂出道，生成的视频无论是清晰度、连贯性和时间上都令人惊叹，一时间，诸如“现实不存在了”的评论在全网刷屏。

　　Sora是如何实现如此颠覆性的能力的呢？这就不得不提到其背后的两项核心技术突破――Spacetime Patch(时空Patch)技术和Diffusion Transformer(DiT，或扩散型 Transformer)架构。

　　《每日经济新闻》记者查询这两项技术的原作论文发现，时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles，但戏剧性的是，这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝，仅仅1年之后，就成为Sora的核心理论之一。

　　如今，Sora团队毫无疑问已经成为世界上最受关注的技术团队之一。记者查询OpenAI官网发现，Sora团队由Peebles等3人领导，核心成员包括12人，其中有多位华人。值得注意的是，这支团队十分年轻，成立时间尚未超过1年。

　　创新“站在谷歌肩上”

　　　此前，OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例，其逼真程度令人惊叹。Sora是如何做到这一点的呢？这就不得不提到该AI视频模型背后的两项核心技术――DiT架构和Spacetime Patch(时空Patch)。

　　据外媒报道，Spacetime Patch是Sora创新的核心之一，该项技术是建立在谷歌DeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。

　　Patch可以理解为Sora的基本单元，就像GPT-4 的基本单元是Token。Token是文字的片段，Patch则是视频的片段。GPT-4被训练以处理一串Token，并预测出下一个Token。Sora遵循相同的逻辑，可以处理一系列的Patch，并预测出序列中的下一个Patch。

　　Sora之所以能实现突破，在于其通过Spacetime Patch将视频视为补丁序列，Sora保持了原始的宽高比和分辨率，类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要，使模型能够从更准确的表达中学习，从而赋予Sora近乎完美的准确性。由此，Sora能够有效地处理各种视觉数据，而无需调整大小或填充等预处理步骤。

　　记者注意到，OpenAI发布的Sora技术报告中透露了Sora的主要理论基础，其中Patch的技术论文名为Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现，该篇论文是由谷歌DeepMind的科学家们于2023年7月发表的。

　　相关论文曾遭拒绝

　　　除此之外，Sora的另一个重大突破是其所使用的架构，传统的文本到视频模型(如Runway、Stable Diffusion)通常是扩散模型(Diffusion Model)，文本模型例如GPT-4则是Transformer模型，而Sora则采用了DiT架构，融合了前述两者的特性。

　　据报道，传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点，直到图片变成完全无结构的噪点图片，然后在生成图片时，逐步减少噪点，直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像，并在每一步预测出更清晰的图像。DiT架构结合时空Patch，让Sora能够在更多的数据上进行训练，输出质量也得到大幅提高。

　　OpenAI发布的Sora技术报告透露，Sora采用的DiT架构是基于一篇名为Scalable diffusion models with transformers的学术论文。记者查询预印本网站arxiv后发现，该篇原作论文是2022年12月由伯克利大学研究人员William (Bill) Peebles和纽约大学的一位研究人员Saining Xie共同发表。William (Bill) Peebles之后加入了OpenAI，领导Sora技术团队。

　　然而，戏剧化的是，Meta的AI科学家Yann LeCun在X平台上透露，“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝，但在2023年国际计算机视觉会议(ICCV2023)上被接受发表，并且构成了Sora的基础。”

　　作为最懂DiT架构的人之一，在Sora发布后，Saining Xie在X平台上发表了关于Sora的一些猜想和技术解释，并表示，“Sora确实令人惊叹，它将彻底改变视频生成领域。”

　　“当Bill和我参与DiT项目时，我们并未专注于创新，而是将重点放在了两个方面：简洁性和可扩展性。”他写道：“简洁性代表着灵活性。关于标准的ViT，人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器(MAE)中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”

　　不过，他认为，关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建，这意味着数据很可能是Sora成功的关键因素；二是关于(自回归的)长视频生成，Sora的一大突破是能够生成长视频，但OpenAI尚未揭示相关的技术细节。

　　开发团队还有“00后”

　　　随着Sora的爆火，Sora团队也来到世界舞台的中央，引发了持续的关注。记者查询OpenAI官网发现，Sora团队由William Peebles等3人领导，核心成员包括12人。从团队领导和成员的毕业和入职时间来看，这支团队成立的时间较短，尚未超过1年。

　　从年龄上来看，这支团队也非常年轻，两位研究负责人都是在2023年才刚刚博士毕业。William (Bill) Peebles于去年5月毕业，其与Saining Xie合著的扩散Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业，是DALL-E 3的作者之一，曾在谷歌和英伟达就职。

　　团队成员中甚至还有“00后”。团队中的Will DePue生于2003年，2022年刚从密西根大学计算机系本科毕业，在今年1月加入Sora项目组。

　　此外，团队还有几位华人。据媒体报道，Li Jing是DALL-E 3的共同一作，2014年本科毕业于北京大学物理系，2019年获得MIT物理学博士学位，于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。

　　三四线城市贡献增至近六成！龙年春节档票房创新高，也有公司被烫伤　　春节档票房之争基本落下帷幕，龙年电影市场迎来开门红。　　2月18日消息，根据国家电影局初步统计，2024年春节假期(2月10日至2月17日)全国电影票房为8 　　多地景区人气旺世界同享中国年　　龙年旅游消费迎来火爆开局　　本报记者潘福达　　多家景区门票售罄约满、多地酒店“一房难求”、出入境旅游均增长明显……春节假期旅游消费火爆，成为拉动居民消费的主力军。根近日，中共中央印发了修订后的《中国共产党巡视工作条例》（以下简称《条例》），并发出通知，要求各地区各部门认真遵照执行。通知指出，《条例》坚持以习近平新时代中国特色社会主义思想为指导，深入贯彻习近新华社记者徐海波、王自宸、宋立崑连日来，湖北省交通运输厅视频调度室里时常灯火通明，各项除雪保畅决策和指令第一时间下发到各路段。20日起，湖北自西向东将出现一轮大范围雨雪冰冻天气，局部地区将出现大　　中新经纬2月23日电 (刘雪玉)论坛上聊Sora，吃饭聊Sora，甚至走路也在聊Sora……亚布力论坛上，与会企业家们的高密度讨论，再度印证Sora的火爆。　　“横空出世”的Sora到底有多大的冲击力，这项技术对未来有怎样的意义？参会　　各地开启龙年“抢人” 企业所求不止于短期用工　　　2024年刚刚“开局”，各地便已开始为复工“冲刺”。无论在沿海地区还是内陆城市，“抢人大战”热战正酣，专车接送、食宿全包......各地大招频出，力争在招工上“先人。

本文链接：揭秘Sora：开发团队成立不到1年，核心成员含多位华人http://www.sushuapos.com/show-5-6758-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：创历史新高民航春节假期运客1799.2万人次

下一篇：中国内地中小企业投资AI技术意愿全球最强

揭秘Sora：开发团队成立不到1年，核心成员含多位华人

热门资讯

推荐资讯

社会最热文章