豆包视频生成模型实现多主体复杂交互

发布时间: 2024-10-10 12:53:02 来源：科技日报

观看：267

近日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如，后者可以让不同人物完成多个动作指令的互动，使人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

据火山引擎介绍，豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的创新点。

经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型已具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格。

“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。

近日，字节跳动旗下火山引擎在深圳举办AI创新巡展，发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型。此前视频生成模型大多只能完成简单指令，豆包视频生成模型则能实现自然连贯的多拍动作与多主体复杂交互。例如，后者可以让不同人物完成多个动作指令的互动，使人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

据火山引擎介绍，豆包视频生成模型基于DiT架构，通过高效的DiT融合计算单元，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题，在镜头切换时可同时保持主体、风格、氛围的一致性，这也是豆包视频生成模型独树一帜的创新点。

经过剪映、即梦AI等业务场景打磨和持续迭代，豆包视频生成模型已具备专业级光影布局和色彩调和，画面视觉极具美感和真实感。深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力，支持3D动画、2D动画、国画、黑白、厚涂等多种风格。

“视频生成有很多难关亟待突破。豆包两款模型会持续演进，在解决关键问题上探索更多可能性，加速拓展AI视频的创作空间和应用落地。”火山引擎总裁谭待说。

患者只需吸入特制的“氙气”，3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中，气体可抵达肺部的位置清晰可见，患者的肺部微结构、气体交换功能情况等一目了然。日前，中国科学院精密测量科学据埃菲社报道，多发性骨髓瘤是成年人中继淋巴瘤之后第二常见的血液肿瘤。最近，西班牙的一个科研团队开发出了一种新的免疫疗法来对抗它。实验室实验表明，这种新疗法比目前优先使用的免疫疗法更有据英国《自然》杂志网站19日报道，美国华盛顿大学科学家首次使用生成式人工智能（AI）工具，帮助他们制造全新抗体。研究团队表示，AI设计抗体或能更好靶向一些很难被攻击的药物标靶，但这些抗体距离临床 3月21日是第二十五个“世界睡眠日”，中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》（以下简称《白皮书》）。《白皮书》指出，智能床垫运用算法将内在情绪与睡眠质量相关一个国际团队近日在英国《自然》杂志上发表论文说，他们利用湖水样本培养出一种奇特的光合细菌，它属于绿弯菌门一种此前未知的目，代表了光合作用生物进化过程中的过渡形式。新发现为进一步探索远 3月21日，人工智能大模型赋能企业科技创新研讨会在广州召开。中国知网在会议期间发布了专利大数据智能应用产品“AI Pat+”。据中国知网相关负责人介绍，中国知网在人工智能大模型领域的深入研发。

本文链接：豆包视频生成模型实现多主体复杂交互http://www.sushuapos.com/show-2-8756-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：量子纠缠可提升光学原子钟精度

下一篇：中国电子口岸数据中心异地（南京）容灾系统启用

豆包视频生成模型实现多主体复杂交互

热门资讯

推荐资讯

科技最热文章