近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果——OmniAvata,这是一款领先的音频驱动全身视频生成模型,将为视频生成领域带来了革命性的变化。
传统上,音频驱动人体运动的技术多集中于面部运动,缺乏全身驱动能力,且难以进行精确控制。而OmniAvatar的出现,彻底改变了这一现状。只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。不仅如此,该模型还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
此外,长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。
本次突破不仅体现在产品层面,OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入,从而生成更协调、更自然的身体动作来匹配音频。同时,采用多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中,确保模型在不同层次上保持独立的学习路径。
为了解决完整训练和仅微调特定层所带来的问题,团队还提出了一种基于LoRA的平衡微调策略。该策略使用LoRA策略高效地适应模型,使模型能够在不改变底层模型容量的情况下学习音频特征,从而兼顾了视频质量与细节。
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
本文系观察者网独家稿件,未经授权,不得转载。
跌光100亿,空调大王破产作者 | 云帆来源 | 投资家(ID:touzijias)美伊大战,能源、科技跟着心惊肉跳。消费赛道大事件更多,又一个巨头倒下了。投资家网获悉,近日消费市场再传炸裂消息,昔日叫板格力,跟董明珠“结下仇恨”的“空调 中新经纬3月19日电 (董文博)3月19日早间,A股低开,沪指跌0.85%,深成指、创业板指、北证50指数均跌超1%。 贵金属板块领跌,Wind贵金属指数低开超4%。个股全线飘绿,山金国际、中金黄金、招金黄金、盛达资源、山东黄金 【晚间热点要闻】央行:坚定维护股票、债券、外汇等金融市场平稳运行3月18日,中国人民银行党委召开扩大会议。会议指出,充分发挥中央银行宏观审慎管理和维护金融稳定功能,坚定维护股票、债券、外汇等金融市场平稳运行。详 中新经纬3月19日电 中央纪委国家监委网站19日消息,据海南省纪委监委消息:经海南省委批准,海南省纪委监委对海南省国有资产监督管理委员会原党委副书记王有福严重违纪违法问题进行了立案审查调查。 经查,王有福丧失 。本文链接:夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破http://www.sushuapos.com/show-3-150244-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。