设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

发布时间: 2024-04-28 16:06:41 来源: 量子位

视觉语言时代新基准Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节提出新基础模型——ViTamin,专为视觉语言时代设计。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终这一成果,入选计算机视觉顶会CVPR2024Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
  • 第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 – 工程系统 – 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://arxiv.org/pdf/2404.02132.pdfPk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
项目主页:Pk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://beckschen.github.io/vitaminPk5速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  诺贝尔化学奖获得者阿龙・切哈诺沃:做研究保持好奇心很重要  中新网宁波3月17日电(林波)对于学生而言,如何找到研究的信心和价值,让他们有继续下去的动力?  “做研究保持好奇心很重要。”3月17日,2004年诺贝尔化学 近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知识产权意识和专利转化运用能力得到普遍提升 21世纪经济报道记者 蔡姝越 上海报道舆论高度关注的游族网络(002174.SZ)投毒案,幕后主使许垚如何量刑有了最新进展。3月22日,上海市第一中级人民法院(以下简称上海一中院)宣判被告人许垚故 在3月24日世界防治结核病日前夕,比尔及梅琳达∙盖茨医学研究所(以下简称盖茨医学研究所)宣布,启动评估结核病候选疫苗M72有效性的Ⅲ期临床试验。在Ⅱb期试验中,数据显示这一新疫苗可为艾滋病毒检 3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,智能床垫运用算法将内在情绪与睡眠质量相关 作为功能机时代的霸主,诺基亚手机曾经创造了巨大的辉煌,但也因错失智能手机发展机遇而“掉队”。近期,外媒Visual Capitalist统计了有史以来最畅销的15款手机型号,其中诺基亚和苹果包揽前十。今 。

本文链接:字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024http://www.sushuapos.com/show-2-5471-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 68万奖金角逐,2024华为软件精英挑战赛全球总决赛获奖名单公布!

下一篇: 谁在领导AI专利竞赛?上榜的有这些公司

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 全国首个煤炭行业能源智算中心在山西建成

    3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 凌晨重磅!英伟达官宣最强AI芯片

    北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • 负碳复合建材助力减缓全球变暖

    美国太平洋西北国家实验室的科学家设计了一种复合装饰材料,可以储存更多二氧化碳,提供了一种既符合建筑规范,又比标准复合饰面板便宜的“负碳”选择。

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 我国首个制氢加氢一体站团体标准发布

    我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

  • 25日再次“露脸”,水星为啥这么难看见?

    3月25日6时左右将迎来水星东大距。这是水星今年第二次大距、首次东大距,也是公众尝试观测水星的好机会。届时,水星位于太阳东边,与太阳张角约为18.7度

  • “地球一小时”背后:绿色低碳生产生活蔚然成风

    3月23日20时30分许,内蒙古自治区鄂尔多斯市,约200米的高楼、磐石造型博物馆、书籍外形图书馆等主要地标建筑纷纷关闭灯光,人们在静下来的城市里感受

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

推荐资讯

  • 日榜
  • 周榜
  • 月榜