设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

发布时间: 来源: 量子位

视觉语言时代新基准Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节提出新基础模型——ViTamin,专为视觉语言时代设计。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

在使用相同的数据集和训练方案时,ViTamin在ImageNet零样本准确率上比ViT提高了2.0%。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外在分类、检索、开放词汇检测和分割、多模态大语言模型等60个不同基准上都表现出了良好的结果。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当进一步扩展参数规模时,ViTamin-XL仅有436M参数,却达到了82.9%的ImageNet零样本准确率,超过了拥有十倍参数(4.4B)的EVA-E。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终这一成果,入选计算机视觉顶会CVPR2024Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

视觉语言时代新基准

在视觉语言时代下,如何设计一个更好可扩展的视觉模型?Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在ImageNet时代,新的视觉模型在ImageNet数据集得以验证,也造就了不断有新的视觉模型涌现。但在视觉语言时代,新的视觉模型鲜为人见。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,基于现有常见视觉模型,在面对比ImageNet数据规模还大的情况下表现又是如何?研究团队们测试了几种常见模型,包括纯Transformer的ViT,纯卷积网络的ConvNeXt,以及混合卷积和Transformer的CoAtNet。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终在一个公开的数据集上进行了系统性的训练和比较,得出了一些关键发现:Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 第一,模型的扩展性:由于可扩展的自注意力机制,ViT能最好地适应不同规模的任务。
  • 第二,数据的扩展性:随着训练数据的增加,所有模型的性能都有所提升。
  • 第三,特征的分辨率:在训练过程中,模型需要理解更广泛的信息,而不仅仅是简单的类别标签。因此,提取的特征的分辨率对模型的预测能力有很大影响。
  • 第四,混合架构:在一般情况下,CoAtNet表现优于其他模型,但将其扩展到处理数十亿数据可能会有一些挑战。

基于这些发现,研究人员设计了ViTamin模型Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它采用了三个阶段的混合架构。前两个阶段使用了轻量级的MBConv Blocks,第三个阶段包含了可扩展的Transformer Blocks。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

具体来说,一张图片首先经过卷积stem处理,得到2倍降采样的特征图。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然后,这个特征图经过第一阶段,由两个MBConv-LN Blocks组成,接着经过第二阶段,由四个MBConv-LN Blocks组成,然后降采样得到16倍降采样的二维特征。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,这些特征被展平成一维,并输入到第三阶段,该阶段由N_B个TFB-GeGLU Block组成。最后,通过对比图像特征和语言特征,来学习对比损失函数。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们致力于简单有效的scaling law,只考虑模型的宽度C和模型第三阶段的深度N_B,因此在scaling到更大的模型中,通过模型的参数规模可以直接反推需要多大的宽度和深度,进而实现模型的scaling。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多项SOTA

零样本性能上面,研究结果显示,ViTamin-L的零样本ImageNet准确率比ViT-L/14高出了2.0%。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

当将特征分辨率增加到576个patch时,ViTamin-L的准确率进一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38个数据集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且参数数量只有ViT-H/14的一半。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,当进一步扩大模型规模时,参数量为436M的ViTamin-XL达到了82.9%的ImageNet零样本准确率,超过了4.4B参数量的EVA-E取得的82.0%。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们进一步验证了ViTamin模型对下游任务而言是个强大的视觉编码器Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作者们引入了一系列下游任务,包括开放词汇检测和分割,以及多模态大模型(LMMs)。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin在开放词汇检测任务OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8个开放词汇分割任务中,相比ViT-L平均提升了2.6%。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

ViTamin能直接迁移到多模态大模型诸如LLaVA上,并在12个多模态问答等基准上表现出色。值得注意的是,ViTamin在7个开放词汇分割基准上创造了新SOTA。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这项工作中,作者们建立了主流视觉模型在视觉语言情境下的评估基准,并对它们进行了重新基准测试。作者们从数据可扩展性、模型可扩展性、特征分辨率和混合架构四个方面考察了主流的视觉模型。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024

这四个方面的关键发现为ViTamin的设计提供指导,ViTamin模型不仅在零样本ImageNet准确率和平均38个数据集准确率方面全面超越ViT,而且在包括开放词汇检测和分割以及大型多模态模型在内的22个下游任务上达到了最新的技术水平。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来自智能创作团队

智能创作团队是字节跳动 AI & 多媒体技术团队,覆盖了计算机视觉、音视频编辑、特效处理等技术领域。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们借助公司丰富的业务场景、基础设施资源和技术协作氛围,实现了前沿算法 – 工程系统 – 产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。
目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://arxiv.org/pdf/2404.02132.pdfXjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
项目主页:Xjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://beckschen.github.io/vitaminXjv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务中各项服务流程融合起来。该研究全面梳理了 国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞的强大工具。发表在最新一期《天体物理学杂 21世纪经济报道见习记者 顾婷婷 杭州报道如何让沉睡在实验室里的专利真正应用到车间,真正面向市场,转化为真正的新质生产力?3月19日,由国家知识产权局组织的高校和科研机构存量专利盘活 有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权其型号。这可能是为了向中国的iPhone客户提 3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一位观众与库克自拍合影,但引人注目的是她手中 3月24日是第29个世界防治结核病日,我国的宣传主题是“你我共同努力,终结结核流行”。在北京大学社会化媒体研究中心21日举办的“技术升级,加速我国终结结核流行进程”主题沙龙上,中国疾控中心结 。

本文链接:字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024http://www.sushuapos.com/show-2-5471-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 68万奖金角逐,2024华为软件精英挑战赛全球总决赛获奖名单公布!

下一篇: 谁在领导AI专利竞赛?上榜的有这些公司

热门资讯

  • 我国科学家在铁电隧道结存储器研究中取得新进展

    记者从中国科学院金属研究所获悉,该所沈阳材料科学国家研究中心胡卫进研究员与合作者,提出利用缓冲层定量调控薄膜应变,延迟铁电薄膜晶格弛豫从而增强

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • Kimi概念股风起:月之暗面的资本征途与技术突破

    21世纪经济报道记者雷晨 北京报道随着人工智能技术的飞速发展,Kimi概念股成为资本市场的新宠。3月21日,受Kimi智能助手技术突破的催化,相关概

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • 国家工程师丨锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 我国建立“天-空-地-深”一体化铀矿勘查技术体系

    记者3月21日从核工业北京地质研究院(以下简称核地研院)获悉,该院自1959年成立以来,在天然铀保障、高放废物地质处置、核遥感技术与应用、分析测试等领

  • 单个颗粒无标记光学显微成像实现

    记者3月21日从中国科学技术大学获悉,该校物理学院张斗国教授课题组,提出并实现了一种基于矢量光场调控原理的动量空间偏振滤波器件。该滤波器件安装

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

  • “捕风捉光”,气象服务助力新能源发电

    今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应

  • 甘蓝育种大突破:“一步法”快速创制不育系

    3月24日,记者从中国农业科学院获悉,该院蔬菜花卉研究所甘蓝类蔬菜遗传育种创新团队,开发了快速创制细胞质雄性不育系的新方法——“一步法

推荐资讯

  • 天利科技收监管函 事关2025年业绩预告

      中新经纬3月27日电 27日,深交所创业板公司管理部对江西天利科技股份有限公司(下称“天利科技”)出具监管函。  来源:深交所网站  深交所创业板公司管理部表示,2026年1

  • 2025年中国新设个体工商户1619.4万户

      中新经纬3月26日电 据国家市场监管总局微信公众号26日消息,近日,国家市场监管总局公布数据显示,2025年全国新设个体工商户1619.4万户,总体发展平稳,为繁荣消费、稳定就业、服

  • 三大运营商豪气分红!中国移动全年拟派息超千亿

      中新经纬3月26日电 三大运营商2025年成绩单出炉。  中国移动26日在港交所披露《2025年年度业绩》称,2025年公司营运收入稳健增长,达到10502亿元,同比增长0.9%;股东应占利

  • 商务部:扩大服务出口,拓展服务消费新空间

      中新经纬3月26日电 商务部新闻发言人何咏前表示,将更好优化入境消费环境,扩大服务出口,拓展服务消费新空间。  26日,商务部召开例行新闻发布会。会上有记者提问:近日,商务部

  • 刘强东大手笔造游艇,计划投150亿元

      中新经纬3月26日电 据辽宁日报消息,3月25日,大连市政府与深圳市探海游艇产业发展有限公司签署战略合作协议,总投资150亿元的探海游艇制造基地与游艇运营项目正式落户大连。

  • 国家医保局:长期护理保险不设起付线

      中新经纬3月26日电 26日,国新办就加快建立长期护理保险制度有关情况举行新闻发布会。国家医保局待遇保障司负责人张西凡在发布会上表示,长期护理保险不设起付线。  张西

  • 雷军辞任金山云董事长

      中新经纬3月26日电 3月25日,金山云控股有限公司(下称“金山云”)发布公告称,雷军因其他工作安排,已辞任非执行董事,自3月25日生效。辞任非执行董事后,雷军亦不再担任董事长、

  • 东阿阿胶副总裁李庆川辞职

      中新经纬3月26日电 东阿阿胶股份有限公司(下称“东阿阿胶”)近日发布公告称,董事会收到李庆川提交的书面辞职报告,由于工作变动原因,李庆川申请辞去公司副总裁职务。辞职后

  • 外媒:欧洲天然气库存快空了

      中新经纬3月25日电 据彭博社报道,欧洲即将进入天然气储备季,但储罐已快耗尽,这意味着它将需要与亚洲买家竞争以确保供应。  报道称,根据欧洲天然气基础设施公司的数据,目前

  • 沪指收复3900点!券商:A股仍处牛市,大盘蓝筹有较好安全边际|宅男财经

      【宅男财经|首席面对面】25日,沪指高开后持续拉升,盘中重回3900点,超5000股上涨,玻璃纤维、CPO、高速铜连接等算力硬件题材活跃。  昨日,A股在地缘政治风险缓和预期的背

  • 中基协:2月新备案私募基金规模1329.93亿元

      中新经纬3月24日电 “中国证券投资基金业协会”微信号24日发布私募基金管理人登记及产品备案月报,2026年2月,新备案私募基金数量1899只,新备案规模1329.93亿元。  私募基

  • 欧美股市巨震!国际油价跳水跌超10%,黄金反弹超300美元

      中新经纬3月24日电 国际金融市场在美国与伊朗各执一词的谈判罗生门中摇摆。  美国总统特朗普当地时间23日接受采访时称,同伊朗谈判“进展非常顺利”。按照特朗普的说法

  • 日榜
  • 周榜
  • 月榜