吉娃娃or松饼难题被解决！IDEA研究院新模型打通文本视觉Prompt

发布时间: 2024-04-01 14:24:06 来源：量子位

观看：360

连黑客帝国的子弹都能数清楚

还记得黑客帝国经典的子弹时间吗？

IDEA研究院最新检测模型T-Rex2，可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题，它只需被投喂一张吉娃娃的照片，就能瞬间迎刃而解。

此前，也是同样的团队，推出了基于视觉提示的检测模型T-Rex。

如今，他们将视觉和文本提示融合，相互弥补各自的缺陷，实现了更强的目标检测能力。

并且与多目标跟踪模型结合后，各种视频检测任务也不在话下。

来看新研究到底说了什么。

打通文本和视觉提示

在开集目标检测领域，尽管文本提示受到一定的青睐，但也存在一定的局限性。

比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性，对于一些难以用语言描绘的对象，因受限于无法精确描述，也会削弱效果。

而视觉提示提供了更直观且直接的对象表示方法，但在捕捉常见对象的概念时效果就会很差。

T-Rex2通过对比学习在单个模型中整合两种提示，因此接受多种格式的输入，包括文本提示、视觉提示以及两者的组合。

在不同场景中，它可以通过在两种提示方式之间切换来处理。

因此，它大致有三种工作模式：

文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例，用户可以通过向模型提供任意数量的示例图片，来自定义特定对象的视觉嵌入，然后使用这个嵌入来检测任意图像中的对象。

也就是不需要用户与模型直接互动，就能完成检测任务。

最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域

无需重新训练或微调，T-Rex2即可检测模型在训练阶段从未见过的物体。

该模型不仅可应用于包括计数在内的所有检测类任务，还为智能交互标注领域提供新的解决方案。

除此之外，结合现有的多目标跟踪模型（如ByteTrack )，T-Rex2还可用于视频检测任务。

事实上，这种跨图检测能力，让目标检测技术在生产生活中可以真正开始广泛应用。

比如工业生产流水线器件检测，交通航运领域的船舶、飞机检测，农业领域的农作物、果蔬检测，生物医学领域的细胞、组织检测，物流领域的货物检测，环境领域的野生动物监测等。

现在，T-Rex2让通用物体检测又迈出了新的一步。

试玩链接：
https://deepdataspace.com/playground/ivp
T-Rex2 API：https://github.com/IDEA-Research/T-Rex
论文链接：
https://arxiv.org/abs/2403.14610

— 完 —

3月20日对于我国抗衰老研究是个特殊的日子，经过近3年的不懈努力，八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大课题，抗衰老研究已成为世界生命科学领域关注 3月21日是世界睡眠日，今年中国主题为“健康睡眠人人共享”。人的一生约有三分之一的时间是在睡眠中度过，睡眠、运动、营养被视为保障机体正常发育和健康的三大要素。关于睡眠有哪些常见认知误记者从近日举办的新疆筹建融合算力中心研讨会上获悉，新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底，建成超算算力（FP64）不低于200P Flops、智算算力（FP16）不低于400P F “截至2023年底，与2018年同期相比，京津冀治理区浅层地下水位平均回升2.59米，深层承压水水位平均回升7.06米。”3月22日世界水日到来之际，水利部水资源管理司副司长张鸿星21日接受科技日报记者采所谓香喷喷的婴儿，到底是源于人们的爱意，还是说确有其香？《通讯·化学》21日一项小型研究首次分析了婴儿和青少年体味化学组成的差异。研究显示，有两种较难闻的化合物仅在青少年体味样本中 3月23日消息，xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照，该系列共有三款颜色，分别是蓝色、粉色和黑与白，定价为3599元，将于4月1日开始发售。据了解，xiaomiCivi 4 Pro限定色整体设计更像专业。

本文链接：吉娃娃or松饼难题被解决！IDEA研究院新模型打通文本视觉Prompthttp://www.sushuapos.com/show-2-4433-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：一款手游有400+个AI角色！腾讯游戏新系统炸场GDC：训练成本大减90%

下一篇： GPT4单项仅7.1分，揭露大模型写代码三大短板，最新基准测试来了

吉娃娃or松饼难题被解决！IDEA研究院新模型打通文本视觉Prompt

打通文本和视觉提示

开箱即用诸多领域

热门资讯

推荐资讯

科技最热文章