连黑客帝国的子弹都能数清楚
还记得黑客帝国经典的子弹时间吗?
IDEA研究院最新检测模型T-Rex2,可以齐刷刷给全部识别出来~

而面对难倒一众大模型「吉娃娃or松饼」的难题,它只需被投喂一张吉娃娃的照片,就能瞬间迎刃而解。

此前,也是同样的团队,推出了基于视觉提示的检测模型T-Rex。
如今,他们将视觉和文本提示融合,相互弥补各自的缺陷,实现了更强的目标检测能力。
并且与多目标跟踪模型结合后,各种视频检测任务也不在话下。

来看新研究到底说了什么。
打通文本和视觉提示
在开集目标检测领域,尽管文本提示受到一定的青睐,但也存在一定的局限性。
比如长尾数据短缺。稀有或者全新的物体类别的数据稀缺可能会削弱其学习效率。还有描述上的局限性,对于一些难以用语言描绘的对象,因受限于无法精确描述,也会削弱效果。
而视觉提示提供了更直观且直接的对象表示方法,但在捕捉常见对象的概念时效果就会很差。
T-Rex2通过对比学习在单个模型中整合两种提示,因此接受多种格式的输入,包括文本提示、视觉提示以及两者的组合。

在不同场景中,它可以通过在两种提示方式之间切换来处理。
因此,它大致有三种工作模式:
文本提示模式、交互式视觉提示模式、通用视觉提示模式。

以通用视觉提示模式为例,用户可以通过向模型提供任意数量的示例图片,来自定义特定对象的视觉嵌入,然后使用这个嵌入来检测任意图像中的对象。
也就是不需要用户与模型直接互动,就能完成检测任务。
最终在在四个学术基准测试集 COCO, LVIS, ODinW, 和Roboflow100 上取得了 Zero-Shot SOTA的性能。

开箱即用诸多领域
无需重新训练或微调,T-Rex2即可检测模型在训练阶段从未见过的物体。
该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注领域提供新的解决方案。

除此之外,结合现有的多目标跟踪模型( 如ByteTrack ),T-Rex2还可用于视频检测任务。

事实上,这种跨图检测能力,让目标检测技术在生产生活中可以真正开始广泛应用。
比如工业生产流水线器件检测,交通航运领域的船舶、飞机检测,农业领域的农作物、果蔬检测,生物医学领域的细胞、组织检测,物流领域的货物检测,环境领域的野生动物监测等。
现在,T-Rex2让通用物体检测又迈出了新的一步。
试玩链接:
https://deepdataspace.com/playground/ivp
T-Rex2 API:https://github.com/IDEA-Research/T-Rex
论文链接:
https://arxiv.org/abs/2403.14610
— 完 —
日前,盛世盈创氢能科技(陕西)有限公司(以下简称盛世盈创)与协氢(上海)新能源科技有限公司宣布达成战略合作,共同推进风冷氢燃料电池电堆全自动化生产线(以下简称风冷堆)的研发与生产。双方协议,将建设目 记者3月21日获悉,由中国科学院自动化研究所和中国科学院香港创新研究院联合研发的医疗领域AI多模态大模型——CARES Copilot 1.0日前在香港正式发布,现已面向香港神经外科医生开放使 记者3月21日获悉,全球植物科学期刊《分子植物》刊载了中国科学家的最新研究,中国农业科学院作物科学研究所、国家南繁研究院与阿里达摩院(湖畔实验室)联合研发出全流程智慧育种平台,实现了育种数 3月22日消息,今天,数码博主“数码闲聊站”曝光了一部新款千元机的部分配置。该博主表示,欧加(OPPO/一加)有个5500mAh超大电池的千元曲屏机,正在测试IP68级防尘防水效果,主打就是防水抗摔耐用。该博主最 3月22日记者获悉,中国移动北京公司(北京移动)已于近日在北京亦庄高级别自动驾驶示范区永昌路段完成5G-A网络精品覆盖。这也是北京首条同时部署了5G-A网络和车网算力协同技术的车联网试验道路,为 科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症的高风险有关。吸烟者相较于不吸烟者,通常体 。本文链接:吉娃娃or松饼难题被解决!IDEA研究院新模型打通文本视觉Prompthttp://www.sushuapos.com/show-2-4433-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。