设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

8.3K Stars!《多模态大语言模型综述》重大升级

发布时间: 2024-04-11 07:26:04 来源: 量子位

《A Survey on Multimodal Large Language Models》fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年 6 月底,我们在 arXiv 上发布了业内首篇多模态大语言模型领域的综述《A Survey on Multimodal Large Language Models》,系统性梳理了多模态大语言模型的进展和发展方向,目前论文引用 120+,开源 GitHub 项目获得 8.3K Stars。自论文发布以来,我们收到了很多读者非常宝贵的意见,感谢大家的支持!fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年以来,我们见证了以 GPT-4V 为代表的多模态大语言模型(Multimodal Large Language Model,MLLM)的飞速发展。为此我们对综述进行了重大升级,帮助大家全面了解该领域的发展现状以及潜在的发展方向。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 发展脉络图fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 脱胎于近年来广受关注的大语言模型(Large Language Model , LLM),在其原有的强大泛化和推理能力基础上,进一步引入了多模态信息处理能力。相比于以往的多模态方法,例如以 CLIP 为代表的判别式,或以 OFA 为代表的生成式,新兴的 MLLM 展现出一些典型的特质:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(1)模型大。MLLM 通常具有数十亿的参数量,更多的参数量带来更多的潜力;(2)新的训练范式。为了激活巨大参数量的潜力,MLLM 采用了多模态预训练、多模态指令微调等新的训练范式,与之匹配的是相应的数据集构造方式和评测方法等。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这两种特质的加持下,MLLM 涌现出一些以往多模态模型所不具备的能力,例如给定图片进行 OCR￾Free 的数学推理、给定图片进行故事创作和理解表情包的深层含义等。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级

本综述主要围绕 MLLM 的基础形式、拓展延伸以及相关研究课题进行展开,具体包括:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • MLLM 的基础构成与相关概念,包括架构、训练策略、数据和评测;
  • MLLM 的拓展延伸,包括输入输出粒度、模态、语言和场景的支持;
  • MLLM 的相关研究课题,包括多模态幻觉、多模态上下文学习(Multimodal In-Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)、LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)。

架构

对于多模态输入-文本输出的典型 MLLM,其架构一般包括编码器、连接器以及 LLM。如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如下图所示:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 架构图fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成LLM 易于理解的形式,即视觉 Token。LLM 则作为“大脑”综合这些信息进行理解和推理,生成回答。目前,三者的参数量并不等同,以 Qwen-VL[1]为例,LLM 作为“大脑”参数量为 7.7B,约占总参数量的 80.2%,视觉编码器次之(1.9B,约占 19.7%),而连接器参数量仅有 0.08B。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于视觉编码器而言,增大输入图片的分辨率是提升性能的有效方法。一种方式是直接提升分辨率,这种情况下需要放开视觉编码器进行训练以适应更高的分辨率,如 Qwen-VL[1]等。另一种方式是将大分辨率图片切分成多个子图,每个子图以低分辨率送入视觉编码器中,这样可以间接提升输入的分辨率,如 Monkey[2]等工作。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于预训练的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支持英文,而后两者中英双语支持得更好。就性能影响而言,加大 LLM 的参数量可以带来显著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上进行实验,发现提升LLM 大小可以带来各 benchmark 上的显著提升,在 34B 的模型上更涌现出 zero-shot 的中文能力。除了直接增大 LLM 参数量,近期火热的 MoE 架构则提供了更高效实现的可能性,即通过稀疏计算的方式,在不增大实际计算参数量的前提下提高总的模型参数量。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相对前两者来说,连接器的重要性略低。例如,MM1[7]通过实验发现,连接器的类型不如视觉 token 数量(决定之后 LLM 可用的视觉信息)及图片的分辨率(决定视觉编码器的输入信息量)重要。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据与训练

MLLM 的训练大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。预训练阶段主要通过大量配对数据将图片信息对齐到 LLM 的表征空间,即让 LLM 读懂视觉 Token。指令微调阶段则通过多样化的各种类型的任务数据提升模型在下游任务上的性能,以及模型理解和服从指令的能力。对齐微调阶段一般使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

早期工作在第一阶段主要使用粗粒度的图文对数据,如 LAION-5B,这些数据主要来源于互联网上的图片及其附带的文字说明,因此具有规模大(数 10 亿规模)但噪声多、文本短的特点,容易影响对齐的效果。后来的工作则探索使用更干净、文本内容更丰富的数据做对齐。如 ShareGPT4V[8]使用 GPT-4V 生成的详细描述来做更细粒度的对齐,在一定程度上缓解了对齐不充分的问题,获得了更好的性能。但由于 GPT-4V 是收费的,这种类型的数据规模通常较小(数百万规模)。此外,由于数据规模受限,其包含的世界知识也是有限的,比如是否能够识别出图像中的建筑为广州塔。此类世界知识通常储备于大规模的粗粒度图文对中。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二阶段的微调数据一方面可以来源于各种任务的数据,如 VQA 数据、OCR 数据等,也可以来源于 GPT-4V 生成的数据,如问答对。虽然后者一般能够生成更复杂、更多样化的指令数据,但这种方式也显著地增加了成本。值得一提的是,第二阶段的训练中一般还会混合部分纯文本的对话数据,这类数据可以视为正则化的手段,保留 LLM 原有的能力与内嵌知识。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三阶段的数据主要是针对于回答的偏好数据。这类数据通常由人工标注收集,因而成本较高。近期出现一些工作使用自动化的方法对来自不同模型的回复进行偏好排序,如 Silkie[9]通过调用 GPT-4V 来收集偏好数据。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其他技术方向

除了提升模型的基础能力(如支持的输入/输出形式、性能指标)外,还有一些有意思的问题以及待探索的方向。本综述中主要介绍了多模态幻觉、多模态上下文学习(Multimodal In￾Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)和 LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)等。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态幻觉的研究主要关注模型生成的回答与图片内容不符的问题。视觉和文本本质上是异构的信息,完全对齐两者本身就具有相当大的挑战。增大图像分辨率和提升训练数据质量是降低多模态幻觉的两种最直观的方式,此外我们仍然需要在原理上探索多模态幻觉的成因和解法。例如,当前的视觉信息的 Token 化方法、多模态对齐的范式、多模态数据和 LLM 存储知识的冲突等对多模态幻觉的影响仍需深入研究。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态上下文学习技术为少样本学习方法,旨在使用少量的问答样例提示模型,提升模型的few-shot 性能。提升性能的关键在于让模型有效地关注上下文,并将内在的问题模式泛化到新的问题上。以 Flamingo[10]为代表的工作通过在图文交错的数据上训练来提升模型关注上下文的能力。目前对于多模态上下文学习的研究还比较初步,有待进一步探索。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态思维链的基本思想是通过将复杂的问题分解为较简单的子问题,然后分别解决并汇总。相较于纯文本的推理,多模态的推理涉及更多的信息来源和更复杂的逻辑关系,因此要复杂得多。当前该方面的工作也比较少。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

LLM 辅助的视觉推理方法探索如何利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。相比于通过端到端训练获得单一模型,这类方法一般关注如何通过免训练的方式扩展和加强 LLM 的能力,从而构建一个综合性的系统。fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

挑战和未来方向

针对 MLLM 的研究现状,我们进行了深入思考,将挑战与可能的未来发展方向总结如下:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 现有 MLLM 处理多模态长上下文的能力有限,导致模型在长视频理解、图文交错内容理解等任务中面临巨大挑战。以 Gemini 1.5 Pro 为代表的 MLLM 正在掀起长视频理解的浪潮,而多模态图文交错阅读理解(即长文档中既有图像也有文本)则相对空白,很可能会成为接下来的研究热点。
  • MLLM 服从复杂指令的能力不足。例如,GPT-4V 可以理解复杂的指令来生成问答对甚至包含推理信息,但其他模型这方面的能力则明显不足,仍有较大的提升空间。
  • MLLM 的上下文学习和思维链研究依然处于初步阶段,相关的能力也较弱,亟需相关底层机制以及能力提升的研究探索。
  • 开发基于 MLLM 的智能体是一个研究热点。要实现这类应用,需要全面提升模型的感知、推理和规划能力。
  • 安全问题。MLLM 容易受设计的恶意攻击影响,生成有偏的或不良的回答。该方面的相关研究也仍然欠缺。
  • 目前 MLLM 在训练时通常都会解冻 LLM,虽然在训练过程中也会加入部分单模态的文本训练数据,但大规模的多模态和单模态数据共同训练时究竟对彼此互有增益还是互相损害仍然缺乏系统深入的研究。

更详细内容请阅读fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://arxiv.org/pdf/2306.13549.pdffbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

项目链接:fbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsfbs速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而下降,特别是在下潜深度超过140米时,一分钟心跳 南方财经全媒体记者马嘉璐 研究员仇雯 广州报道凭借一纸证书,就能获批100万、500万、甚至千万元贷款……数据要素链接金融市场开辟的新财路,正吸引着越来越多的入局者。南方财经全媒 从手机到手表再到电动汽车,锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加,越来越多的锂可能会进入环境。研究人员在美国化学会2024年春季会议上展示的一项研究成果,描述了 3月22日消息,xiaomi集团的许斐在微博上表示,xiaomiCivi 4 Pro的预售业绩远超预期,尤其是春野绿配色,许多门店都出现了缺货情况。据了解,xiaomiCivi 4 Pro的春野绿后盖左侧采用了全新的绮彩鎏光工艺,通 近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023年8月29日,huaweiMate60 Pro、huaweiMate60等 记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测,该技术理论上可将图像信噪比提升 。

本文链接:8.3K Stars!《多模态大语言模型综述》重大升级http://www.sushuapos.com/show-2-4733-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了

下一篇: 2019年全球云计算企业排行榜TOP50(2019年全球云计算企业排行榜TOP50)

热门资讯

  • 我国科研团队揭示非洲猪瘟病毒感染致病机制

    记者3月18日从兰州大学获悉,该校动物医学与生物安全学院郑海学教授团队解析了非洲猪瘟病毒(ASFV)在猪体内感染的靶细胞,以及在靶细胞内延长感染的机制

  • 马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI

      马斯克用行动反击 开源自家顶级大模型 压力给到OpenAI  《科创板日报》3月18日讯(编辑 宋子乔) 似乎是为了表明自己始终坚持对AI模型开源,马斯克做出了与阿尔特曼全然

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • 我国科学家揭示东北黑土成因

    记者3月20日从中国科学院地质与地球物理研究所获悉,该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作,通过分析采集的黑土样品发现,黑

  • 甘肃首座特高压换流站迎来“新成员”

    3月18日,伴随着搬运车的轰鸣声,全国首个大规模清洁能源特高压直流输电工程的送端±800千伏特高压祁连换流站迎来了一位“新成员”—&mdas

  • 女性比男性更易失眠?什么原因导致?专家分析

    造成女性更容易睡不好的原因是多方面的,包括更年期等生理周期等,而女性长期的失眠除了会导致内分泌进一步失调,还会诱发心脏病、高血压、糖尿病、免疫

  • 饭后想吃零食或因神经元过度活跃

    那些在吃完一顿饱饭后不久就在冰箱里翻找零食的人,可能不是胃口好,而是因为寻找食物的神经元过度活跃的缘故。美国加州大学洛杉矶分校心理学家在老鼠

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 探索土卫二的蛇形机器人问世

    美国加州理工学院喷气推进实验室的一个机器人专家团队,与卡内基梅隆大学机器人研究所科学家合作,开发出一种蛇形机器人,用于调查土星第六大卫星土卫二

  • 2999元!卢伟冰:xiaomiCivi 4 Pro可能是2024年最轻薄的电话

    3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

推荐资讯

  • 日榜
  • 周榜
  • 月榜