设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

8.3K Stars!《多模态大语言模型综述》重大升级

2024-04-11 07:26:04 来源: 量子位

《A Survey on Multimodal Large Language Models》iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年 6 月底,我们在 arXiv 上发布了业内首篇多模态大语言模型领域的综述《A Survey on Multimodal Large Language Models》,系统性梳理了多模态大语言模型的进展和发展方向,目前论文引用 120+,开源 GitHub 项目获得 8.3K Stars。自论文发布以来,我们收到了很多读者非常宝贵的意见,感谢大家的支持!iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

去年以来,我们见证了以 GPT-4V 为代表的多模态大语言模型(Multimodal Large Language Model,MLLM)的飞速发展。为此我们对综述进行了重大升级,帮助大家全面了解该领域的发展现状以及潜在的发展方向。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 发展脉络图iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 脱胎于近年来广受关注的大语言模型(Large Language Model , LLM),在其原有的强大泛化和推理能力基础上,进一步引入了多模态信息处理能力。相比于以往的多模态方法,例如以 CLIP 为代表的判别式,或以 OFA 为代表的生成式,新兴的 MLLM 展现出一些典型的特质:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(1)模型大。MLLM 通常具有数十亿的参数量,更多的参数量带来更多的潜力;(2)新的训练范式。为了激活巨大参数量的潜力,MLLM 采用了多模态预训练、多模态指令微调等新的训练范式,与之匹配的是相应的数据集构造方式和评测方法等。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这两种特质的加持下,MLLM 涌现出一些以往多模态模型所不具备的能力,例如给定图片进行 OCR￾Free 的数学推理、给定图片进行故事创作和理解表情包的深层含义等。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级

本综述主要围绕 MLLM 的基础形式、拓展延伸以及相关研究课题进行展开,具体包括:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • MLLM 的基础构成与相关概念,包括架构、训练策略、数据和评测;
  • MLLM 的拓展延伸,包括输入输出粒度、模态、语言和场景的支持;
  • MLLM 的相关研究课题,包括多模态幻觉、多模态上下文学习(Multimodal In-Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)、LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)。

架构

对于多模态输入-文本输出的典型 MLLM,其架构一般包括编码器、连接器以及 LLM。如要支持更多模态的输出(如图片、音频、视频),一般需要额外接入生成器,如下图所示:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

8.3K Stars!《多模态大语言模型综述》重大升级iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MLLM 架构图iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,模态编码器负责将原始的信息(如图片)编码成特征,连接器则进一步将特征处理成LLM 易于理解的形式,即视觉 Token。LLM 则作为“大脑”综合这些信息进行理解和推理,生成回答。目前,三者的参数量并不等同,以 Qwen-VL[1]为例,LLM 作为“大脑”参数量为 7.7B,约占总参数量的 80.2%,视觉编码器次之(1.9B,约占 19.7%),而连接器参数量仅有 0.08B。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于视觉编码器而言,增大输入图片的分辨率是提升性能的有效方法。一种方式是直接提升分辨率,这种情况下需要放开视觉编码器进行训练以适应更高的分辨率,如 Qwen-VL[1]等。另一种方式是将大分辨率图片切分成多个子图,每个子图以低分辨率送入视觉编码器中,这样可以间接提升输入的分辨率,如 Monkey[2]等工作。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于预训练的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支持英文,而后两者中英双语支持得更好。就性能影响而言,加大 LLM 的参数量可以带来显著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上进行实验,发现提升LLM 大小可以带来各 benchmark 上的显著提升,在 34B 的模型上更涌现出 zero-shot 的中文能力。除了直接增大 LLM 参数量,近期火热的 MoE 架构则提供了更高效实现的可能性,即通过稀疏计算的方式,在不增大实际计算参数量的前提下提高总的模型参数量。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相对前两者来说,连接器的重要性略低。例如,MM1[7]通过实验发现,连接器的类型不如视觉 token 数量(决定之后 LLM 可用的视觉信息)及图片的分辨率(决定视觉编码器的输入信息量)重要。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据与训练

MLLM 的训练大致可以划分为预训练阶段、指令微调阶段和对齐微调阶段。预训练阶段主要通过大量配对数据将图片信息对齐到 LLM 的表征空间,即让 LLM 读懂视觉 Token。指令微调阶段则通过多样化的各种类型的任务数据提升模型在下游任务上的性能,以及模型理解和服从指令的能力。对齐微调阶段一般使用强化学习技术使模型对齐人类价值观或某些特定需求(如更少幻觉)。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

早期工作在第一阶段主要使用粗粒度的图文对数据,如 LAION-5B,这些数据主要来源于互联网上的图片及其附带的文字说明,因此具有规模大(数 10 亿规模)但噪声多、文本短的特点,容易影响对齐的效果。后来的工作则探索使用更干净、文本内容更丰富的数据做对齐。如 ShareGPT4V[8]使用 GPT-4V 生成的详细描述来做更细粒度的对齐,在一定程度上缓解了对齐不充分的问题,获得了更好的性能。但由于 GPT-4V 是收费的,这种类型的数据规模通常较小(数百万规模)。此外,由于数据规模受限,其包含的世界知识也是有限的,比如是否能够识别出图像中的建筑为广州塔。此类世界知识通常储备于大规模的粗粒度图文对中。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第二阶段的微调数据一方面可以来源于各种任务的数据,如 VQA 数据、OCR 数据等,也可以来源于 GPT-4V 生成的数据,如问答对。虽然后者一般能够生成更复杂、更多样化的指令数据,但这种方式也显著地增加了成本。值得一提的是,第二阶段的训练中一般还会混合部分纯文本的对话数据,这类数据可以视为正则化的手段,保留 LLM 原有的能力与内嵌知识。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三阶段的数据主要是针对于回答的偏好数据。这类数据通常由人工标注收集,因而成本较高。近期出现一些工作使用自动化的方法对来自不同模型的回复进行偏好排序,如 Silkie[9]通过调用 GPT-4V 来收集偏好数据。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其他技术方向

除了提升模型的基础能力(如支持的输入/输出形式、性能指标)外,还有一些有意思的问题以及待探索的方向。本综述中主要介绍了多模态幻觉、多模态上下文学习(Multimodal In￾Context Learning,M-ICL)、多模态思维链(Multimodal Chain of Thought,M-CoT)和 LLM 辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)等。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态幻觉的研究主要关注模型生成的回答与图片内容不符的问题。视觉和文本本质上是异构的信息,完全对齐两者本身就具有相当大的挑战。增大图像分辨率和提升训练数据质量是降低多模态幻觉的两种最直观的方式,此外我们仍然需要在原理上探索多模态幻觉的成因和解法。例如,当前的视觉信息的 Token 化方法、多模态对齐的范式、多模态数据和 LLM 存储知识的冲突等对多模态幻觉的影响仍需深入研究。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态上下文学习技术为少样本学习方法,旨在使用少量的问答样例提示模型,提升模型的few-shot 性能。提升性能的关键在于让模型有效地关注上下文,并将内在的问题模式泛化到新的问题上。以 Flamingo[10]为代表的工作通过在图文交错的数据上训练来提升模型关注上下文的能力。目前对于多模态上下文学习的研究还比较初步,有待进一步探索。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多模态思维链的基本思想是通过将复杂的问题分解为较简单的子问题,然后分别解决并汇总。相较于纯文本的推理,多模态的推理涉及更多的信息来源和更复杂的逻辑关系,因此要复杂得多。当前该方面的工作也比较少。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

LLM 辅助的视觉推理方法探索如何利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。相比于通过端到端训练获得单一模型,这类方法一般关注如何通过免训练的方式扩展和加强 LLM 的能力,从而构建一个综合性的系统。iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

挑战和未来方向

针对 MLLM 的研究现状,我们进行了深入思考,将挑战与可能的未来发展方向总结如下:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 现有 MLLM 处理多模态长上下文的能力有限,导致模型在长视频理解、图文交错内容理解等任务中面临巨大挑战。以 Gemini 1.5 Pro 为代表的 MLLM 正在掀起长视频理解的浪潮,而多模态图文交错阅读理解(即长文档中既有图像也有文本)则相对空白,很可能会成为接下来的研究热点。
  • MLLM 服从复杂指令的能力不足。例如,GPT-4V 可以理解复杂的指令来生成问答对甚至包含推理信息,但其他模型这方面的能力则明显不足,仍有较大的提升空间。
  • MLLM 的上下文学习和思维链研究依然处于初步阶段,相关的能力也较弱,亟需相关底层机制以及能力提升的研究探索。
  • 开发基于 MLLM 的智能体是一个研究热点。要实现这类应用,需要全面提升模型的感知、推理和规划能力。
  • 安全问题。MLLM 容易受设计的恶意攻击影响,生成有偏的或不良的回答。该方面的相关研究也仍然欠缺。
  • 目前 MLLM 在训练时通常都会解冻 LLM,虽然在训练过程中也会加入部分单模态的文本训练数据,但大规模的多模态和单模态数据共同训练时究竟对彼此互有增益还是互相损害仍然缺乏系统深入的研究。

更详细内容请阅读iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://arxiv.org/pdf/2306.13549.pdfiyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

项目链接:iyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Modelsiyb速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:8.3K Stars!《多模态大语言模型综述》重大升级http://www.sushuapos.com/show-2-4733-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了

下一篇: 2019年全球云计算企业排行榜TOP50(2019年全球云计算企业排行榜TOP50)

热门资讯

  • “桃花癫”是种病,得治

    民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 负碳复合建材助力减缓全球变暖

    美国太平洋西北国家实验室的科学家设计了一种复合装饰材料,可以储存更多二氧化碳,提供了一种既符合建筑规范,又比标准复合饰面板便宜的“负碳”选择。

  • 迄今最大三维宇宙地图发布

    国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞

  • 我国首个适应高寒气候肉羊品种通过鉴定

    记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 探月工程四期鹊桥二号中继星成功发射

    3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。火箭飞行24分钟后,星箭分离,将鹊桥二号中继星

  • 雌蛙会向雄蛙“暗送秋波”?这项研究给出了答案

    记者3月21日从安徽师范大学获悉,该校生命科学学院张方教授课题组通过野外自然抱对、控制实验下抱对以及视频回放等实验手段,证实他们前期提出的,眨眼

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • “AI钢铁侠”黄仁勋,又进化了英伟达

      “AI钢铁侠”黄仁勋,又进化了英伟达  作 者丨倪雨晴  2024年,英伟达一年一度的GTC大会已然成为AI界春晚,现场座无虚席,全球AI爱好者翘首以待黄仁勋的独家SOLO。  北京

  • 被美国诉讼垄断:iPhone回应想让苹果变成安卓!iOS开放还怎么玩

    3月22日消息,美国司法部对iPhone提起诉讼,声称其苹果生态系统构成垄断。司法部表示,iPhone将苹果生态系统视为一种垄断,以牺牲消费者、开发者和竞争对手的

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

推荐资讯

  • 日榜
  • 周榜
  • 月榜