设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

发布时间: 来源: 量子位

智能模型应融入对视觉/语音的理解89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

编辑部 整理自 AIGC峰会89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAI89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在过去一年中,通义千问系列模型持续开源。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不仅频繁放出多种版本,涉及不同的规模和模态,成绩在大模型竞技场中也名列前茅。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如目前最大的72B模型,表现就胜过了Llama 2-70B和MoE开源模型Mixtral。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

而纵观整个大模型行业,开源开放也正促进着AIGC新应用的涌现。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去一年,通义千问团队都做了什么,又有哪些经验值得开源模型开发者参考?89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国AIGC产业峰会上,阿里高级算法专家林俊旸给出了他的答案。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

林俊旸参与了通义千问大模型的研发、开源、与外部系统融合等探索工作,还曾参与超大规模预训练模型系列M6、通用统一多模态预训练模型OFA等大模型的打造。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了完整体现林俊旸的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

演讲要点

  • 开源大模型要更深地融入整个生态,才能给用户带来便捷的使用体验。
  • 除了基础模型Benchmark之外,多语言、长序列和Agent能力,也是衡量大模型表现的关键指标。
  • 大语言模型发展下去,终将变成多模态模型,因为一个非常智能的模型,不仅要有语言能力,还应该融入对视觉语音方面的理解。

以下为林俊旸演讲全文:89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

融入生态,让大模型使用更加便捷

相信国内朋友都听说过通义千问的开源模型,我们从去年8月份开始一直开源,到现在我们开源的系列模型已经非常多了,刚开始先从7B、14B开始开源,直到现在1.5系列的72B版本,用户使用下来的感觉还不错。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当然,我们的1.5系列模型,涵盖的规模非常全,除了72B还有0.5B、1.8B这样的小规模版本,最新还有一个小的MoE的模型,大概是14B的参数量,激活参数量大概是2.7B。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们的模型现在在LMSYS chatbot Arena,也就是人工评测上面取得比较不错的成绩,在刚开始登榜的时候,我们是开源的第一名,刚刚才被千亿参数的Command-R-Plus给超越。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果只在相同规模中比较,那么截止到现在(4月17日),我们的72B模型还是最好的。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除此之外,我们也听从了开发者的建议,发布了32B模型,因为开发者反馈说72B模型太大,14B又好像还不够用。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新推出的这个32B模型也取得了比较不错的成绩,跻身到了前15的行列,表现非常接近72B的模型,跟MoE架构的Mixtral相比也具有一定优势。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而除了不断提高模型的表现,最近几个月我们还做了一些不太一样的事情,就是让千问系列模型更好地去融入大模型生态,让用户使用起来更加便捷。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

具体的举措有这样几点,第一是千问的代码已经融入了Hugging Face的官方代码当中,大家使用通义千问1.5的模型时就不需要再用Transformer code来调用了。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除此之外,我们很多三方框架都做了比较好的支持,包括LLama.cpp、vLLM,现在还有像Ollama也非常方便,都可以一键使用我们的模型。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果你用LM Studio,也可以从中使用我们的GGUF的模型。如果想对我们模型进行微调的话,其实可以用到比如说Axolotl以及国内的LlaMA-Factory等工具。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多语言和长文本能力是关键指标

接下来我会给大家详细介绍一下我们模型的构成以及模型当前表现水平。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先要看Base Language Model是一个什么样的水平,因为只有基础语言模型的表现好了,才能实现对齐,去进一步做一个比较好的模型。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们各个Size都做了对比,其中72B的模型在各个Benchmark上的表现都比较有竞争力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当然,我们现在开源模型跟GPT-4还会有差距,但是相比于此前的Llama2-70B以及Mixtral,都有比较明显的优势。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

很长一段时间,如果大家关注Hugging Face Open LLM Leaderboard,会发现其实有很多模型是基于我们的72B模型微调出来的,因为海外朋友很多非常喜欢微调这个模型,然后登到这个榜上去。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

同时我们不仅仅有7B及以上的大模型,也有小一些的模型,又叫做Small Language Model这一块,我们最小的模型参数量是0.5B,也就是5亿。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们还有像1.8B、4B这些规模的模型,跟Phi-2、Gemma-2B等模型相比的话,我们的模型都非常有竞争力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另外一个方面是多语言的能力,我们此前的模型在Qwen1的时候,没有对多语言进行检测,但本质上是多语言的模型。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大家可能会有一些想法,比如说阿里训出来的模型就是中文的模型,或者是中英双语的模型,其实不是这样,我们最近对多语言能力做一些检测,发现它的表现还不错,所以我们进一步在这个基础上做了多语言方面的对齐。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在12个比较大的语言上面去跟GPT-3.5相比,我们的模型表现都比较有竞争力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

如果大家关注社交媒体,会看到有很多朋友在使用我们的多语言的能力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从目前收到的一些反馈来看,它的越南语能力还不错,还有人跟我说,孟加拉语也还可以。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最近还出现了一个模型东南亚语言模型Salior,它是基于Qwen1.5继续训练然后微调出来的。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在小模型方面,有反馈说在法语上的表现不错,家如果看ChatBot Arena法语榜上,Qwen1.5表现也是非常有竞争力的。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在长序列方面,目前我们看32K长度上的表现是比较稳定的,有些模型Size甚至可以通过外推的方式推的更长,接下来的版本也会有更长的上下文窗口。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们除了做简单的大海捞针的实验之外,也对一些针对序列评测的榜单做评估,发现我们的Chat模型在长序列方面,是可以做一些使用方面的东西。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

下一个部分就是常说的Post-training,今天大家对大模型感兴趣,主要也是因为Post-training让大模型的潜力爆发出来,能够成为一个Assistant来帮助我们。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们在Post-training做了非常长时间的工作,包括SFT(指导监督微调),主要是在数据方面做了一些比较扎实的工作。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们最近在DPO方面也做了比较多的工作,之后如果有机会会通过技术报告的方式跟大家分享更多相关的细节。我们做完这些之后,会发现模型在一些评测上面的表现更有竞争力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了人工评测之外,还有像MT-Bench和Alpaca-Eval这样的测试,我们模型的表现也都非常有竞争力,尤其是Alpaca-Eval。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

另一方面我们讲Agent方面的能力,这是我们一直非常关心的。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但我们刚开始给Qwen系列模型做SFT的时候,发现模型不太具备Agent相关的能力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

解决的方式是做更多的数据标注,时间长了之后,经验越来越丰富,就可以做一些Agent相关的任务了。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下一站是多模态Agent

今天我们还会关心另外一个问题,就是“大”模型对于很多人来说是不够用的。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因为大模型发展下去,终将变成多模态的模型,因为一个非常智能的模型,应该能够融入对视觉语音方面的理解。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去几年的时间里,我们在多模态领域也做了比较多的工作,再把之前的一些经验融入进来,就有了Qwen-VL系列模型。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Qwen-VL系列模型的训练方法也相对来说比较简单,分为三个阶段。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

首先是非常扎实对齐的预训练,实现视觉和语言模型的对齐,让我们的语言模型能够睁开双眼看世界,能够理解视觉方面的信息。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来是能力的注入和对齐,我们VL核心开发同学,他有一天刚好去医院,对医院密密麻麻拍了一个照问它说肚子疼去哪里,模型把相关信息都能准确识别出来。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

这是今天VL模型跟过去不一样的点,今天对OCR的识别比以往做的好很多。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这个基础上我们想做更加冒险的事情,比如说打造VL方面的Agent,如果能成功的话,将会非常有吸引力。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如说,如果想对手机屏幕进行操作,如果看到的是一堆代码,那么操作起来将会非常困难,而对人来说不管怎么看、不管颜色、Logo怎么变我们都能理解,屏幕上面有哪些东西我们都能做出正确选择。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以我们也让模型进行了一些尝试,发现它能准确识别出来这些位置,所以我相信随着VL模型水平不断提升,在Agent方面的潜力会越来越大。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果让我们模型看见世界,能不能让它听见呢?方法也非常简单,简单说就是把Audio Encoder接入我们的模型,再基于刚才所说的几个阶段进行训练,就能得到非常好的效果。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

而能够听见声音的大模型,可以做的事情非常多。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如我在海外旅游,到了某个国家去,不太会说当地的语言,希望有一款产品能帮我进行翻译。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在这种产品背后需要解决几个问题,需要先对语音进行识别,然后再进行机器翻译,这个过程其实非常麻烦。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但有了大模型之后,这样的任务只需要一个prompt就能解决,并且还能翻译成不同的语言,只需要跟模型交互就可以了。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除此之外,还有对自然声音和音乐的理解,ASR模型只能理解人的说话并转成文字,但现实中的声音包括自然声音以及音乐等多种类型。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而我们的模型可以做音乐的赏析,听到一段声音就能写出一首诗,可以看到大语言模型在多模态方面潜力十足。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会

另外,今年非常重要的一个趋势是大模型与视频的结合,我们下一步会做出更多模态,其中视频就是一个重点。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后我做一个简单的总结,我们现在的Base模型和Chat模型每一次都会推出几个版本,最新的模型就在几个小时前,还推出了code专项模型,叫做CodeQwen 1.5,是一个7B规模的模型,在代码方面的Benchmark表现比较突出,大家可以去尝试。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来我们会去做进一步的Scaling,包括模型本身和数据的scaling,接下来还有模态方面的scaling,也就是接入更多的模态。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们最终的目标是实现一个非常强大的大预言模型,能够理解各种模态的信息,甚至实现不同模态的输入和输出。所以,接下来大家可以持续关注我们的进展。89Q速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会 3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造,是山西省目前唯一的垂直行业类智 在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月18日,故宫博物院与钉钉战略合作签约仪式在故 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展:他们在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验技术, 2024年2月,OpenAI公司推出了文生视频人工智能(AI)模型Sora。OpenAI展示了Sora利用少量简短文字提示即可创建逼真视频的能力,并提供了包括一位女士在闪烁着霓虹灯的东京街道漫步,以及一只狗在两个 3月22日消息,今天,数码博主“数码闲聊站”曝光了一部新款千元机的部分配置。该博主表示,欧加(OPPO/一加)有个5500mAh超大电池的千元曲屏机,正在测试IP68级防尘防水效果,主打就是防水抗摔耐用。该博主最 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 。

本文链接:阿里林俊旸:大模型对很多人来说不够用,打造多模态Agent是关键 | 中国AIGC产业峰会http://www.sushuapos.com/show-2-5644-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: AI教母李飞飞首次创业!成立“空间智能”公司,已完成种子轮

下一篇: 一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%

热门资讯

推荐资讯

  • 深证成指收涨1.13%,锂电池概念持续走强

      中新经纬3月27日电 27日,A股三大指数低开高走,深证成指领涨。截至收盘,上证指数涨0.63%,报3913.72点;深证成指涨1.13%,报13760.37点;创业板指涨0.71%,报3295.88点。  Wind截图

  • 创业板指半日涨0.83% 创新药概念多股涨停

      中新经纬3月27日电 周五早盘,A股三大指数低开高走。截至午间收盘,上证指数涨0.26%,报3899.12点;深证成指涨0.93%,报13732.34点;创业板指涨0.83%,报3299.57点。  沪深两市半日

  • 推广视频涉嫌侮辱消费者,罗技中国致歉

      中新经纬3月27日电 3月26日晚间,罗技中国在官方微博发布声明,就“罗技G官方旗舰店”发布违规内容致歉。  来源:“罗技中国”微博账号  中新经纬注意到,此前有报道称,3月2

  • 美股收跌,纳指进入回调区间,国际油价大涨

      中新经纬3月27日电 美东时间周四,美国三大股指全线收跌,纳指进入回调区间,即较其最近的高点下跌10%以上。来源:Wind  截至收盘,道指跌1.01%报45960.11点,标普500指数跌1.74%

  • 吉比特2025年净利增近九成 拟每10股派70元

      中新经纬3月26日电 26日,吉比特披露2025年年度报告。  报告期内,公司营业收入约62.04亿元,同比增长67.89%;归母净利润约17.94亿元,同比增长89.82%。  分红方面,吉比特拟向

  • 瑞银:2027年初黄金目标价5900美元

      中新经纬3月26日电 (罗琨)26日,中新经纬获悉,瑞银财富管理投资总监办公室(CIO)发表机构观点称,黄金仍将发挥对冲作用,预期黄金2027年初目标价将在每盎司5900美元。  本周

  • 沪指半日跌0.58% 光伏设备板块集体回调

      中新经纬3月26日电 周四早盘,A股三大指数早盘冲高回落。截至午间收盘,上证指数跌0.58%,报3909.16点;深证成指跌0.38%,报13748.30点;创业板指跌0.07%,报3314.64点。  沪深两市

  • 外媒:索尼与本田放弃联合开发纯电动汽车

      中新经纬3月26日电 据日本共同社报道,索尼与本田放弃EV联合开发,跨界合作遇挫。  报道称,索尼集团与本田共同出资的索尼・Honda移动出行公司25日宣布,已放弃开发和

  • 商务部:1-2月智能眼镜网零额增长183.5%

      中新经纬3月25日电 据商务部网站25日消息,商务部电子商务司负责人介绍2026年1-2月我国电子商务发展情况。  2026年1-2月,我国电子商务稳定发展,数字消费稳中向好,产业电商

  • 国家能源局:截至2月底太阳能发电装机容量同比增33.2%

      中新经纬3月25日电 “国家能源局”微信号25日消息,截至2月底,太阳能发电装机容量12.3亿千瓦,同比增长33.2%。  国家能源局当日发布2026年1-2月份全国电力统计数据。  

  • A股早盘超4500股飘红 电力板块掀涨停潮

      中新经纬3月24日电 周二早盘,A股三大指数集体高开,此后探底回升。截至午间收盘,上证指数涨0.95%,报3849.34点;深证成指涨0.26%,报13380.05点;创业板指跌0.79%,报3209.76点。  

  • 三环集团澄清:预计公司2025年净亏损的消息不实

      中新经纬3月24日电 潮州三环(集团)股份有限公司(下称“三环集团”)23日发布公告称,预计公司2025年净亏损的报道与事实严重不符。  来源:三环集团公告  具体来看,三环集

  • 日榜
  • 周榜
  • 月榜