设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

2024-04-13 16:03:42 来源: 量子位

已在抱抱脸开源CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

这两种序列模型以RWKV-4架构为基础,然后作了改进。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来看看新模型在各大权威评测榜单上的成绩——CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(所有模型均基于上下文长度4096进行预训练)。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

阿拉伯语

日语-英语

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,彭博在Github有2.1k的followers。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,RWKV的重点工作将放在以下几个方向:CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:CCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

https://arxiv.org/pdf/2404.05892.pdfCCR速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型http://www.sushuapos.com/show-2-4819-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

下一篇: 印象大模型 × 海量数据,构建赋能千行百业的新质生产力平台

热门资讯

  • 电驱气吸播种机亮相农机展,价格亲民助增产

    3月18日,在2024年黑龙江农机产品展示交易会上,一部可智能播种,又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械

  • 新AI系统可提供足球制胜战术

    未来的足球场,人工智能(AI)当“大脑”?《自然·通讯》19日发表一项来自谷歌深度思维的最新成果,研究团队报告了一个名为“TacticAI”的系统,能在足

  • 英伟达发布AI“超级芯片” 自称“非常、非常强大”

    据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • 走进新中国建材科技的发源地,探索“隐秘”的玻璃世界

    玻璃,是我们日常生活中常见且应用非常广泛的一种材料,如外墙、窗户、杯子、灯饰……但玻璃的应用远不止于此。2024年3月22日14时,由中国

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • 单个颗粒无标记光学显微成像实现

    记者3月21日从中国科学技术大学获悉,该校物理学院张斗国教授课题组,提出并实现了一种基于矢量光场调控原理的动量空间偏振滤波器件。该滤波器件安装

  • 限量抢!xiaomiCivi 4 Pro限定色真机照来了:3599元

    3月23日消息,xiaomi集团王晓雁晒出了xiaomiCivi 4 Pro限定色真机照,该系列共有三款颜色,分别是蓝色、粉色和黑与白,定价为3599元,将于4月1日开始发售。据了

  • “捕风捉光”,气象服务助力新能源发电

    今年3月23日是第64个世界气象日,主题是“气候行动最前线”。面对愈加频繁的极端天气和全球变暖等气候危机,减缓气候变化已刻不容缓。发展新能源是应

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜