设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

2024-04-13 16:03:42 来源: 量子位

已在抱抱脸开源XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

这两种序列模型以RWKV-4架构为基础,然后作了改进。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来看看新模型在各大权威评测榜单上的成绩——XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(所有模型均基于上下文长度4096进行预训练)。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

阿拉伯语

日语-英语

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,彭博在Github有2.1k的followers。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,RWKV的重点工作将放在以下几个方向:XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:XgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

https://arxiv.org/pdf/2404.05892.pdfXgK速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型http://www.sushuapos.com/show-2-4819-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

下一篇: 印象大模型 × 海量数据,构建赋能千行百业的新质生产力平台

热门资讯

  • 睡不够很焦虑?专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,今年中国主题为“健康睡眠 人人共享”。人的一生约有三分之一的时间是在睡眠中度过,睡眠、运动、营养被视为保障机体正常发育和

  • CRISPR能消除培养细胞中艾滋病病毒

    荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 腾讯发布GiiNEX游戏AI引擎 用AIGC助力游戏研发运营

    3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰

  • 科学家提出人类性别决定新理论

    3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键

  • AI、死亡与机器人:“数字生命”背后的生意与争议

    21世纪经济报道记者 冯恋阁 王俊 广州、北京报道2013年播出的科幻电视剧《黑镜》第二季中有这样一个故事——女主角玛莎在男友艾什被车祸

  • 南财观察丨操作系统与一座城:全球“鸿蒙之城”深圳造

    21世纪经济报道记者 石恩泽 深圳报道操作系统似乎对地理入迷。鸿蒙和深圳,就像Windows和西雅图,也似Linux和赫尔辛基。这是地理与技术的紧密

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜