设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

发布时间: 来源: 量子位

已在抱抱脸开源gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展:gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

这两种序列模型以RWKV-4架构为基础,然后作了改进。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

新架构的设计进步包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了RWKV模型的表达能力,同时保持RNN的推理效率特征。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,新架构引入了一个新的多语言语料库,包含1.12万亿个令牌。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队还基于贪婪匹配(greedy matching)开发了一种快速的分词器,以增强RWKV的多语言性。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,4个Eagle模型和2个Finch模型,都已经在抱抱脸上发布了~gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

新模型Eagle和Finch

此次更新的RWKV,共包含6个模型,分别是:gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

4个Eagle(RWKV-5)模型:分别为0.4B、1.5B、3B、7B参数大小;
2个Finch(RWKV-6)模型:分别是1.6B、3B参数大小。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

Eagle通过使用多头矩阵值状态(而非向量值状态)、重新构造的接受态和额外的门控机制,改进了从RWKV-4中学习到的架构和学习衰减进度。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Finch则通过引入新的数据相关函数,进一步改进架构的表现能力和灵活性,用于时间混合和令牌移位模块,包括参数化线性插值。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Finch提出了对低秩自适应函数的新用法,以使可训练的权重矩阵能够以一种上下文相关的方式有效地增强学习到的数据衰减向量。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,RWKV新架构引入了一种新的分词器RWKV World Tokenizer,和一个新数据集RWKV World v2,两者均用于提高RWKV模型在多语言和代码数据上的性能。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中的新分词器RWKV World Tokenizer包含不常见语言的词汇,并且通过基于Trie的贪婪匹配(greedy matching)进行快速分词。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而新数据集RWKV World v2是一个新的多语言1.12T tokens数据集,取自各种手工选择的公开可用数据源。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其数据组成中,约70%是英语数据,15%是多语言数据,15%是代码数据。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基准测试结果如何?

光有架构创新还不够,关键要看模型的实际表现。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

来看看新模型在各大权威评测榜单上的成绩——gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR测试结果

MQAR (Multiple Query Associative Recall)任务是一种用于评估语言模型的任务,旨在测试模型在多次查询情况下的联想记忆能力。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在这类任务中,模型需要通过给定的多个查询来检索相关的信息。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

MQAR任务的目标是衡量模型在多次查询下检索信息的能力,以及其对不同查询的适应性和准确性。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下图为RWKV-4、Eagle、 Finch和其他非Transformer架构的MQAR任务测试结果。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看出,在MQAR任务的准确度测试中, Finch在多种序列长度测试中的准确度表现都非常稳定,对比RWKV-4、RWKV-5和其他非Transformer架构的模型有显著的性能优势。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长上下文实验

在PG19测试集上测试了从2048 tokens开始的RWKV-4、Eagle和Finch的loss与序列位置。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(所有模型均基于上下文长度4096进行预训练)。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

测试结果显示, Eagle在长序列任务上比RWKV-4有了显著的改进,而在上下文长度4096训练的Finch的表现比Eagle更好,可以良好地自动适应到20000以上的上下文长度。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

速度和显存基准测试

速度和内存基准测试中,团队比较了Finch、Mamba和Flash Attention的类Attention内核的速度和显存利用率。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

可以看到,Finch在内存使用方面始终优于Mamba和Flash Attention,而内存使用量分别比Flash Attention和Mamba少40%和17%。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

多语言任务表现

日语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

西班牙语

魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型

阿拉伯语

日语-英语

下一步工作

以上研究内容,来自RWKV Foundation发布的最新论文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文由RWKV创始人Bo PENG(彭博)和RWKV开源社区成员共同完成。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

共同一作彭博,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,彭博在Github有2.1k的followers。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且其人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只橘猫的身影。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位获悉,RWKV当前的多模态工作包含RWKV Music(音乐方向)和 VisualRWKV(图像方向)。gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来,RWKV的重点工作将放在以下几个方向:gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 扩展训练语料库,使其更加多样化(这是改进模型性能的关键事项);
  • 训练和发布更大版本的Finch,如7B和14B参数,并通过MoE降低推理和训练成本,进一步扩展其性能。
  • 对Finch的CUDA实现做进一步优化(包括算法改进),带来速度的提升和更大的并行化。

论文链接:gZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

https://arxiv.org/pdf/2404.05892.pdfgZD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日,中国经济信息社(以下简称中经社)垂直领域数字化应用系统发布仪式在北京举行。在发布仪式上,锚定建设“国家级经济信息旗舰”的目标,中经社推出了八大数字化应用系统。中经社此次发布的行 记者3月20日从西安交通大学第二附属医院获悉,该院皮肤病院夏育民教授科研团队研究设计了一种靶向抗双链抗体的D型模拟肽(D-ALW多肽)纳米微粒,成功应用于MRL/lpr红斑狼疮小鼠模型的治疗,为目前红斑 记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局最优自适应策略,并发展了自适应集体测量实验 聊到安卓电话的拍照,大部分用户还是比较认可的,而在与iPhone电话的对比中,用户也普遍以为安卓电话的拍照水平要比iPhone更好,当然这一说法也并非空穴来风,其背后的原因直接而明确。首先,硬件配置的竞争 3月23日消息,据媒体报道,iPhone与百度公司已达成合作协议,百度将为苹果内置的生成式人工智能大模型提供技术支持。报道指出,iPhone生成式人工智能大模型的合作伙伴包含谷歌、百度、OpenAI等公司。国 3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门航天卫星应用领域商业化、产业化发展更进一 。

本文链接:魔改RNN挑战Transformer,RWKV上新:推出2种新架构模型http://www.sushuapos.com/show-2-4819-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说

下一篇: 印象大模型 × 海量数据,构建赋能千行百业的新质生产力平台

热门资讯

  • 云南首批621座变电站实现人工智能巡检

    “远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机

  • 培育一批专利产业化样板企业

    近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • 英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?

      英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?  季媛媛  全球医疗健康行业正刮起最强AI风暴。  当地时间3月18日,全球瞩目的顶级AI盛会――英伟达2024年GPU

  • AI+智能家居赋能健康睡眠

    3月21日是第二十五个“世界睡眠日”,中国睡眠研究会联合慕思集团在北京正式发布《2024情绪与健康睡眠白皮书》(以下简称《白皮书》)。《白皮书》指出,

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • 潜望长焦缺席三代后 曝xiaomi15 Pro重新拥抱潜望镜头

    3月22日消息,数码闲聊站爆料称,xiaomi15 Pro将采用5000万像素的超大底三摄方案,其中一颗是全新的潜望长焦镜头。据资料显示,xiaomi11 Pro配备了潜望长焦镜

  • 盲视技术已在猴子身上见效!马斯克脑机接口公司新目标:让盲人重见光明

      盲视技术已在猴子身上见效!马斯克脑机接口公司新目标:让盲人重见光明  澎湃新闻记者 吴遇利  Neuralink新技术或将造福数千万名失明人士。  当地时间3月21日,特斯拉C

  • 中国科学技术大学发现第六大植物激素的首个运输蛋白

    在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜