设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

2024-05-08 09:13:13 来源: 量子位

大模型进入组装时代J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在32k起步,100k寻常的今天,这是故意要给开源社区留做贡献的空间吗?J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源社区当然不会放过这个机会:J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现在只需58行代码,任何Llama 3 70b的微调版本都能自动扩展到1048k(一百万)上下文。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

背后是一个LoRA,从扩展好上下文的Llama 3 70B Instruct微调版本中提取出来,文件只有800mbJ1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接下来使用Mergekit,就可以与其他同架构模型一起运行或直接合并到模型中。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所使用的1048k上下文微调版本,刚刚在流行的大海捞针测试中达到全绿(100%准确率)的成绩。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得不说,开源的进步速度是指数级的。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1048k上下文LoRA怎么炼成的

首先1048k上下文版Llama 3微调模型来自Gradient AI,一个企业AI解决方案初创公司。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而对应的LoRA来自开发者Eric Hartford,通过比较微调模型与原版的差异,提取出参数的变化。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他先制作了524k上下文版,随后又更新了1048k版本。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,Gradient团队先在原版Llama 3 70B Instruct的基础上继续训练,得到Llama-3-70B-Instruct-Gradient-1048k。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体方法如下:J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 调整位置编码:用NTK-aware插值初始化RoPE theta的最佳调度,进行优化,防止扩展长度后丢失高频信息
  • 渐进式训练:使用UC伯克利Pieter Abbeel团队提出的Blockwise RingAttention方法扩展模型的上下文长度

值得注意的是,团队通过自定义网络拓扑在Ring Attention之上分层并行化,更好地利用大型GPU集群来应对设备之间传递许多KV blocks带来的网络瓶颈。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终使模型的训练速度提高了33倍。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

长文本检索性能评估中,只在最难的版本中,当“针”藏在文本中间部分时容易出错。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

有了扩展好上下文的微调模型之后,使用开源工具Mergekit比较微调模型和基础模型,提取参数的差异成为LoRA。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同样使用Mergekit,就可以把提取好的LoRA合并到其他同架构模型中了。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合并代码也由Eric Hartford开源在GitHub上,只有58行。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前尚不清楚这种LoRA合并是否适用于在中文上微调的Llama 3。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过可以看到,中文开发者社区已经关注到了这一进展。J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

524k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapterJ1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1048k版本LoRA:
https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapterJ1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

合并代码:
https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859acJ1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/erhartford/status/1786887884211138784J1V速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:58行代码把Llama 3扩展到100万上下文,任何微调版都适用http://www.sushuapos.com/show-2-5684-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 上海期智研究院全球招人才!人工智能/信息安全/量子智能方向的来

下一篇: 《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩

热门资讯

  • 明天氢能荣获国家电网科技进步奖一等奖

    记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为

  • 电驱气吸播种机亮相农机展,价格亲民助增产

    3月18日,在2024年黑龙江农机产品展示交易会上,一部可智能播种,又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械

  • 我研究人员提出 老年人防跌倒健康服务新视角

    3月17日记者获悉,哈尔滨医科大学公共卫生学院副院长、教授田懋一与副研究员叶鹏鹏团队在一项研究中提出,应将预防老年人跌倒与国家基本公共卫生服务

  • 凌晨重磅!英伟达官宣最强AI芯片

    北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正

  • 人工智能重新定义职场技能

    据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道,在人工智能(AI)迅速重新定义就业格局的今天,通常被称为“软”技能的人类技能成为最有韧性、最有价值

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • 太空培育类器官或带来疾病新疗法

    自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化

  • 小龙虾能将锂离子转入食物链

    从手机到手表再到电动汽车,锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加,越来越多的锂可能会进入环境。研究人员在美国化学会

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

  • 首发第三代骁龙7+!一加Ace 3V图赏

    3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙

  • 【科技强国有我】让青年科技人才敢坐“冷板凳”

    习近平总书记在中共中央政治局第三次集体学习时强调,要加强科研学风作风建设,引导科技人员摒弃浮夸、祛除浮躁,坐住坐稳“冷板凳”。甘坐“冷板凳”是

  • 科技助力市场驱动 无人车产品赋能环卫物流等行业

    随着无人驾驶技术的快速发展,无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日,南京溧水经济开发区管委会与南京易咖

推荐资讯

  • 日榜
  • 周榜
  • 月榜