设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

2024-05-06 12:45:47 来源: 量子位

不让AI写步骤,全用……代替也能算对数学题v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI做数学题,真正的思考居然是暗中“心算”的?v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

纽约大学团队新研究发现,即使不让AI写步骤,全用无意义的“……”代替,在一些复杂任务上的表现也能大幅提升!v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一作Jacab Pfau表示:只要花费算力生成额外token就能带来优势,具体选择了什么token无关紧要v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

举例来说,让Llama 34M回答一个简单问题:自然常数e的前6位数字中,有几个大于5的?v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI直接回答约等于瞎捣乱,只统计前6位数字居然统计出7个来。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让AI把验证每一数字的步骤写出来,便可以得到正确答案。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让AI把步骤隐藏,替换成大量的“……”,依然能得到正确答案!v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

这篇论文一经发布便掀起大量讨论,被评价为“我见过的最玄学的AI论文”v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

那么,年轻人喜欢说更多的“嗯……”、“like……”等无意义口癖,难道也可以加强推理能力?v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

从“一步一步”想,到“一点一点”想

实际上,纽约大学团队的研究正是从思维链(Chain-of-Thought,CoT)出发的。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是那句著名提示词“让我们一步一步地想”(Let‘s think step by step)。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

过去人们发现,使用CoT推理可以显著提升大模型在各种基准测试中的表现。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前尚不清楚的是,这种性能提升到底源于模仿人类把任务分解成更容易解决的步骤,还是额外的计算量带来的副产物。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了验证这个问题,团队设计了两个特殊任务和对应的合成数据集:3SUM和2SUM-Transform。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3SUM要求从一组给定的数字序列中找出三个数,使得这三个数的和满足特定条件,比如除以10余0。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

这个任务的计算复杂度是O(n3),而标准的Transformer在上一层的输入和下一层的激活之间只能产生二次依赖关系。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,当n足够大序列足够长时,3SUM任务超出了Transformer的表达能力v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在训练数据集中,把与人类推理步骤相同长度的“…”填充到问题和答案之间,也就是AI在训练中没有见过人类是怎么拆解问题的。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

在实验中,不输出填充token“……”的Llama 34M表现随着序列长度增加而下降,而输出填充token时一直到长度14还能保证100%准确率v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

2SUM-Transform仅需判断两个数字之和是否满足要求,这在 Transformer 的表达能力范围内。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但问题的最后增加了一步“对输入序列的每个数字进行随机置换”,以防止模型在输入token上直接计算。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结果表明,使用填充token可以将准确率从 78.7%提高到93.6%v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

除了最终准确率,作者还研究了填充token的隐藏层表示。实验表明,冻结前面层的参数,只微调最后一个Attention层,随着可用的填充token数量增多,预测的准确率递增v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

证实了填充token的隐藏层表示确实包含了与下游任务相关的隐性计算v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

AI学会隐藏想法了?

有网友怀疑,这篇论文难道在说“思维链”方法其实是假的吗?研究这么久的提示词工程,都白玩了。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

团队表示,从理论上讲填充token的作用仅限于TC0复杂度的问题范围内v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

TC0也就是可以通过一个固定深度的电路解决的计算问题,其中电路的每一层都可以并行处理,可以通过少数几层逻辑门(如AND、OR和NOT门)快速解决,也是Transformer在单此前向传播中能处理的计算复杂度上限。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

足够长的思维链,能将Transformer的表达能力扩展到TC0之外v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且让大模型学习利用填充token并不容易,需要提供特定的密集监督才能收敛。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

也就是说,现有的大模型不太可能直接从填充token方法中获益v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但这并不是当前架构的内在局限性,如果在训练数据中提供足够的示范,它们应该也能从填充符号中获得类似的好处。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项研究还引发了一个令人担心的问题:大模型有能力进行无法监控的暗中计算,对AI的可解释性和可控性提出了新的挑战。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

换句话说,AI可以不依赖人类经验,以人们看不见的形式自行推理v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这既刺激又可怕。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

最后有网友开玩笑提议,让Llama 3首先生成1千万亿点点点,就能得到AGI的权重了(狗头)。v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了

论文:
https://arxiv.org/abs/2404.15758v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/jacob_pfau/status/1783951795238441449v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://x.com/johnjnay/status/1784261779163349110v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —v32速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AI学会隐藏思维暗中推理!不依赖人类经验解决复杂任务,更黑箱了http://www.sushuapos.com/show-2-5639-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《原始征途》贡献15亿流水,史玉柱回归后巨人走出萎靡期|游戏年报观察⑧

下一篇: 商汤杨帆:尺度定律主导AI迭代,降低门槛才能迎来AIGC应用爆发 | 中国AIGC产业峰会

热门资讯

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 50000台套!西北首条小型风冷氢燃料电池电堆全自动化生产线即将投产

    日前,盛世盈创氢能科技(陕西)有限公司(以下简称盛世盈创)与协氢(上海)新能源科技有限公司宣布达成战略合作,共同推进风冷氢燃料电池电堆全自动化生产线(以下

  • 感染新冠会“导致智商下降”吗?

    据英国《泰晤士报》网站3月15日报道,2020年1月,英国帝国理工学院的亚当·汉普希尔与英国广播公司合作,对8万人进行了30分钟的测试,目的是揭示生

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 省电“神器”是“黑科技”还是智商税?

    3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这

  • 联合国机构报告称2022年全球产生6200万吨电子垃圾

    联合国机构3月20日发布的《全球电子垃圾监测》报告显示,2022年全球范围内共产生6200万吨电子垃圾,其中仅有不到四分之一被回收利用。报告显示,2022年

  • 世界睡眠日:别让你的良好睡眠被手机夺走

    再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

推荐资讯

  • 日榜
  • 周榜
  • 月榜