设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

发布时间: 2024-04-04 16:48:07 来源: 量子位

大智若愚了还是大于弱智了?eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

其他平台围观网友也纷纷蚌埠住。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

弱智吧数据究竟如何达成这一成就,具体到论文中看。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIAeG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-SubseteG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在众多数据来源中,弱智吧成了最特别的一个。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

看来小模型还没能领悟弱智的精髓。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

到了Yi-34B,弱智吧版本表现就一骑绝尘了。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另外,在安全评估上弱智吧版本也能排上第二。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

对于这类现象,研究人员在分析中也给出简单猜测:eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

另一个原因是弱智吧数据文本质量很高,用词准确且简洁eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一开始只是网友拿来拷打AI,搞搞节目效果。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

后续版本也渐入佳境了,如2023年8月的文心一言:eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

秘塔写作猫eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

InspoeG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

思路确实是被打开了~eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

论文地址:
https://arxiv.org/abs/2403.18058eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/9hills/status/1775358963724554410eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://zhuanlan.zhihu.com/p/690640864eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://tieba.baidu.com/p/8964992247eG2速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发弟教授和乐祥鹏教授团队,联合甘肃省武威市天 因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关页面和功能已经恢复正常。Kimi突然爆火,在A 3月19日,记者从中国科学院海洋研究所了解到,该所研究团队在国际上首次发布了银鲳的高质量染色体水平参考基因组。相关研究论文近日在线发表于《自然》子刊《科学数据》。银鲳广泛分布于西北太 3月23日消息,vivo即将于3月26日发布vivo X Fold3系列折叠屏电话,其中包含vivo X Fold3和vivo X Fold3 Pro两款新品。据悉,vivo X Fold3采用了首发的碳纤维龙骨铰链,重量仅为219克,厚度为4.65毫米。相 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走。研究成果3月20日发表在《科学·机 。

本文链接:弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一http://www.sushuapos.com/show-2-4574-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 峰会报名中|第二波嘉宾已就位,距离4月17日仅有两周

下一篇: 腾讯开源视频生成新工具,论文还没发先上代码的那种

热门资讯

  • 数字化管理已在故宫广泛应用

    在今天的故宫,工作人员使用的数字化办公平台名叫“内务辅”,这款应用的开发者,是与故宫博物院合作的钉钉(中国)信息技术有限公司(以下简称“钉钉”)。3月1

  • “类脑”无线网络可处理数千微芯片数据

    美国布朗大学研究团队在最新一期《自然·电子学》上描述了一种无线通信网络。它可有效地传输、接收和解码来自数千个微电子芯片的数据。研究

  • “爆”脾气电池频“发火”,新成果防患于未“燃”

    近年来,电动自行车以便利性受到大众青睐,但相关起火事故威胁着居民的生命财产安全。据国家消防救援局发布的统计数据,2023年全国共接报电动自行车火灾

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • iPhone总裁库克访问中国:女子手持huaweiMate60与其合影

    3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一

  • 我国网民规模达10.92亿人 互联网普及率达77.5%

    3月22日,中国互联网络信息中心(CNNIC)发布第53次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2023年12月,我国网民规模达10.9

  • 聚焦AI框架技术创新 加速大模型规模化落地

    “人工智能作为数字新基建重点建设方向,前景广阔,大有作为。今年的政府工作报告更首次提出开展‘人工智能+’行动,无疑将为人工智能技术在

  • 俄罗斯成功发射“联盟MS-25”载人飞船

    俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船

  • 吸烟会增加腹部脂肪

    科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜