设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

高质量数据荒下,“弱智吧”为AI开悟?

发布时间: 来源:

21世纪经济报道记者 冯恋阁 实习生孔雅萱 广州报道rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自ChatGPT发布以来,用户就热衷于利用不寻常的问题挑战每一个AI产品的能力边界。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中一种测试方法是找到类似“为什么孙悟空是中国猴子却叫美猴王,不应该叫中猴王吗”、“生鱼片就是死鱼片”这种类似冷笑话的句子,看人工智能能否如人类一样破解其真正含义。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这类荒谬却似乎又有一丝合理性的发言,往往来自于百度贴吧“弱智吧”。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,弱智吧数据在AI领域又多做了一份贡献。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等高校、研究机构联合发布了一份高质量中文指令微调数据集。值得注意的是,在研究过程中,学者们发现,来自“弱智吧”的数据在其中有亮眼表现。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧表现优异

该团队发布的论文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》详细介绍了其研究过程和成果。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这项研究的目的在于解决当下中文大模型训练面临的几大难题:中文数据集很多是直接翻译自英文翻译,没有很好地契合中文的语言习惯和文化背景、不少数据集是用AI生成的,可能出现事实性错误、目前大部分人工标注的数据集,很多时候数据量小、覆盖领域不全面。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

基于此,团队从中文互联网的各处搜集数据,经过一系列清洗和人工审核后,打造出了高质量、多样化的中文指令微调数据集COIG-CQIA。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体而言,研究的数据来源包括知乎、思否、豆瓣、小红书、弱智吧、百科全书、四个特定领域知识(医学、经济、农学、电子)、考试材料(中考、高考、考研等)、COIG-PC 等语料库。而用以训练的模型是零一万物Yi系列开源大模型。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结果,在各个方面表现优秀的版本竟然是弱智吧版。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧这一数据集由500个点赞最高的帖子标题+人工或GPT-4的回复组成, 经过人工审核后,最终留下了240组指令-回复数据对。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第二。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在Yi-34B模型上,弱智吧版本总分第一。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

综合各项结果,弱智吧在所有子集中平均排名第二。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

弱智吧为何能够有这么优秀的发挥?rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究者认为,可能是弱智吧问题增强了AI的逻辑推理能力,有利于完成指令遵循任务( instruct-following tasks)。“这种语料有点脑筋急转弯的感觉,所以其使用提升了模型的推理能力。”一位技术人员这样告诉21记者。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

企业“各显神通”

弱智吧成为优秀训练素材引发关注的背后,是人工智能发展一直绕不开的训练数据隐忧。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据是生成式人工智能的“粮食和血液”,其重要性不言而喻。以OpenAI的GPT模型为例,GPT-1预训练数据量仅有5GB,GPT-2则增加至40GB,GPT-3更是达到了惊人的45TB。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣在此前接受21世纪经济报道记者采访时表示,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

数据需求水涨船高,高质量数据供给却面临稀缺之困。去年,一项来自Epoch Al Research团队的研究就表明,高质量的语言数据存量将在2026年耗尽。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

面对这一困境,大模型厂商“各显神通”发掘可用资源。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据媒体报道,谷歌正在考虑利用谷歌文档、表格和幻灯片中提供的消费者数据来支撑其旗下AI产品的训练。公开消息显示,OpenAI旗下模型的训练数据则有相当一部分来自维基百科、书籍、期刊等公共互联网内容。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

社交媒体上活跃而多元的数据也被认为是大模型训练的好材料。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2023年12月,有知情人士向媒体表示,苹果拿出5000万美元尝试Condé Nast(《Vogue》和《纽约客》的出版商)、NBC和IAC等新闻机构交涉以获得新闻文章的授权,用以其生成式AI产品开发。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

OpenAI在1月与数十家出版商洽谈签署文章授权协议,以获取数据训练其AI模型。同样在今年,刚刚上市的社交媒体Reddit也被传成交了一笔年价值约6000万美元的大生意——允许一家大型人工智能公司访问平台内容用以训练模型。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中文数据荒何解?

数据从何而来,事实上是个国际难题。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在人工智能领域,我国可以称得上是活跃的先行者。科技部新一代人工智能发展研究中心去年发布的《中国人工智能大模型地图研究报告》显示,从全球已发布的大模型数量来看,中国和美国大幅领先,占全球总数的80%以上。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,一面是潮水涌起,玩家纷纷入场,另一面是行业狂飙,“燃料”却面临枯竭。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中文大模型面临的情况可能更加严峻。以ChatGPT为例,公开数据显示,在GPT-3训练数据集的语言占比中,中文语料在总语料中占比不足0.1%,且其中包含繁体中文。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中国工程院院士高文曾在演讲中提到,全球通用的50亿大模型数据集中,中文语料仅占1.3%。一些主流数据集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文为主,最流行的Common Crawl中的中文语料也只占4.8%。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

可以说,目前世界上主流的大模型都是靠英文语料库来训练和生成大模型。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要研发可靠实用的中文大模型,就必须有严谨可信的中文数据库。这对中国的人工智能的进一步发展无疑是个挑战。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

知乎创始人、CEO周源在今年两会时就表示,我国大模型发展当前面临的最显著的问题之一是高质量中文语料资源的短缺。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,加快高质量中文数据集的挖掘开发、补齐优质中文语料数据短板必不可少。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《生成式人工智能服务管理暂行办法》就提到,要推动生成式人工智能基础设施和公共训练数据资源平台建设;推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我国多地也都曾发布相关政策以求推动建立高质量数据集。去年起,北京、深圳等地先后发布相关文件,指出要提升高质量数据要素供给能力、归集高质量基础训练数据集、建立多模态公共数据集,打造高质量中文语料数据等。《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》等就提到过目前大模型训练高质量中文语料占比过少,要打造高质量中文语料数据库。rc1速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台,“鹊桥二号” 3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙7+移动平台,采用骁龙8 Gen3相同的4nm制程工 有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权其型号。这可能是为了向中国的iPhone客户提 21世纪经济报道记者王峰北京报道 近日,成人职业在线教育企业尚德机构(NYSE:STG)公布了其2023年第四季度及全年未经审计的财务报告。2023年第四季度,尚德机构净收入为5.42亿元(人民币,下 俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船搭乘“联盟-2.1a”运载火箭从哈萨克斯坦境 3月22日,在2024低碳建筑产业论坛上,北京首例负碳示范建筑——首程时代中心负碳示范建筑正式亮相。活动现场,中国建筑节能协会、北京绿色交易所分别授予首程时代中心负碳示范建筑“零 。

本文链接:高质量数据荒下,“弱智吧”为AI开悟?http://www.sushuapos.com/show-2-4915-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《人工智能示范法2.0(专家建议稿)》重磅发布 重视AI开源发展、构建知识产权创新规则

下一篇: 游戏年报观察②|存量游戏贡献有限,完美世界能否凭新品重回增长?

热门资讯

推荐资讯

  • A股三大指数低开 日韩股市双双走低

      中新经纬3月27日电 周五,A股三大指数集体低开。上证指数跌0.95%,报3852.09点;深证成指跌1.34%,报13423.51点;创业板指跌1.10%,报3236.37点。  来源:同花顺  盘面上,贵金属、

  • 中国人寿总裁利明光回应单季度亏损:建议拉长周期看报表

      中新经纬3月26日电 (李自曼)“周期越短,受到波动影响会更大,这是经营过程中经常遇到的一个现象。”26日,中国人寿总裁利明光在中国人寿2025年度业绩发布会上说。  财报显

  • 商务部:扩大服务出口,拓展服务消费新空间

      中新经纬3月26日电 商务部新闻发言人何咏前表示,将更好优化入境消费环境,扩大服务出口,拓展服务消费新空间。  26日,商务部召开例行新闻发布会。会上有记者提问:近日,商务部

  • 商务部:进口更多国外优质商品、技术和服务

      中新经纬3月26日电 商务部新闻发言人何咏前26日表示,商务部将充分发挥平台作用,办好进博会等重要展会,扩大“出口中国”品牌影响力,强化精准对接,发挥各方优势,进口更多国外优

  • 外媒:西方天然气公司成中东局势受益者

      中新经纬3月26日电 据路透社报道,美伊局势让西方天然气供应商及贸易商股价成为市场受益者。投资者预计,供应路线可绕开中东地区的企业,将从高能源价格中获得巨额收益。  

  • 中央网信办:开展涉“未成年人”“仿冒假冒网站”等专项举报

      中新经纬3月26日电 据“网信中国”公众号26日消息,3月26日,中央网信办在四川宜宾召开全国网络举报工作会议。会议回顾总结2025年网络举报工作经验成效,研究部署2026年重点

  • 三亚通报“两颗榴莲坑150”:情况属实,拟罚6万元

      中新经纬3月25日电 据微信号“三亚发布”25日消息,海南省三亚市综合行政执法局发布情况通报称,2026年3月22日,关注到有网民反映“两颗榴莲坑150 无照经营 遥控鬼称”的情况

  • 外媒:英国商业活动增长几近停滞

      中新经纬3月25日电 据英国《金融时报》中文网24日消息,美伊局势推高成本,英国商业活动增长几近停滞。  报道指出,一项备受关注的调查显示,英国商业活动正以自9月以来最慢

  • 源杰科技扭亏 拟每10股派7元转增4.5股

      中新经纬3月24日电 3月24日,目前A股全市场第二高价股源杰科技披露年报。  2025年,源杰科技营业收入约6.01亿元,同比增长138.50%;归母净利润约1.91亿元,同比扭亏。公司介绍,

  • 两高:农民工追索劳动报酬诉讼困难等可申请民事支持起诉

      中新经纬3月24日电 “最高人民法院”微信号24日消息,为依法办理民事支持起诉案件,保障当事人平等行使诉权,维护社会公平正义,近日,最高人民法院、最高人民检察院联合印发《关

  • 英轮凯旋召回2157辆摩托车

      中新经纬3月24日电 据国家市场监督管理总局网站24日消息,日前,英轮凯旋(上海)商贸有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要

  • 三环集团澄清:预计公司2025年净亏损的消息不实

      中新经纬3月24日电 潮州三环(集团)股份有限公司(下称“三环集团”)23日发布公告称,预计公司2025年净亏损的报道与事实严重不符。  来源:三环集团公告  具体来看,三环集

  • 日榜
  • 周榜
  • 月榜