设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

发布时间: 来源: 量子位

考研速度和性能的平衡7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub上一种你没有见过的船新Benchmark火了。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

与llmsys大模型竞技场中,两个大模型分别输出答案,再由人类评分不同——街霸Bench引入了两个AI之间的交互,且由游戏引擎中确定的规则评判胜负。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这种新玩法吸引了不少网友来围观。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于项目是在Mistral举办的黑客马拉松活动上开发,所以开发者只使用OpenAI和Mistral系列模型进行了测试。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

排名结果也很出人意料。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

经过342场对战后,根据棋类、电竞常用的ELO算法得出的排行榜如下:7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新版gpt-3.5-turbo成绩断崖式领先,Mistral小杯排第二。更小的模型超过了更大的如GPT-4和Mistral中杯大杯。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

开发者认为,这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与传统的强化学习也有所不同,强化学习模型相当于根据奖励函数“盲目地”采取不同行动,但大模型完全了解自身处境并有目的的采取行动。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

考验AI的动态决策力

AI想在格斗游戏里称王,需要哪些硬实力呢?开发者给出几个标准:7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 反应要快:格斗游戏讲究实时操作,犹豫就是败北
  • 脑子要灵:高手应该预判对手几十步,未雨绸缪
  • 思路要野:常规套路人人会,出奇制胜才是制胜法宝
  • 适者生存:从失败中吸取教训并调整策略
  • 久经考验:一局定胜负不说明问题,真正的高手能保持稳定的胜率
大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

具体玩法如下:7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个大模型控制一个游戏角色,程序向大模型发送屏幕画面的文本描述,大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

第一个挑战是定位人物在场景中的位置,通过检测像素颜色来判断。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

由于目前大模型数学能力还都不太行,直接发送坐标值效果不好,最终选择了将位置信息改写成自然语言描述7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以对于AI来说,实际上他们在玩的是一种奇怪的文字冒险游戏。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

把大模型生成的动作招式映射成按键组合,就能发送给游戏模拟器执行了。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

在试验中发现,大模型可以学会复杂的行为,比如仅在对手靠近时才攻击可能的情况下使用特殊招式,以及通过跳跃来拉开距离7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从结果上可以看出,与其他测试方法不同,在这个规则下似乎更大的模型表现越差7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开发者对此解释到:7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在推理上的延迟差距是有意保留的,但后续或许会加入其他选项。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

后续也有用户提交了流行开源模型的对战结果,在7B及以下量级的战斗中,还是7B模型排名更靠前。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

从这个角度看,这种新型基准测试为评估大模型的实用性提供了新思路。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

现实世界的应用往往比聊天机器人复杂得多,需要模型具备快速理解、动态规划的本领。7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmark

正如开发者所说,想要赢,要在速度和精度之间做好权衡7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

GitHub项目:
https://github.com/OpenGenerativeAI/llm-colosseum7Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://x.com/nicolasoulianov/status/17722914833258787097Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://x.com/justinlin610/status/17741179472353240877Ol速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是新质生产力发展的“新引擎”,也是产业和消费 记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学会新矿物命名与分类专业委员会审查、投票,均 记者3月20日从中国科学院地质与地球物理研究所获悉,该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作,通过分析采集的黑土样品发现,黑土物质最初都是由风力搬运而来。相关研究成 记者3月17日从浙江大学获悉,该校医学院附属第二医院王良静教授团队、附属邵逸夫医院陈淑洁主任医师团队联合研究发现,一种肠道菌群产生的小分子代谢物吲哚丙酸,可以增强抗癌药物抗PD-1单抗对结 中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和区域百米级尺度数值预报的精度,显著减小全球 据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出租车在2030年广泛使用铺平道路。尽管在最初 。

本文链接:大模型实时打《街霸》捉对PK,GPT-4居然不敌3.5,新型Benchmarkhttp://www.sushuapos.com/show-2-4455-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 机器狗首次阵亡!美国警方披露详情

下一篇: 全麻会不会影响智力?医生解答麻醉疑虑

热门资讯

推荐资讯

  • 国家外汇局:2月国际收支货物和服务贸易进出口规模39349亿元

      中新经纬3月27日电 27日,国家外汇管理局网站公布2026年2月我国国际收支货物和服务贸易数据。  2026年2月,我国国际收支货物和服务贸易进出口规模39349亿元。其中,货物和

  • 美股收跌,纳指进入回调区间,国际油价大涨

      中新经纬3月27日电 美东时间周四,美国三大股指全线收跌,纳指进入回调区间,即较其最近的高点下跌10%以上。来源:Wind  截至收盘,道指跌1.01%报45960.11点,标普500指数跌1.74%

  • 外媒:西方天然气公司成中东局势受益者

      中新经纬3月26日电 据路透社报道,美伊局势让西方天然气供应商及贸易商股价成为市场受益者。投资者预计,供应路线可绕开中东地区的企业,将从高能源价格中获得巨额收益。  

  • 外媒:欧洲天然气库存快空了

      中新经纬3月25日电 据彭博社报道,欧洲即将进入天然气储备季,但储罐已快耗尽,这意味着它将需要与亚洲买家竞争以确保供应。  报道称,根据欧洲天然气基础设施公司的数据,目前

  • 9连涨后2连跌停,*ST新潮称“无应披未披事项”

      中新经纬3月25日电 25日晚间,*ST新潮发布《股票交易异常波动公告》称,截至公告披露日,除已披露事项外,不存在应披露而未披露的重大信息  Wind显示,近日,*ST新潮股价走出“过

  • 原晋能集团副总经理冯培一被提起公诉

      中新经纬3月25日电 “最高人民检察院”微信号25日消息,日前,原晋能集团有限公司副总经理冯培一涉嫌受贿罪、挪用公款罪一案,由山西省监察委员会调查终结,移送检察机关审查起

  • 兴业股份实控人曹连英减持262.08万股,套现超4472万元

      中新经纬3月25日电 兴业股份25日盘后公告,控股股东、实际控制人之一曹连英减持262.08万股股份,套现超4472万元。  具体看,公司于2025年12月18日公告披露,曹连英拟自公告披

  • 沪指重上3900点,光通信概念大涨

      中新经纬3月25日电 25日,A股三大指数涨超1%,沪指重上3900点。上证指数涨1.30%,报3931.84点;深证成指涨1.95%,报13801.00点;创业板指涨2.01%,报3316.97点。  Wind截图  盘面

  • 利用AI造谣车企等,270余个“涉企网络谣言”账号被禁言、封停

      中新经纬3月25日电 据“警民直通车上海”微信号25日消息,上海警方深入推进 “涉企网络谣言”打击整治。  据介绍,今年以来,上海公安机关依托“专业+机制+大数据”新型警

  • 外媒:OpenAI关闭短视频应用Sora

      中新经纬3月25日电 据美国消费者新闻与商业频道(CNBC)报道,当地时间周二,OpenAI宣布关闭短视频应用Sora。  “我们要和Sora说再见了。感谢所有与Sora一起创造作品、分享

  • 多地二手房迎“小阳春”:刚需进场、老破小“真香”

      中新经纬3月24日电 (薛宇飞)“您昨天看的房子,今天卖掉了。”北京工作的郑玫(化名)在看完房子的第二天,房产经纪人就电话告知她,她看中的一套二手房源降价20万元成交了。 

  • 欧美股市巨震!国际油价跳水跌超10%,黄金反弹超300美元

      中新经纬3月24日电 国际金融市场在美国与伊朗各执一词的谈判罗生门中摇摆。  美国总统特朗普当地时间23日接受采访时称,同伊朗谈判“进展非常顺利”。按照特朗普的说法

  • 日榜
  • 周榜
  • 月榜