设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

研究称GPT-4通过图灵测试 54%参与者将其误认为真人

发布时间: 来源:

  研究称GPT-4通过图灵测试 54%参与者将其误认为真人  gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  每经记者 蔡鼎 每经编辑 兰素英gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  自英国计算机科学家阿兰・图灵(Alan Turing)于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来,该测试就被视为判断计算机是否具有模拟人类思维能力的关键。近期,OpenAI开发的GPT-4模型完成了这项闻名全球的测试,再度引发广泛关注。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  加州大学圣地亚哥分校认知科学系博士生 Cameron R. Jones和教授Benjamin K. Bergen在预印本arXiv上发表的最新论文表明,越来越多的人难以在图灵测试中区分GPT-4和人类。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  两位研究人员以真人、初代聊天机器人ELIZA、GPT- 3.5和GPT-4为研究对象。其中,ELIZA是由麻省理工团队在1964年至1966年期间开发的史上第一个聊天机器人,上世纪60年代曾参与图灵测试,但宣告失败。该机器人没有大语言模型或神经网络支持。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  结果显示,多达54%的参与者将GPT-4误认为真人,是迄今为止首次有AI模型以如此高的结果通过图灵测试。还需要指出的是,上述研究开展之时,OpenAI尚未宣布新一代的旗舰模型GPT-4o,如果参与测试的是GPT-4o,这一比例可能还会更高。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  500名参与者进行测试gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  研究人员招募了500名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4。参与者在对话结束后需判断对方是人还是机器。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  双方将通过一个类似即时通讯应用的界面进行交流。界面底部有一个聊天输入框,屏幕中央为对话记录,顶部有一个计时器和触发帮助和报告的按钮。招募到的参与者首先发送消息,双方交替发送,每条消息限制在一定的字符数内。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  针对AI语言模型,研究人员基于表现最好的GPT-4命令集(提示词)进行了修改,指示其表现得像一个年轻人,不要太认真对待游戏,使用口语化表述,且不要出现拼写和语法错误。此外,AI模型也不能提供太多的知识,尤其是语文和数学方面的知识。每轮测试开始时,还会添加一些额外的信息,如姓名、地点和时间戳。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而且,为了模拟真实的交流延迟,AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏,增加实验的现实感。研究小组解释称,人类之所以不能百分之百地识别同类,是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  为了深入了解影响参与者最后作出决定的定性因素,研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊,询问个人细节或他们的日常活动;第二类策略是社交和情感(25%),例如询问“对话者”的意见、经历并分析判断它们的幽默感;第三类是知识和推理(13%),包括数学、逻辑和常识问题。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  结果显示,有54%的参与者将GPT-4误认为是真人。相比之下,预先设定好回复的ELIZA只有22%的人将其认作真人,GPT-3.5则为50%,而“真人对话者”被正确辨认的比例则为67%。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  社交情感能力是关键gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  《每日经济新闻》记者注意到,研究人员在论文中对“真人对话者”被正确辨认的比例只有67%感到震惊。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  他们指出,这可能反映出参与者认为AI系统质量在不断进化,这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时,真人是很容易被辨别出来的,而随着参与者对AI系统能力的信心增强,他们便更有可能将真人误认为AI。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  作者在论文中指出,他们的结果为图灵测试提供了一些经验性证据。就他们使用的策略和给出的决策理由而言,被招募的参与者在测试中更关注的是研究对象在对话中的风格和社交情感因素,而不是更传统的智力类回答,例如知识和推理能力。他们认为,这可能是因为参与者认为,社交能力是机器最无法模仿的人类特征。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平,但目前AI研究者普遍认为,只要有30%的回答被误认为是人类,那就算通过测试。不过也有观点认为,50%的基线更加合理,因为它更能证明人类在识别AI方面并不具有偶然性。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在上述研究中,参与者的置信度得分和决策依据都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  还需要指出的是,由于研究人员在进行上述实验时,OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、视频和文本信息进行实时推理,如果参与测试,被参与者误认为人类的概率可能就会更高。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  图灵测试是由英国计算机科学家阿兰・图灵(Alan Turing)于1950年在其论文《计算机器与智能》中提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等同或无法区分的智能水平。1966年,美国计算机协会(ACM)还以图灵的名字设立了图灵奖,被誉为“计算机界的诺贝尔奖”,旨在奖励对计算机事业作出重要贡献的个人,每年颁发一次。gpU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查、规范治疗、定期随访,提高大众爱肝护肝意识, 3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这导致部分家庭近来用电量增加。最近,一款名为 近日,我国“主要作物丰产增效科技创新工程”重点专项“优质双季超级稻丰产增效技术研发与集成示范”项目,在湖南岳阳宣布启动。据了解,该项目主要聚焦优质双季超级稻丰产增效技术研发,着力探明双   我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面级,成功将云海二号02组卫星发射升空,卫星顺利 记者从中国科学院新疆天文台获悉,近期南山26米射电望远镜在参与欧洲VLBI网组织的联测中,首次成功运用4Gbps宽带、高码率VLBI技术获得干涉条纹。相较于2Gbps观测,该技术理论上可将图像信噪比提升 记者3月22日获悉,中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作,揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理谱系特征,在多维尺度上为研究蚊虫病毒组提供 。

本文链接:研究称GPT-4通过图灵测试 54%参与者将其误认为真人http://www.sushuapos.com/show-2-7212-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: OpenAI称将采取额外措施 停止其不支持的国家和地区的API使用

下一篇: OpenAI:推迟发布语音助手以保更佳处理用户要求

热门资讯

  • 创新中药八子补肾胶囊抗衰老研究取得重大突破

    3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • 人类祖先200万年前开始捕鱼

    美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许

  • 什么是“时空连续体”?

    英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuu

  • 省电“神器”是“黑科技”还是智商税?

    3月15日,我国一些地区停止居民集中供热。初春时节,乍暖还寒。停暖初期昼夜温差较大,老人、儿童等身体较弱者,可能需要使用电暖气、电热毯等取暖设备,这

  • 黑场显微镜让单个颗粒实现无标记光学显微成像

    3月21日记者从中国科学技术大学获悉,该校物理学院张斗国教授课题组,提出并实现了一种基于矢量光场调控原理的动量空间偏振滤波器件。科研人员将该滤

  • 潜望长焦缺席三代后 曝xiaomi15 Pro重新拥抱潜望镜头

    3月22日消息,数码闲聊站爆料称,xiaomi15 Pro将采用5000万像素的超大底三摄方案,其中一颗是全新的潜望长焦镜头。据资料显示,xiaomi11 Pro配备了潜望长焦镜

  • 中国气象局发布下一代大气数值模式

    中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和

  • 聚焦AI框架技术创新 加速大模型规模化落地

    “人工智能作为数字新基建重点建设方向,前景广阔,大有作为。今年的政府工作报告更首次提出开展‘人工智能+’行动,无疑将为人工智能技术在

  • 俄罗斯成功发射“联盟MS-25”载人飞船

    俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船

推荐资讯

  • “封关百日,有大企业主动谈合作”

      中新经纬3月27日电 (薛宇飞)“封关100天,我们有三批货物享受了加工增值内销免关税政策,节税8%。”27日,正大(海南)兴隆咖啡产业开发有限公司(下称正大兴隆)总经理叶剑对中

  • 创业板指半日涨0.83% 创新药概念多股涨停

      中新经纬3月27日电 周五早盘,A股三大指数低开高走。截至午间收盘,上证指数涨0.26%,报3899.12点;深证成指涨0.93%,报13732.34点;创业板指涨0.83%,报3299.57点。  沪深两市半日

  • 沐曦股份上市后首份年报:大幅减亏,但仍亏近8亿

      中新经纬3月26日电 26日晚间,“国产GPU第二股”沐曦股份披露上市后首份年报。  2025年,沐曦股份实现营收16.44亿元,同比增长121.26%;归属于上市公司股东的净利润为亏损7.8

  • 吉比特2025年净利增近九成 拟每10股派70元

      中新经纬3月26日电 26日,吉比特披露2025年年度报告。  报告期内,公司营业收入约62.04亿元,同比增长67.89%;归母净利润约17.94亿元,同比增长89.82%。  分红方面,吉比特拟向

  • 中央网信办:开展涉“未成年人”“仿冒假冒网站”等专项举报

      中新经纬3月26日电 据“网信中国”公众号26日消息,3月26日,中央网信办在四川宜宾召开全国网络举报工作会议。会议回顾总结2025年网络举报工作经验成效,研究部署2026年重点

  • “开奥迪的客户改坐地铁”,电车4S店销售火爆!东南亚华商亲历“油荒”

      中新经纬3月26日电 (魏薇)地缘冲突搅动全球能源市场,一场突如其来的“油荒”正席卷东南亚。  “油价几乎一两天一涨,普通汽油、柴油每升现在已经11元(人民币,下同)多、接

  • 洲际油气高息借钱,还压上核心资产

      中新经纬3月25日电 (张澍楠)贷款利率10.5%、核心资产担保、被抵押主体资产高于合并报表总资产,这些字眼出现在洲际油气下属子公司贷款公告中。  上交所网站截图  该

  • 沪指重上3900点,光通信概念大涨

      中新经纬3月25日电 25日,A股三大指数涨超1%,沪指重上3900点。上证指数涨1.30%,报3931.84点;深证成指涨1.95%,报13801.00点;创业板指涨2.01%,报3316.97点。  Wind截图  盘面

  • 外媒:OpenAI关闭短视频应用Sora

      中新经纬3月25日电 据美国消费者新闻与商业频道(CNBC)报道,当地时间周二,OpenAI宣布关闭短视频应用Sora。  “我们要和Sora说再见了。感谢所有与Sora一起创造作品、分享

  • 张雪峰因心源性猝死抢救无效去世

      中新经纬3月24日电 24日晚间,峰学蔚来创始人、教育博主张雪峰微博发布讣告称,张雪峰因心源性猝死全力抢救无效,于2026年3月24日15时50分在苏州逝世。  图源:张雪峰微博 

  • 林毅夫:看到“内卷”不用太紧张 必然会出现

      中新经纬3月24日电 (薛宇飞)“我们看到‘内卷’也不用太紧张,因为我们知道这是必然会出现的,就像人不断在长大,原来的衣服就会不合适,要买新的衣服一样,‘内卷’也是同样的。

  • 远望基金从事与私募基金管理无关业务等被责令改正

      中新经纬3月24日电 广东证监局网站24日披露的监管信息显示,广州远望股权投资基金管理有限公司(下称远望基金)被采取责令改正的行政监管措施。截图来源:广东证监局网站  

  • 日榜
  • 周榜
  • 月榜