设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

研究称GPT-4通过图灵测试 54%参与者将其误认为真人

2024-06-27 17:37:27 来源:

  研究称GPT-4通过图灵测试 54%参与者将其误认为真人  v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  每经记者 蔡鼎 每经编辑 兰素英v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  自英国计算机科学家阿兰・图灵(Alan Turing)于1950年提出关于判断机器是否能够思考的著名试验“图灵测试”以来,该测试就被视为判断计算机是否具有模拟人类思维能力的关键。近期,OpenAI开发的GPT-4模型完成了这项闻名全球的测试,再度引发广泛关注。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  加州大学圣地亚哥分校认知科学系博士生 Cameron R. Jones和教授Benjamin K. Bergen在预印本arXiv上发表的最新论文表明,越来越多的人难以在图灵测试中区分GPT-4和人类。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  两位研究人员以真人、初代聊天机器人ELIZA、GPT- 3.5和GPT-4为研究对象。其中,ELIZA是由麻省理工团队在1964年至1966年期间开发的史上第一个聊天机器人,上世纪60年代曾参与图灵测试,但宣告失败。该机器人没有大语言模型或神经网络支持。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  结果显示,多达54%的参与者将GPT-4误认为真人,是迄今为止首次有AI模型以如此高的结果通过图灵测试。还需要指出的是,上述研究开展之时,OpenAI尚未宣布新一代的旗舰模型GPT-4o,如果参与测试的是GPT-4o,这一比例可能还会更高。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  500名参与者进行测试v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  研究人员招募了500名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、初代聊天机器人ELIZA、GPT-3.5和GPT-4。参与者在对话结束后需判断对方是人还是机器。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  双方将通过一个类似即时通讯应用的界面进行交流。界面底部有一个聊天输入框,屏幕中央为对话记录,顶部有一个计时器和触发帮助和报告的按钮。招募到的参与者首先发送消息,双方交替发送,每条消息限制在一定的字符数内。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  针对AI语言模型,研究人员基于表现最好的GPT-4命令集(提示词)进行了修改,指示其表现得像一个年轻人,不要太认真对待游戏,使用口语化表述,且不要出现拼写和语法错误。此外,AI模型也不能提供太多的知识,尤其是语文和数学方面的知识。每轮测试开始时,还会添加一些额外的信息,如姓名、地点和时间戳。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  而且,为了模拟真实的交流延迟,AI的回复会根据消息的长度人为地延迟发送。这种设置旨在模拟正常的人际交流节奏,增加实验的现实感。研究小组解释称,人类之所以不能百分之百地识别同类,是因为提问者认为AI的效率越来越高。这增加了他们将人类错误地识别为机器的可能性。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  为了深入了解影响参与者最后作出决定的定性因素,研究小组对其使用的策略和判断的理由进行了分类。36%的参与者与“对话者”进行闲聊,询问个人细节或他们的日常活动;第二类策略是社交和情感(25%),例如询问“对话者”的意见、经历并分析判断它们的幽默感;第三类是知识和推理(13%),包括数学、逻辑和常识问题。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  结果显示,有54%的参与者将GPT-4误认为是真人。相比之下,预先设定好回复的ELIZA只有22%的人将其认作真人,GPT-3.5则为50%,而“真人对话者”被正确辨认的比例则为67%。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  社交情感能力是关键v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  《每日经济新闻》记者注意到,研究人员在论文中对“真人对话者”被正确辨认的比例只有67%感到震惊。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  他们指出,这可能反映出参与者认为AI系统质量在不断进化,这一结果也与近年来其他类似的图灵测试呈现的情况类似。当AI系统能力很差时,真人是很容易被辨别出来的,而随着参与者对AI系统能力的信心增强,他们便更有可能将真人误认为AI。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  作者在论文中指出,他们的结果为图灵测试提供了一些经验性证据。就他们使用的策略和给出的决策理由而言,被招募的参与者在测试中更关注的是研究对象在对话中的风格和社交情感因素,而不是更传统的智力类回答,例如知识和推理能力。他们认为,这可能是因为参与者认为,社交能力是机器最无法模仿的人类特征。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPT-4和GPT-3.5在测试中的表现虽然未达到“真人对话者”的水平,但目前AI研究者普遍认为,只要有30%的回答被误认为是人类,那就算通过测试。不过也有观点认为,50%的基线更加合理,因为它更能证明人类在识别AI方面并不具有偶然性。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在上述研究中,参与者的置信度得分和决策依据都表明他们并非随意猜测:GPT-4是人类的平均置信度为73%。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  还需要指出的是,由于研究人员在进行上述实验时,OpenAI尚未宣布新一代的旗舰模型GPT-4o。这一全新模型可以利用语音、视频和文本信息进行实时推理,如果参与测试,被参与者误认为人类的概率可能就会更高。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  图灵测试是由英国计算机科学家阿兰・图灵(Alan Turing)于1950年在其论文《计算机器与智能》中提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等同或无法区分的智能水平。1966年,美国计算机协会(ACM)还以图灵的名字设立了图灵奖,被誉为“计算机界的诺贝尔奖”,旨在奖励对计算机事业作出重要贡献的个人,每年颁发一次。v0C速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:研究称GPT-4通过图灵测试 54%参与者将其误认为真人http://www.sushuapos.com/show-2-7212-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: OpenAI称将采取额外措施 停止其不支持的国家和地区的API使用

下一篇: OpenAI:推迟发布语音助手以保更佳处理用户要求

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 50000台套!西北首条小型风冷氢燃料电池电堆全自动化生产线即将投产

    日前,盛世盈创氢能科技(陕西)有限公司(以下简称盛世盈创)与协氢(上海)新能源科技有限公司宣布达成战略合作,共同推进风冷氢燃料电池电堆全自动化生产线(以下

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • 海龟深潜时一分钟心跳只有两次

    据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 肠道菌群关键代谢物可增强抗癌药疗效

    记者3月17日从浙江大学获悉,该校医学院附属第二医院王良静教授团队、附属邵逸夫医院陈淑洁主任医师团队联合研究发现,一种肠道菌群产生的小分子代谢

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • iPhone迈入AI时代!曝国行版苹果 16 AI效果由百度提供

    3月23日消息,据媒体报道,iPhone与百度公司已达成合作协议,百度将为苹果内置的生成式人工智能大模型提供技术支持。报道指出,iPhone生成式人工智能大模型的

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

  • 北京市青少年科学教育基地揭牌

    为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科

推荐资讯

  • 日榜
  • 周榜
  • 月榜