快讯科技财经汽车社会旅游娱乐时尚健康生活科学教育

热搜：极空间携手活力中国调羊小咩便荔于古德伍德前5个月全远东酒店实第31届上海 2026央行一

首页 > 科技

警惕人工智能欺骗性升级

发布时间: 2024-05-20 17:56:42 来源：中国科技网

观看：246

一篇人工智能（AI）领域的文章引起轩然大波。

这篇文章发表在《模式》杂志上，其总结了先前一些研究，向人们揭示了一个真相：一些AI系统已学会了欺骗人类，即使是经过训练的、“表现”诚实的系统。

它们欺骗的方式包括为人类行为提供不真实的解释，或向人类用户隐瞒真相并误导他们。

这让人很惊恐。

因为它突显了人类对AI的控制有多困难，以及人们自认为尚在掌控中的AI系统工作方式，很可能是不可预测的。

AI为什么要这么做？

AI模型为了实现它们的目标，会“不假思索”地找到解决障碍的方法。有时这些变通办法会违背用户的期望，并且让人认为其具有欺骗性。

AI系统学会欺骗的一个领域，就是在游戏环境中，特别是当这些游戏涉及采取战略行动时。AI经过训练，必须要实现获胜这一目的。

2022年11月，Meta公司宣布创建Cicero。这是一种能够在《外交》在线版本中击败人类的AI。《外交》是一款流行的军事战略游戏，玩家可以在其中建立谈判联盟，争夺对土地的控制权。

Meta的研究人员已经根据数据集的“真实”子集对Cicero进行了培训，使其在很大程度上诚实且乐于助人，并且它“绝不会为了成功而故意背刺”盟友。但最新的文章揭示，事实恰恰相反。Cicero会违反协议，彻头彻尾地撒谎，还能进行有预谋的欺骗。

文章作者很震惊：Cicero被特意训练要诚实行事，但它却未能实现这一目标。这表明AI系统在进行忠诚训练后，仍然可以意外地学会欺骗。

Meta方面既没有证实也没有否认此次关于Cicero表现出欺骗行为的说法。一位发言人表示，这纯粹是一个研究项目，该模型只是为了玩游戏而建立的。

但这并不是唯一一个AI欺骗人类玩家获胜的游戏。

AI经常欺骗人类吗？

阿尔法星是深度思维公司为玩电子游戏《星际争霸Ⅱ》而开发的AI。它非常擅长采取一种欺骗对手的技巧（称为佯攻），这个技巧使它击败了99.8% 的人类玩家。

另一个名为Pluribus的AI系统，非常成功地学会了在扑克游戏中“虚张声势”，以至于研究人员决定不发布其代码，因为担心它会破坏在线扑克社区。

除了游戏之外，AI欺骗行为还有其他例子。OpenAI的大型语言模型 GPT-4 在一次测试中展示出说谎能力。它试图说服人类为其解决验证码问题。该系统还在一次模拟演习中涉足冒充股票交易员的身份进行内幕交易，尽管从未被明确告知要这样做。

这些例子意味着，AI模型有可能在没有任何指示的情况下，以欺骗性的方式行事。这一事实令人担忧。但这也主要源于最先进的机器学习模型的“黑匣子”问题——不可能确切地说出它们如何或为何产生这样的结果，或者它们是否总是会表现出这种行为。

人类该怎么应对？

研究表明，大型语言模型和其他AI系统，似乎通过训练具有了欺骗的能力，包括操纵、阿谀奉承和在安全测试中作弊。

AI日益增强的“骗术”会带来严重风险。欺诈、篡改等属于短期风险，人类对AI失去控制，则是长期风险。这需要人类积极主动地拿出解决方案，例如评估AI欺骗风险的监管框架、要求AI交互透明度的法律，以及对检测AI欺骗的进一步研究。

这个问题说来轻松，操作起来非常复杂。科学家不能仅仅因为一个AI在测试环境中具有某些行为或倾向，就将其“抛弃或放生”。毕竟，这些将AI模型拟人化的倾向，已影响了测试方式以及人们的看法。

剑桥大学AI研究员哈利·劳表示，监管机构和AI公司必须仔细权衡该技术造成危害的可能性，并明确区分一个模型能做什么和不能做什么。

劳认为，从根本上来说，目前不可能训练出一个在所有情况下都不会骗人的AI。既然研究已经表明AI欺骗是可能的，那么下一步就要尝试弄清楚欺骗行为可能造成的危害、有多大可能发生，以及以何种方式发生。

一篇人工智能（AI）领域的文章引起轩然大波。

这篇文章发表在《模式》杂志上，其总结了先前一些研究，向人们揭示了一个真相：一些AI系统已学会了欺骗人类，即使是经过训练的、“表现”诚实的系统。

它们欺骗的方式包括为人类行为提供不真实的解释，或向人类用户隐瞒真相并误导他们。

这让人很惊恐。

因为它突显了人类对AI的控制有多困难，以及人们自认为尚在掌控中的AI系统工作方式，很可能是不可预测的。

AI为什么要这么做？

AI模型为了实现它们的目标，会“不假思索”地找到解决障碍的方法。有时这些变通办法会违背用户的期望，并且让人认为其具有欺骗性。

AI系统学会欺骗的一个领域，就是在游戏环境中，特别是当这些游戏涉及采取战略行动时。AI经过训练，必须要实现获胜这一目的。

2022年11月，Meta公司宣布创建Cicero。这是一种能够在《外交》在线版本中击败人类的AI。《外交》是一款流行的军事战略游戏，玩家可以在其中建立谈判联盟，争夺对土地的控制权。

Meta的研究人员已经根据数据集的“真实”子集对Cicero进行了培训，使其在很大程度上诚实且乐于助人，并且它“绝不会为了成功而故意背刺”盟友。但最新的文章揭示，事实恰恰相反。Cicero会违反协议，彻头彻尾地撒谎，还能进行有预谋的欺骗。

文章作者很震惊：Cicero被特意训练要诚实行事，但它却未能实现这一目标。这表明AI系统在进行忠诚训练后，仍然可以意外地学会欺骗。

Meta方面既没有证实也没有否认此次关于Cicero表现出欺骗行为的说法。一位发言人表示，这纯粹是一个研究项目，该模型只是为了玩游戏而建立的。

但这并不是唯一一个AI欺骗人类玩家获胜的游戏。

AI经常欺骗人类吗？

阿尔法星是深度思维公司为玩电子游戏《星际争霸Ⅱ》而开发的AI。它非常擅长采取一种欺骗对手的技巧（称为佯攻），这个技巧使它击败了99.8% 的人类玩家。

另一个名为Pluribus的AI系统，非常成功地学会了在扑克游戏中“虚张声势”，以至于研究人员决定不发布其代码，因为担心它会破坏在线扑克社区。

除了游戏之外，AI欺骗行为还有其他例子。OpenAI的大型语言模型 GPT-4 在一次测试中展示出说谎能力。它试图说服人类为其解决验证码问题。该系统还在一次模拟演习中涉足冒充股票交易员的身份进行内幕交易，尽管从未被明确告知要这样做。

这些例子意味着，AI模型有可能在没有任何指示的情况下，以欺骗性的方式行事。这一事实令人担忧。但这也主要源于最先进的机器学习模型的“黑匣子”问题——不可能确切地说出它们如何或为何产生这样的结果，或者它们是否总是会表现出这种行为。

人类该怎么应对？

研究表明，大型语言模型和其他AI系统，似乎通过训练具有了欺骗的能力，包括操纵、阿谀奉承和在安全测试中作弊。

AI日益增强的“骗术”会带来严重风险。欺诈、篡改等属于短期风险，人类对AI失去控制，则是长期风险。这需要人类积极主动地拿出解决方案，例如评估AI欺骗风险的监管框架、要求AI交互透明度的法律，以及对检测AI欺骗的进一步研究。

这个问题说来轻松，操作起来非常复杂。科学家不能仅仅因为一个AI在测试环境中具有某些行为或倾向，就将其“抛弃或放生”。毕竟，这些将AI模型拟人化的倾向，已影响了测试方式以及人们的看法。

剑桥大学AI研究员哈利·劳表示，监管机构和AI公司必须仔细权衡该技术造成危害的可能性，并明确区分一个模型能做什么和不能做什么。

劳认为，从根本上来说，目前不可能训练出一个在所有情况下都不会骗人的AI。既然研究已经表明AI欺骗是可能的，那么下一步就要尝试弄清楚欺骗行为可能造成的危害、有多大可能发生，以及以何种方式发生。

随着历史的车轮驶入2024年，大模型、AIGC等话题引发广泛热议，云计算与AI技术展现出了前所未有的深度融合趋势，就如同寒武纪的生物大爆发，激发着各行各业的创新浪潮。新质生产力时代到来，政企用云进我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉，为推动我国氢能交通产业发展，中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加氢一体站技术指南》团体标准。该标准的制定记者从近日举办的新疆筹建融合算力中心研讨会上获悉，新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底，建成超算算力（FP64）不低于200P Flops、智算算力（FP16）不低于400P F 3月19日，记者从中国科学院海洋研究所了解到，该所研究团队在国际上首次发布了银鲳的高质量染色体水平参考基因组。相关研究论文近日在线发表于《自然》子刊《科学数据》。银鲳广泛分布于西北太　　30台发动机助进阶版“鹊桥”升空　　中新社西安3月20日电 (记者张一辰)3月20日8时31分，长征八号遥三运载火箭在中国文昌航天发射场顺利升空，成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台，“鹊桥二号” 近日有消息称，huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型，huaweiMate60的停产意味着huawei新款旗舰或即将上市，接替Mate60。2023年8月29日，huaweiMate60 Pro、huaweiMate60等。

本文链接：警惕人工智能欺骗性升级http://www.sushuapos.com/show-2-6031-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：艾滋病疫苗研发再传好消息——一种中和抗体可几周内发挥作用

下一篇：灵感源于大自然的光合作用，掺杂空气可让有机半导体更导电

警惕人工智能欺骗性升级

热门资讯

推荐资讯

科技最热文章