设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI可以“做个人了”,怎么办

2024-05-21 09:01:40 来源:

  AI可以“做个人了”,怎么办JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  周游JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  “我正在台上给大家做现场演示呢,有点紧张怎么办?”JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  “你在台上做演示吗?那真是太棒了!深呼吸一下吧,要记得你可是专家!”JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  逻辑清晰,语调幽默,感情饱满,很难想象这是现实中人类与AI间的对话。北京时间5月14日凌晨,美国人工智能公司OpenAI的春季发布会上线,发布了重磅产品,也就是人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场,这位提问的研发负责人在得到GPT-4o的回应后,随即故意大喘几口气,这一动作成功被手机上的GPT-4o捕捉到,并给出了“放松点,你可不是吸尘器”的回应。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  5月14日,OpenAI发布会现场,GPT-4o正在告诉工作人员“放松点,你可不是吸尘器”。 图/OpenAI官网视频截图JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  “GPT-4o可以综合利用语音、文本和视觉信息进行推理。”OpenAI首席技术官穆里・穆拉蒂在随后举行的主题演讲中表示,GPT-4是OpenAI此前的旗舰模型,可以处理图像和文本的混合信息,而GPT-4o则在此基础上新增了语音处理能力。最关键的是,其反应速度平均为320毫秒,完全做到了与人类在正常对话中同频。多位业内人士指出,这是此前GPT-4或任何智能语音助手都未曾达到的水平。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  就在OpenAI发布会24小时后,5月15日凌晨,谷歌在“I/O开发者大会”上发布了大模型Gemini加持下的个人数字助理Project Astra,用于对标GPT-4o。谷歌称其为“通用AI智能体”,其视觉识别和语音交互效果与GPT-4o不相上下。不少业内人士感叹,曾几何时由苹果发布会主导的“科技春晚”,如今已被AI大模型彻底接手。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  迈向通用语音助手JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  OpenAI创始人、CEO萨姆・奥尔特曼并未参加此次OpenAI发布会,而是在会后于社交平台X上发表了一个单词“她”作为回应。在2013年的美国电影《她》中,男主结识了一个可以不断适应环境的AI系统,并与其坠入爱河。这个AI系统所拥有的迷人声线、幽默风趣和善解人意,如今GPT-4o似乎都可以实现了。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  测试人员与GPT-4o对话,内容是为一场工作面试做准备。视频/OpenAI官网JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPT-4o中的“o”源自词缀“omni-”,有“全知全能”之义。对AI大模型而言,要做到全知全能、无障碍与人交流,首先要快。OpenAI官网显示,GPT-4o在英文文本和代码处理上与此前最新的GPT-4 Turbo的性能不相上下,但在非英文文本、视觉和音频理解方面都更为高效。此前,若使用语音模式对话,GPT-3.5的平均延迟为2.8秒,GPT-4则为5.4秒。人类的平均反应时间一般为100毫秒到400毫秒,而GPT-4o最低可达232毫秒,因此后者可以提供几乎无延迟的顺畅交互体验。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  OpenAI此次未放出任何具体的技术文件,仅在主页上用一段话介绍了GPT-4o的技术突破。普通的智能语音模型由多个独立模型组成,分别实现音频转文本,文本吞吐和处理,以及文本再转音频等功能。ChatGPT就是负责文本吞吐和处理的核心,也就是智能核心。据OpenAI介绍,GPT-4o一改这种流水线模式,可以同时吞吐文本、画面和音频数据,这意味着所有输入和输出都由这一个核心来处理,再加上其在视频和音频理解方面的升级,其处理速度显著加快。这一模式被称为“端到端的多模态模型”。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  多模态还意味着AI可以识别和表现情感。目前,市面上的语音助手常被用户诟病为冷漠、机械、一成不变,这是AI语音交互的一大阻碍。这是因为,此前的流水线模式会让智能核心丢失很多信息,它很难探测语调、识别多个说话者、排除背景噪声,也无法歌唱或用语气表达情感。端到端模式下,文字和音视频都可以成为训练智能核心的数据,从而让其真正明白语言所承载的情感。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  OpenAI发布会上,演示者要求GPT-4o调整说话时语气,在说话和唱歌之间快速切换,甚至用堪比莎士比亚戏剧的夸张声调来讲一个睡前故事,GPT-4o都能完成任务。在被人类打断时,其也能耐心等待、快速理解新指令。在听到让自己唱歌的要求时,GPT-4o甚至轻微叹了口气。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》称,从现场和官方视频来看,GPT-4o确实做到了即时回应、准确理解并执行指令,以及合时宜的语调情感。如果这确实是现场随机的结果,而非为了演示而设定好的流程,那么GPT-4o的能力的确令人震惊。在他看来,由于缺乏技术文件,一个GPT-4性能水平的处理核心如何完成如此复杂的任务,还未可知,但“这一定是大数据喂养的结果”。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  除了现场演示,发布会还有网友提问环节。按照网友要求,GPT-4o展示了同声传译、情绪识别的能力。在识别一位工作人员的面部情绪时,GPT-4o说“我好像在看一个木质表面的东西”,疑似“翻车”,但该工作人员立刻调整提问策略,声明自己“不是一张桌子”。之后,GPT-4o给出了合乎情理的答案。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPT-4o并不是第一个多模态模型。去年12月,谷歌Gemini Ultra模型发布,用于完成任务语言理解、数学推理等高度复杂的任务,被业内认为可叫板当时的GPT-4,也是市面上最先发布的多模态模型。在谷歌官方公布的视频中,测试员和Gemini做了一些小游戏,Gemini能够用图片设计智力问答,或者找出纸团被扣在哪个纸杯底下。整个过程中,Gemini的反应速度都非常快,还会生成音频和图片来辅助回答。但发布会后仅数日,谷歌发言人便公开承认,该演示视频不是实时录制, Gemini实际上只能对静态图像做出反应。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  因此,GPT-4o的发布被业内人士看作是OpenAI对谷歌的“贴脸开大”。谷歌则紧随其后,在15日的发布会上予以还击。相比于OpenAI不足半小时的“轻声细语”,谷歌用长达近两小时、包含数十款AI产品的大轰炸叫板OpenAI,包括文生视频领域对标Sora 的Veo,以及对标ChatGPT但文本吞吐量远超前者的Gemini 1.5 Pro。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  谷歌发布的视频中,Project Astra能识别各种物体,说出代码的功用,并与人类实时沟通,延迟上与GPT-4o没有明显差异。Project Astra还能与谷歌AR原型眼镜“梦幻联动”,为佩戴者描述周围场景,并根据佩戴者的反馈补充细节。这一应用有可能力压OpenAI,在未来成为视觉障碍患者的福音。有业内人士分析,除了搜索引擎,谷歌在AI大模型领域还在拉平与OpenAI差距的过程中。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在聂再清看来,两家公司接连发布多模态语音助手,在易用性方面迈出了一大步,让人窥见了未来通用语音助手的样貌。通用语音助手就是人类在数字世界里的代理或管家,可以帮人解决一切数字事务,包括安排日程、整理和调用文件、利用知识指导学习、利用记忆推荐可能喜欢的产品等。未来随着模型吸纳的信息越来越多,语音助手会更加人性化、更加智能,做到真正的自然交互。随着视频能力的加入,除语音外,表情、肢体动作等也能够被模型解读,作为其决策的依据。有网友评论称,无论是GPT-4o还是Project Astra,其身手足以秒杀苹果的语音助手Siri。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  距离用户越来越近JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  OpenAI在发布会上表示, GPT-4o将在未来几周内分阶段集成至OpenAI的各项服务之中,包括还未面世的ChatGPT搜索引擎。许多业内人士对此次发布会上GPT-5的缺席表示惋惜,由于OpenAI在2022年底推出ChatGPT的时候,实际上已做出了GPT-4,因此有业内人士预测,带搜索引擎的GPT-5也许已“在路上”。英伟达高级科学家Jim Fan在X上表示,GPT-4o已经接近GPT-5,或许是后者的一次早期试水。据聂再清观察,目前还没有看到模型迭代的瓶颈,大模型的迭代速度有可能还会加快。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  奥尔特曼在X上表示,OpenAI致力于将GPT-4o免费提供给所有用户使用。以往,OpenAI发布新版ChatGPT模型时,通常会将其置于付费墙之后。如今,免费用户已经可以访问GPT-4o加持下的多项功能,例如分析数据、创建图表、撰写文件总结等,但不能使用图片生成功能。付费用户则可以享受5倍调用额度。谷歌在发布会中没有公布Project Astra的具体上线时间,预计很快会登录到安卓、iOS等平台使用。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  对开发者来说,GPT-4o的定价也更友好。OpenAI官网显示,从GPT-4开始,输入单位文本的价格一直在下降,相较GPT-4 Turbo,GPT-4o收费降低50%,调用速度却提升了两倍。这使其在商业应用上有了更大吸引力。聂再清表示,大模型控制价格的方式之一是提升模型性能,用更少的资源做更多的事;另一个方式则是通过类似搜索引擎的商业模式,对用户免费,但可以收取广告商的赞助。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  至于未来OpenAI和谷歌的大模型有没有开源的可能性,聂再清表示,参考iOS和安卓,一个闭源一个开源,未来的大模型市场也极有可能出现开源和闭源的巨头。用户体验最好的行业领先者倾向于闭源,而开源的好处在于可以集体将模型“做大做强”,二者在市场都有自己的位置。谷歌在发布会中推出了其首个视觉语言开源模型PaliGemma,针对图像标注、视觉问答、图像标签化等方面进行了优化。此外,谷歌还将在6月推出更大规模的开源模型Gemma 2 27B。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  OpenAI也同步发布了适用于macOS的ChatGPT桌面应用程序,使用户调用的体验更丝滑。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  GPT-4o加持下的通用语音助手在未来将有广泛应用,例如健康管理、医疗咨询、教育教辅等领域。聂再清认为,所有开放领域用到的语音智能,例如购物App中的导购等,都可以加装类似GPT-4o的智能核心,增强用户体验。这类语音助手将离用户越来越近。JGv速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:AI可以“做个人了”,怎么办http://www.sushuapos.com/show-2-6040-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《黑神话:悟空》PC端定价268元:是理性还是退让?

下一篇: 网易游戏520的第十年:新品开道,常青筑基

热门资讯

  • 我国成功研制可靶向送药的磁驱软体机器人

    中国科学院深圳先进技术研究院15日发布消息称,该院科研团队研发了一种具有靶向送药功能的磁驱软体机器人,该机器人能够根据器官内部环境的特点选择合

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 太空培育类器官或带来疾病新疗法

    自2019年以来,科学家已经在国际空间站上培育出了包括人类大脑、心脏和乳房在内的多个类器官模型。这些类器官通常利用人类干细胞培育而成,在一系列化

  • 世界睡眠日:别让你的良好睡眠被手机夺走

    再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高

  • huawei回应P70预售时间曝光:假的 最近没有官方消息透露

    3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各

  • GPU持续升级 如何应对算力“贫富差距”

    英伟达的GPU又升级了。3月19日,英伟达CEO黄仁勋发布了最新的B200算力芯片GPU,FP8精度下的训练性能是上一代的2.5倍,FP4精度下的推理性能更是达到了上

  • iPhone总裁库克访问中国:女子手持huaweiMate60与其合影

    3月25日消息,国内一场经济高峰论坛上,iPhone总裁蒂姆·库克再次成为焦点。然而,引起人们关注的并非库克的讲话内容,而是一张自拍照片。在论坛现场,一

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

  • 全球变暖跟哪些因素有关?IPCC是什么?一文了解

    今天(23日)是第64个世界气象日,今年世界气象日的主题是“气候行动最前线”。地球是人类赖以生存和发展的家园,气候变化给人类造成的影响广泛而深远,关乎

  • 俄罗斯成功发射“联盟MS-25”载人飞船

    俄罗斯国家航天集团23日发布消息说,俄当天成功发射了“联盟MS-25”载人飞船。消息说,莫斯科时间23日15时36分(北京时间20时36分),“联盟MS-25”载人飞船

推荐资讯

  • 日榜
  • 周榜
  • 月榜