OpenAI语音模型“炸场” 15秒样本即可复刻人声

发布时间: 2024-04-08 08:55:04 来源：

观看：312

　　OpenAI语音模型“炸场” 15秒样本即可复刻人声

　　21世纪经济报道记者孔海丽实习生牛淑锐北京报道

　　继文生视频大模型Sora后，近日，OpenAI终于将按捺许久的语音引擎模型―Voice Engine公之于众。

　　利用文本输入和单个15秒音频样本，Voice Engine就能生成与原说话者非常相似且情感丰富的自然语音。不过，和文本生成视频模型Sora一样，目前OpenAI只针对少部分内测用户开放Voice Engine。

　　OpenAI在其官网披露，2022年底，Voice Engine就被首次开发，并已经用它来支持文本转语音API以及ChatGPT语音和朗读中可用的预设语音。但考虑到合成语音被滥用的潜在风险，OpenAI选择了谨慎有序地推进和发布Voice Engine。

　　近两年，全球生成式AI应用规模呈现爆发式增长。据IDC预测，全球AI软件市场规模有望从2022年的640亿美元增长至2027年的2790亿美元，复合增长率为31.4%。

　　华泰证券分析师认为，随着基础模型能力优化，多模态应用有望在内容创作、AI教育、虚拟陪伴等场景加速落地。

　　Voice Engine的问世，解锁了语音模型的更多可能性，例如辅助阅读、视频转译等，也将在发音障碍人群的语言表达上提供有效帮助。

　　当AI瞄准声音克隆技术

　　去年，霉霉说地道中文的视频火上微博热搜，而这背后的AI工具来自Voice Engine的采用者之一―AIGC初创公司HeyGen，此话题的阅读量超600万。

　　通过Voice Engine进行实时转换翻译，说话者将保留原始口音，原语言不仅能转换成中文、英文、日文等各类语言，也能让面部嘴型完美匹配。

　　除此之外，特朗普随口飙一段中文、郭德纲用英语说相声、蔡明阿姨讲段子的视频也在各大社交平台上广为流传。

　　Voice Engine的官宣也有迹可循。2024年3月19日，OpenAI已经为“Voice Engine”申请了商标，商标的覆盖范围主要是围绕语音识别、语音合成和语音生成等方面。

　　谷歌前员工Jonathan Chavez也曾在前段时间透露，OpenAI将在今年推出一款全球最好的个人助理产品，就像钢铁侠中的Jarvis。

　　果不其然，Voice Engine如期而至，团队还公示了多场景下的内测结果与相关音频。

　　根据OpenAI的介绍，Voice Engine能够通过自然、富有感情的声音为非读者和儿童提供阅读帮助；可以翻译视频和播客等内容，以便创作者和企业可以用自己的声音流利地接触世界各地的更多人；支持非语言人群和帮助患有突发性或退化性言语病症的患者恢复声音。

　　OpenAI语音引擎产品团队成员杰夫・哈里斯 (Jeff Harris)表示，该模型是根据“许可数据和公开数据的组合”进行训练的。

　　对于Voice Engine的进展，网友直呼：“人工智能的发展速度令人兴奋，势不可挡。”

　　从业人士认为，Voice Engine将对播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业带来现实影响，这其中也包括就业压力。

　　大众也期待，当OpenAI的Sora与Voice Engine这两项前沿科技相碰撞，又会擦出什么样的火花，真正意义上的有声AI视频乃至电影短片，是不是也就不远了。

　　勒紧“深度伪造”的缰绳

　　对于Voice Engine技术的使用，除了惊喜与赞叹声，也有人提出了质疑，如果这样的技术用于电信诈骗，后果会很可怕。

　　有在校大学生告诉21世纪经济报道记者，家长曾接到AI伪造学生声音的诈骗电话。

　　其实，OpenAI去年所发布“可以说话”的ChatGPT版本，长期以来一直为各种企业提供根据配音演员的录音所创建的声音，并没有发布从短视频中复制声音的技术。 OpenAI产品经理杰夫・哈里斯(Jeff Harris)表示，以这种方式复制任何声音的能力是有风险的。

　　2024年2月，美国曾发生利用AI生成语音影响选民投票事件。据报道，在大选之际，新罕布什尔州的部分选民接到一个神秘来电，电话中酷似美国总统拜登的声音号召他们不要在该州初选中投票。后经证实，该来电是机器人语音电话，并非拜登本人录制。此事件在当时引起了不小的轰动，加剧了人们对竞选“深度伪造”的担忧。

　　为加强语音引擎的安全构建，OpenAI在官方公告中称，公司正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作，以确保在建设过程中吸收他们的反馈。不过，OpenAI与这些合作伙伴针对语音引擎的业务进展，需要原始发言者的明确和知情同意，合作伙伴还必须清楚地向观众强调，他们听到的声音是由AI生成的。

　　OpenAI将为AI生成的语音添加水印，以追踪并主动监控其使用方式，以确保其透明度和安全度。

　　OpenAI官方表示：“我们目前不会广泛发布这项技术，仅小部分开放内测，希望语音引擎的这次内测既能强调其潜力，又能增强潜在问题的抵御能力，以应对越来越逼真的生成模型带来的挑战。”

　　此外，他们还将采取一系列安全措施，包括逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施；探索保护人工智能中个人声音使用的政策；教育公众了解人工智能技术的能力和局限性，包括欺骗性人工智能内容的可能性；加速开发和采用追踪视听内容来源的技术等。

日前，盛世盈创氢能科技（陕西）有限公司（以下简称盛世盈创）与协氢（上海）新能源科技有限公司宣布达成战略合作，共同推进风冷氢燃料电池电堆全自动化生产线（以下简称风冷堆）的研发与生产。双方协议，将建设目 2024年03月19日，以“初心如磐•向新出发”为主题的2024智能家居UP峰会CSHIA智能家居开年盛典在杭州成功举行。大会现场，由全国专业标准化技术委员会委员、CSHIA秘书长、中智盟投资创始人周 21世纪经济报道记者冯恋阁王俊广州、北京报道2013年播出的科幻电视剧《黑镜》第二季中有这样一个故事——女主角玛莎在男友艾什被车祸夺走生命之后，长久无法走出分离的痛苦，最终选 3月22日消息，xiaomi集团的许斐在微博上表示，xiaomiCivi 4 Pro的预售业绩远超预期，尤其是春野绿配色，许多门店都出现了缺货情况。据了解，xiaomiCivi 4 Pro的春野绿后盖左侧采用了全新的绮彩鎏光工艺，通随着无人驾驶技术的快速发展，无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日，南京溧水经济开发区管委会与南京易咖智车科技有限公司联合举办“金陵智地易启未俄罗斯国家航天集团23日发布消息说，俄当天成功发射了“联盟MS-25”载人飞船。消息说，莫斯科时间23日15时36分（北京时间20时36分），“联盟MS-25”载人飞船搭乘“联盟-2.1a”运载火箭从哈萨克斯坦境。

本文链接：OpenAI语音模型“炸场” 15秒样本即可复刻人声http://www.sushuapos.com/show-2-4631-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：抱抱脸Open了OpenAI的秘密武器，网易参与复现

下一篇： AI有了联想，世界将会怎样？

OpenAI语音模型“炸场” 15秒样本即可复刻人声

热门资讯

推荐资讯

科技最热文章