多模态AI重新定义人机交互方式

发布时间: 2024-10-23 09:12:44 来源：科技日报

观看：241

未来的人工智能（AI）什么样？想象一下，只需简单一个指令，它们便能领悟并执行复杂的任务；它们还能通过视觉捕捉用户的表情和动作，判断其情绪状态。这不再是好莱坞科幻电影中的场景，而是正逐步走进现实的“多模态AI”。

据美国《福布斯》网站近日报道，元宇宙平台公司、OpenAI以及谷歌公司等巨头，都推出了各自的多模态AI系统，正不遗余力地加大对此类系统的研发投资，力求提高各种模态内容输出的精确度，从而改善AI与用户的交互体验。

多模态AI标志着一种范式变革。它将深刻改变很多行业的面貌，并重塑数字世界的格局。

赋予AI“多重感官”功能

人类是如何了解世界的？我们依赖视觉、听觉和触觉等多种感官，从无数来源接收信息。人脑将这些纷繁复杂的数据模式融合，绘制出一幅生动的现实“画卷”。

IBM公司官网这样定义多模态AI：能集成和处理来自多种模态（数据类型）的机器学习模型，这些模态包括文本、图像、音频、视频等形式的输入。就像赋予AI一整套感官，使它能从多个角度感知并理解输入的信息。

这种跨越不同模态理解和创建信息的能力，超越此前侧重于集成和处理特定数据源的单模态AI，赢得了各大科技巨头的青睐。

在今年的移动通信大会上，高通公司将其开发的多模态大模型首次部署在安卓手机上。用户无论是输入照片，还是语音等信息，都能与AI助手顺畅交流。例如，用户可以拍一张美食照片向AI助手提问：这些食材都是什么？能做出什么菜？每道菜的热量是多少？AI助手能基于照片信息，给出详细的答案。

今年5月，OpenAI发布了多模态模型GPT-4o，其支持文本、音频和图像的任意组合输入和输出。随后，谷歌也于第二天推出了自己的最新多模态AI产品Gemini 1.5 Pro。

9月25日，元宇宙平台公司发布了其最新的开源大语言模型Llama 3.2。公司首席执行官马克·扎克伯格在主题演讲中表示，这是该公司首个开源多模态模型，可同时处理文本和视觉数据，标志着AI在理解更复杂应用场景方面取得了重大进展。

悄然推动各领域变革

多模态AI正悄然改变着多个领域的面貌。

在医疗保健领域，IBM旗下“沃森健康”正对病人的影像学数据、病历文本和基因数据进行综合分析，帮助医生更准确地诊断疾病，有力支持医生为病人制订个性化治疗方案。

创意产业也正在经历一场变革。数字营销专家和电影制片人正借助这一技术打造定制内容。试想，只需一个简单的提示或概念，AI系统就能编撰出引人入胜的剧本，生成故事板（即一系列插图排列在一起组成的可视化故事）、创作配乐，甚至制作出初步场景剪辑。

教育和培训领域也在多模态AI助力下向个性化学习迈进。美国纽顿公司开发的自适应学习平台能利用多模态AI，深入分析学生的学习行为、表情和语音，实时调整教学内容和难度。实验数据显示，这种方法能将学生的学习效率提高40%。

客户服务也是多模态AI系统令人兴奋的应用之一。聊天机器人不仅能回应文本查询，还能理解客户的语调，分析客户的面部表情，并用适当的语言和可视化线索作出回应。这种更接近人类的交流有望彻底改变企业与客户的互动方式。

仍需克服技术伦理挑战

但多模态AI发展也面临诸多挑战。

AI咨询公司“隐空间”创始人亨瑞·艾德尔表示，多模态AI的强大之处在于能够整合多种数据类型。然而，如何有效整合这些数据仍是一个技术难题。

此外，多模态AI模型在运行过程中往往需要消耗大量算力资源，这无疑增加了其应用成本。

更值得注意的是，多模态数据包含更多个人信息。当多模态AI系统能轻松识别人脸、声音乃至情绪状态时，如何确保个人隐私得到尊重与保护？又该如何采取有效措施，防止其被用于创建“深度伪造”或其他误导性内容？这些都是值得深思的问题。

未来的人工智能（AI）什么样？想象一下，只需简单一个指令，它们便能领悟并执行复杂的任务；它们还能通过视觉捕捉用户的表情和动作，判断其情绪状态。这不再是好莱坞科幻电影中的场景，而是正逐步走进现实的“多模态AI”。

据美国《福布斯》网站近日报道，元宇宙平台公司、OpenAI以及谷歌公司等巨头，都推出了各自的多模态AI系统，正不遗余力地加大对此类系统的研发投资，力求提高各种模态内容输出的精确度，从而改善AI与用户的交互体验。

多模态AI标志着一种范式变革。它将深刻改变很多行业的面貌，并重塑数字世界的格局。

赋予AI“多重感官”功能

人类是如何了解世界的？我们依赖视觉、听觉和触觉等多种感官，从无数来源接收信息。人脑将这些纷繁复杂的数据模式融合，绘制出一幅生动的现实“画卷”。

IBM公司官网这样定义多模态AI：能集成和处理来自多种模态（数据类型）的机器学习模型，这些模态包括文本、图像、音频、视频等形式的输入。就像赋予AI一整套感官，使它能从多个角度感知并理解输入的信息。

这种跨越不同模态理解和创建信息的能力，超越此前侧重于集成和处理特定数据源的单模态AI，赢得了各大科技巨头的青睐。

在今年的移动通信大会上，高通公司将其开发的多模态大模型首次部署在安卓手机上。用户无论是输入照片，还是语音等信息，都能与AI助手顺畅交流。例如，用户可以拍一张美食照片向AI助手提问：这些食材都是什么？能做出什么菜？每道菜的热量是多少？AI助手能基于照片信息，给出详细的答案。

今年5月，OpenAI发布了多模态模型GPT-4o，其支持文本、音频和图像的任意组合输入和输出。随后，谷歌也于第二天推出了自己的最新多模态AI产品Gemini 1.5 Pro。

9月25日，元宇宙平台公司发布了其最新的开源大语言模型Llama 3.2。公司首席执行官马克·扎克伯格在主题演讲中表示，这是该公司首个开源多模态模型，可同时处理文本和视觉数据，标志着AI在理解更复杂应用场景方面取得了重大进展。

悄然推动各领域变革

多模态AI正悄然改变着多个领域的面貌。

在医疗保健领域，IBM旗下“沃森健康”正对病人的影像学数据、病历文本和基因数据进行综合分析，帮助医生更准确地诊断疾病，有力支持医生为病人制订个性化治疗方案。

创意产业也正在经历一场变革。数字营销专家和电影制片人正借助这一技术打造定制内容。试想，只需一个简单的提示或概念，AI系统就能编撰出引人入胜的剧本，生成故事板（即一系列插图排列在一起组成的可视化故事）、创作配乐，甚至制作出初步场景剪辑。

教育和培训领域也在多模态AI助力下向个性化学习迈进。美国纽顿公司开发的自适应学习平台能利用多模态AI，深入分析学生的学习行为、表情和语音，实时调整教学内容和难度。实验数据显示，这种方法能将学生的学习效率提高40%。

客户服务也是多模态AI系统令人兴奋的应用之一。聊天机器人不仅能回应文本查询，还能理解客户的语调，分析客户的面部表情，并用适当的语言和可视化线索作出回应。这种更接近人类的交流有望彻底改变企业与客户的互动方式。

仍需克服技术伦理挑战

但多模态AI发展也面临诸多挑战。

AI咨询公司“隐空间”创始人亨瑞·艾德尔表示，多模态AI的强大之处在于能够整合多种数据类型。然而，如何有效整合这些数据仍是一个技术难题。

此外，多模态AI模型在运行过程中往往需要消耗大量算力资源，这无疑增加了其应用成本。

更值得注意的是，多模态数据包含更多个人信息。当多模态AI系统能轻松识别人脸、声音乃至情绪状态时，如何确保个人隐私得到尊重与保护？又该如何采取有效措施，防止其被用于创建“深度伪造”或其他误导性内容？这些都是值得深思的问题。

据阿根廷布宜诺斯艾利斯经济新闻网2月19日报道，在人工智能(AI)迅速重新定义就业格局的今天，通常被称为“软”技能的人类技能成为最有韧性、最有价值的技能。这是阿尼什·拉曼和玛丽亚&mi 据埃菲社报道，多发性骨髓瘤是成年人中继淋巴瘤之后第二常见的血液肿瘤。最近，西班牙的一个科研团队开发出了一种新的免疫疗法来对抗它。实验室实验表明，这种新疗法比目前优先使用的免疫疗法更有今年1月，英国分子生物学家肖尔托·戴维发表文章，指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正式宣布撤回6篇论文，并纠正了另外31篇论文的记者3月21日从安徽师范大学获悉，该校生命科学学院张方教授课题组通过野外自然抱对、控制实验下抱对以及视频回放等实验手段，证实他们前期提出的，眨眼行为可能在雌性凹耳蛙性选择中起着重要作用 3月23日消息，据最新爆料，vivo X100s Pro已经获得3C认证，估计会在5月份前后发布。该机可以看做是vivo X100 Pro的小迭代机型，属于半代升级款，与去年X90s类似。新机从此前的天玑9300升级为天玑9300+，处 3月24日消息，据媒体报道，huawei电话供应链公司，已开始向huaweiP70系列高端旗舰电话批量供货。同时有产业链人士透露，huawei给出的P70系列出货目标指引相对乐观。据数码博主“数码闲聊站”爆料，huaweiP 。

本文链接：多模态AI重新定义人机交互方式http://www.sushuapos.com/show-2-8937-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：北京亦庄商业航天加速腾飞

下一篇：人工智能正催生新思维模式“系统0” 有望支持和增强人类认知能力

多模态AI重新定义人机交互方式

热门资讯

推荐资讯

科技最热文章