设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

当科技巨头押注“多模态”,谁能为AI落地找到终极答案?

2025-04-17 06:42:06 来源:

21世纪经济报道记者董静怡 上海报道 在AI 2.0时代,模型与应用已密不可分。应用场景推动模型发展,而大模型通过差异化创新来突破各种垂直领域的需求。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多模态被看作是一个必然的趋势,也是商汤大模型的“关键词”。近日,商汤技术交流日上发布的“日日新SenseNova V6”,就是一个涵盖通用模型、推理模型、视频理解模型及全模态交互模型的体系。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“从我们的角度来讲,商汤从视觉能力延伸到原生多模态模型是一个非常自然的延伸。”日前,商汤科技董事长兼CEO徐立在商汤技术交流日的演讲中表示,“从行业的发展趋势来看,我们也看到一些潜在的提示点。”JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

目前,业界对推理能力的关注主要在数理求解等纯文本推理任务上,但要实现推理能力在更广泛场景的落地,就需要多模态和推理的紧密结合。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

国际科技巨头正加速布局多模态大模型领域,这一趋势在近期密集发布的新品中体现得尤为明显——无论是谷歌推出的Gemini 2.0、OpenAI发布的GPT-4.5,还是Meta最新开源的Llama 4,都在显著提升原生多模态能力。这些突破性进展表明,通过实现更广泛、更深度的信息交互与整合,多模态大模型正在为用户创造更完整、更丰富的场景价值。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

未来,AI大模型的竞争焦点将从技术参数转向应用深度,其核心竞争力将体现在它能否理解人类情感、记忆交互上下文,并在教育、医疗、工业等场景中提供“好用”而非“能用”的解决方案。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多模态成AI共识

据Epoch AI预测,到2028年,互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。这意味着,如果以当前趋势继续下去,数据将成为大型语言模型(LLM)的重大瓶颈。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不过,在徐立看来,这并不意味着整个知识体系都被消耗完。他认为,有很多的知识都蕴藏在大量的图像、视频,甚至3D等其他模态中。但到目前为止,还没有完全地把这些知识真正用来提升原来的文本,甚至是智力的能力,“因为模态的融合没有做到那么好。”JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“关于多模态模型的训练,其计算架构比纯文本模型更为复杂。”商汤科技联合创始人兼大模型首席科学家林达华向21世纪经济报道记者表示。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

具体来说,文本处理通常包含编码和解码两个阶段,而多模态训练还需要额外处理视频和图像数据的编码阶段。此外,多模态模型还涉及不同模态之间编码方式的协调与选择问题,这进一步增加了模型设计和训练的复杂度。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

沙利文大中华区执行总监崔楠也向记者表示,多模态大模型的训练不仅需要大量计算资源,而且训练时间长、效率低。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

因此,多模态大模型的持续进化和迭代,也成为了人工智能领域最引人注目的发展趋势之一,国际科技巨头都在不约而同地加强大模型的多模态能力建设。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

例如,谷歌的Gemini 2.0凭借原生支持文本、图像、音频和视频的多模态输入输出,结合强大的推理能力和智能体(Agent)架构,显著提升了复杂任务的交互体验。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

OpenAI的GPT-4.5则进一步优化了多模态融合,在长上下文理解、跨模态推理等方面取得突破,增强了模型在科研、创作等领域的实用性。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而Meta最新发布的Llama 4采用专家混合架构(MoE)和早期融合技术,在视觉-语言联合训练上取得进展,使其在多模态开源模型中占据领先地位。这些清晰的技术演进路径标志着AI发展正在进入一个全新的阶段。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“大家都在越来越多的强调多模态的能力,这个是一个自然的市场趋势。”商汤科技联合创始人、大装置事业群总裁杨帆表示。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

多模态大模型突破了传统单模态模型的局限性,通过整合文本、图像、音频、视频等多种信息模态,实现了更接近人类认知方式的复杂信息处理能力。这种跨模态的深度融合不仅大幅提升了模型的理解深度,更创造了前所未有的应用可能性。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“语言是一种编码过程,这一过程存在信息损失。人类在进行思考和判断时,往往借助多模态方式。因此,多模态正逐渐成为行业模型发展的趋势,它为诸多全新的应用、场景乃至硬件形态的出现提供了可能。”杨帆表示。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

打开落地应用的新可能

2023年起,商汤启动业务重组,将重心转向生成式AI。商汤2024年全年业绩财报显示,生成式AI收入突破24.0亿元人民币,同比增长103.1%,占集团收入的比例由2023年的34.8%进一步提升至63.7%,已成为集团最大业务。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此次“日日新SenseNova V6”的发布,可视为其技术转型的阶段性成果——通过多模态融合,将视觉能力与模型结合,延续其在图像、视频理解上的积累。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

而多模态也是多样行业落地的必备因素。因为AI最终会走回线下,走回物理现实,在这个过程中多模态的处理和思考能力就成为一种必然的趋势性需求。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“未来的交互,就是一个多模态全模态的交互,”林达华向记者表示,“我们就是要打通未来交互入口的核心技术。”JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

徐立强调:“AI之道,在于百姓之日用。”这句话既点明了商汤的技术愿景,也揭示了当前大模型发展的核心挑战——如何让AI真正融入产业与生活,而非停留在实验室或技术演示阶段。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

此前,商汤科技确立了“大装置-大模型-应用”三位一体核心战略,以日日新(SenseNova)多模态大模型为基石,以生产力工具和交互工具为两大落地方向。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

商汤科技认为,大模型在商业应用上有两个方面的关键价值:一是融入真实的业务应用,具备处理复杂信息和解决复杂问题的能力;二是以更有亲和力的方式与人交互,让人感受到和模型交流的良好体验,愿意和模型持续交流。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

要实现上述目标,模型需要具备强大的推理能力,以支撑对人类意图的深度理解、对复杂信息的分析判断以及解决真实环境中的复杂问题;能理解情感,与人共情,并且可以和人实时互动;能记住过去一段时间发生的事情,并且捕捉其中的关键信息并融入推理。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

反映在落地应用上,则在具身智能、教学等场景上有所突破。林达华向记者表示,会从这些特定行业出发进行初步迭代,之后众多下游企业、合作伙伴以及爱好者会衍生出更多应用创意。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

“靠单纯的技术很难形成长久的壁垒,现在一个新的模型发布后很快就会有一系列模型追赶上来,开源也会进一步缩小大家在技术上的差距。技术和行业的深度结合才能形成持久壁垒。”林达华表示。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

放眼行业,阿里巴巴宣布推动大模型技术对公司业务的深度改造,百川智能宣布减少多余动作,专注医学方向,这都说明大模型企业开始专注于技术落地和应用的爆发。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

不过,大模型最终要解决的是“好用”而非“能用”的问题,数据隐私、模型偏见、算力成本等问题仍需行业共同应对。零一万物创始人李开复预测,2025年是“AI应用大规模落地元年”,但厂商需回归商业本质,真正为客户创造价值,而非仅追求技术指标。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

行业的下半场,胜负将取决于谁能更深入产业,构建“数据飞轮”和场景黏性。商汤的战略提供了某种参考答案,但最终能否在激烈的竞争中脱颖而出,仍需时间检验。无论如何,多模态AI的深入发展,正让智能技术前所未有地贴近普通人的生活,而这或许才是此次技术浪潮最值得期待的方向。JGC速刷资讯——探索最新科技、每天知道多一点SUSHUAPOS.COM

本文链接:当科技巨头押注“多模态”,谁能为AI落地找到终极答案?http://www.sushuapos.com/show-2-11860-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 中无人机董事长张晓军:重点客户采购延后拖累业绩,预计2025年市场将迎转机

下一篇: 两个AI,说着说着就“加密”了......

热门资讯

  • 创新中药八子补肾胶囊抗衰老研究取得重大突破

    3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • 人工智能探究癌症发展机理

    据英国《金融时报》网站3月13日报道,科学家们已经在利用人工智能(AI)阐释人体所谓的“黑暗基因组”,并开发一种可能很强大的癌症检测、监测和治疗新

  • 我国科学家揭示东北黑土成因

    记者3月20日从中国科学院地质与地球物理研究所获悉,该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作,通过分析采集的黑土样品发现,黑

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 雌蛙会向雄蛙“暗送秋波”?这项研究给出了答案

    记者3月21日从安徽师范大学获悉,该校生命科学学院张方教授课题组通过野外自然抱对、控制实验下抱对以及视频回放等实验手段,证实他们前期提出的,眨眼

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 光储行业迎来2000V新时代

    3月21日,由安徽省工业和信息化厅指导、中国光伏行业协会主办、阳光电源股份有限公司承办的“PAT2024爱光伏一生一世”先进技术研讨会在合肥举办。光

  • 曝huaweiMate60已停产!P70蓄势待发:下个月见

    近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023

  • huaweiP70系列发布在即!供应链已开始批量供货:出货目标相当乐观

    3月24日消息,据媒体报道,huawei电话供应链公司,已开始向huaweiP70系列高端旗舰电话批量供货。同时有产业链人士透露,huawei给出的P70系列出货目标指引相对

推荐资讯

  • 日榜
  • 周榜
  • 月榜