(文/陈济深 编辑/张广凯)
7月2日,智谱开放平台产业生态大会在上海浦东张江科学会堂举办。智谱CEO张鹏在主题演讲中发布了智谱携手生态伙伴迈向AGI的两项最新成果:一是开源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破,刷新10B级别多模态模型性能上限;二是MaaS全新上线Agent聚合平台「应用空间」,全面激活行业场景中的AI能力,联动Z基金启动Agent开拓者数亿元专项扶持计划。
值得注意的是,本次智谱发布的新模型不仅可以输入一个PPT后自动生成汇报内容、演讲稿;甚至输入一段“苏超”视频,还能得到一段足球解说……如今的大语言模型不只会看文字,还会看图片、视频。
“AGI(通用人工智能)可以分为5个层次:L1是预训练大模型,L2是对齐、推理,L3是自我学习,L4是自我认知,L5是意识智能。”张鹏指出,视觉推理能力是L3中很重要的能力。
人类的语言能力、视觉能力、语音能力、行动能力、思考能力、推理能力由大脑统一完成,而AI,正在逐一破解这些能力的密码。
同时,在大会主题演讲环节,智谱高级副总裁吴玮杰、蒙牛集团副总裁&首席数智官李琤洁、中国银联金融科技研究院副院长吕旭峰分别就大模型落地实践做了分享。在panel环节中,捏TA创始人胡修涵、AiPPT联合创始人王振同、flowith CMO 拐子和张江智荟总经理沈玲就bigmodel原生创业话题进行了观点碰撞。
智谱再获10亿融资,助力上海打造万卡集群
今年3月,智谱落户上海张江,加入“模力社区”产业生态圈。目前,“模力社区”已经集聚将近70家垂类大模型企业,其中25家已经通过了安全备案和登记。
7月2日,在智谱开放平台产业生态大会上,浦东创投集团和张江集团联合战略投资智谱,总额10亿元。这也是智谱成立以来完成的第十六笔融资。
智谱和上海国资战略合作签约现场
就在今年,智谱已经完成了5轮融资,资方分别来自杭州,珠海,成都,北京,上海,且均具有国资背景。
同时,由上海仪电牵头、浦发集团和智谱共同参与的“算电模”的人工智能新型基础设施合作启动,以促进形成“能源+算力+模型+应用”的产业闭环。
浦发集团新产业发展部总经理孙颖对观察者网表示,该基础设施是“电算模”的一体结合的算力基础设施底座,其中浦发集团负责电力,上海仪电负责算力,而智谱则提供模型能力。设施将打造一个万卡集群,在浦发集团自有的绿电工厂中,通过绿电直连为运算提供能源。
对于打造万卡集群,孙颖解释道:“万卡集群”指的是由上万张如英伟达的H100这样的高性能AI计算加速卡组成的超级计算资源池,专门用来训练和运行大模型。“未来产业对人工智能算力需求巨大,但万卡集群规模的算力稀缺,该设施能为后续区域产业发展和招商工作提供支撑。”她说。
上海市经济信息化委副主任张宏韬则表示发展人工智能是上海的重大战略任务。当前,上海正以国家战略为牵引,牢牢把握通用人工智能的发展机遇,夯实算力和语料的基础能力,推动基础模型创新发展,全力打造具身智能、智能终端、AI智能体等爆款产品,乘势而上,建设人工智能上海高地。
开源模型进军视频推理领域
同日,智谱正式发布并开源视觉语言大模型GLM-4.1V-Thinking,标志着智谱GLM系列视觉模型实现从感知走向认知的关键跃迁。
GLM-4.1V-Thinking是一款支持图像、视频、文档等多模态输入的通用推理型大模型,专为复杂认知任务设计。它在GLM-4V架构基础上引入“思维链推理机制(Chain-of-Thought Reasoning)”,采用“课程采样强化学习策略(RLCS, Reinforcement Learning with Curriculum Sampling)”,系统性提升模型跨模态因果推理能力与稳定性。
其轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别,在兼顾部署效率的同时实现性能突破。该模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL,充分展现了小体积模型的极限性能潜力。
智谱轻量版GLM-4.1V-9B-Thinking模型跑分成绩出众
而除了传统的文本,推理,编程任务外,该模型在图文理解,数学推理和食品理解上均展示出高度的通用性与稳健性:
以AI做高考题为例,由于很多AI目前依然无法识别高考数学题目中的图标内容,因此在做高考横评时,AI做数学卷的范围往往被限定在了只有文字的题目上,观察者网编辑在现场体验后发现,智谱的最新模型对于自带几何图案的题目依然可以顺利作答。
而除了识别静态图片外,智谱的最新模型已经可以识别动态视频的内容并进行了理解和推理阐述。
苏超足球解说:识别复杂动态图像,理解事件逻辑
GUI Agent定日程:理解手机/电脑界面,交互操作
看图买菜:精确识别图像内容,支持复杂推理
目前,GLM-4.1V-9B-Thinking已在Hugging Face与魔搭社区同步开源。包含两个模型,分别是GLM-4.1V-9B-Base基座模型,希望能够帮助更多研究者探索视觉语言模型的能力边界作;GLM-4.1V-9B-Thinking,具备深度思考和推理能力的模型,正常使用和体验,均为这一模型。
Huggling Face中国区负责人王铁震对观察者网表示:“智谱模型的性能已经超越了去年11月底发布的GPT-4o,这款90亿参数的模型非常适合笔记本电脑级别的设备运行。”
值得注意的是,本次智谱最新的开源模型凭借90亿的参数量级不仅评测成绩优于GPT-4o,也和近期发布的720亿参数阿里千问2.5不分伯仲。
对此王铁震表示:“这代表中国在开源大模型领域未来达到同样的性能(智商+情商)所需要的模型尺寸和能耗等成本会越来越低。”
同日,智谱宣布GLM-4.1V-Thinking-Flash API已经免费上限智谱开放平台上线。
智谱对观察者网表示:在面向科学研究、教育、自主Agent及多模态助手等更复杂现实世界应用时,补足推理能力的GLM-4.1V-Thinking ,真正解决开放式、信息丰富的千行百业的场景问题。如长视频理解、图像问答、学科解题、文字识别、文档解读、Grounding、GUI Agent和代码生成。
加速商业化落地
对于大模型的商业化问题,也是外界一直对于大模型企业关注的重点。
智谱CEO张鹏对观察者网表示:智谱GLM大模型日均Token的调用量在2025年同比增长了近30倍,且日均消耗金额同比增长了52%。
值得注意的是,考虑到智谱早在2023年就开启了商业化试水,并披露过2024年期Token调用量增加了150倍,而在这个基数上继续增长近30倍可见AI商业化应用的广泛需求。
而智谱的API价格在2024年多次降价,降价幅度动辄80%-90%。就在今年4月,智谱再次对旗下模型API降价, 其中GLM-4-Plus 降价幅度最大,达到 90%,在API价格“白菜价”的情况下还能获得日均消耗金额的同比增长。
视觉推理作为带动大模型向通用多模态推理迈进的最新一步,大模型企业也在谋求将这一能力转化为数字化生产力,寻求商业化落地。面对B端客户,大模型企业一方面提供Agent,打通“最后一公里”。如智谱面向企业客户和开发者,推出了Agent应用空间,企业无需自建大模型团队,即可低门槛接入成熟、安全、可控的Agent能力。
如果说大模型是发动机,Agent则是由发动机提供动力的汽车、飞机、军舰,包括任务型Agent、交互型Agent、自主型Agent、协作型Agent等。
“智能体到底是偏向白领的创意型工作,还是蓝领的体力工作,抑或是偏向顶尖研究人员的创意和研究探索型任务更合适?对于这些问题,业界仍然在不断探索。”张鹏认为,但只有让AI工人实现了代替人的一部分基础性、重复性工作,才能够实现真正的降本增效,这是智能体能力的关键点。
长江证券研究指出,视觉推理+工具调用的深度融合下,教育、医疗、企服等垂直场景的 Agent落地周期有望提前,看好Agent商业化元年及投资机遇。
毕马威中国技术和新经济管理咨询服务主管合伙人高人伯表示,随着生成式AI向“自主智能体”演进,AI将不再仅仅是执行指令的工具,而是能够主动规划、协同并完成复杂任务的智能伙伴,这可能会催生全新的商业模式。
另一方面,大模型企业也在探索将AI能力落地于智能硬件。
这也经历了技术演进:早期模型很大,只能在云上推理,手机、PC作为客户端调用云端的智能能力。而随着端侧的算力、能源问题逐步解决,端侧也可以部署一定的智能能力,如在汽车、AI眼镜、AI玩具上可以实现端云结合。
“未来不管是机器人,还是汽车、眼镜、胸针,都会接入AI的能力。”张鹏认为。
本文系观察者网独家稿件,未经授权,不得转载。本文链接:智谱再获10亿融资,推出会看“苏超”的开源新模型http://www.sushuapos.com/show-3-148152-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。