21世纪经济报道记者孔海丽 北京报道
DeepSeek低调发布了DeepSeek-V3模型的更新版本——DeepSeek-V3-0324。
没有主动传播,但引起了AI行业的一阵波澜,一个值得关注的信息点在于,该版本仍然基于V3的模型,改进训练方法后,大幅提高了推理类任务的表现水平,在数学、代码类相关评测集上取得超过GPT-4.5的得分成绩。
多维度性能改进
DeepSeek-V3-0324参数量为6850亿,较上一版本的6710亿略有增加。模型在代码、数学推理等能力上实现了提升,尤其在代码领域表现突出。在Aider的多语言基准测试中,DeepSeek-V3-0324成绩达到55%,较前代版本明显提升,成为仅次于Sonnet 3.7的非推理类模型第二名,代码能力甚至可与Claude 3.7 Sonnet相媲美。
亲民部署与开源升级
除了性能提升,DeepSeek-V3-0324在部署方面也表现出优势。该版本模型采用宽松的MIT开源协议,且可直接部署在M3 Ultra的Mac Studio上,这意味着大模型开发应用的门槛更进一步降低。苹果机器学习工程师Awni Hannun 基于MLX框架和4-bit量化,在 512GB M3 Ultra上实现了超过20 token/s的运行速度,将模型磁盘占用空间减少到352GB。
相比之前的自定义许可证,新协议还支持开发者自由修改、分发模型,支持模型蒸馏和商业化应用,进一步推动了AI技术的共享与创新。
冲击行业格局
从国内市场来看,AI领域“六小龙”在DeepSeek的冲击下出现分化。Quest Mobile1月数据显示,当月DeepSeek日活超越豆包,Kimi退居第三,月之暗面受到的冲击较为明显。而腾讯因全面拥抱DeepSeek,在基础模型领域实现追赶。
在国际市场,DeepSeek的技术突破也引发了诸多讨论。英伟达因DeepSeek的热度,股价震荡下行,投资者担忧DeepSeek的技术进步会降低市场对英伟达昂贵硬件的需求,以至于黄仁勋近日在GTC大会上特意强调:“DeepSeek带来的并不是硬件需求的减少,反而会推动对强大硬件的需求。”黄仁勋话音刚落,传来腾讯增购数十亿元芯片的消息,这些需求主要就是包括布置DeepSeek在内的大模型带来的。
与此同时,业内共识在于,DeepSeek的火爆,表明中国在基础设施软件工程等领域取得了领先地位。
此次DeepSeek-V3-0324的更新,并非市场此前期待的DeepSeek-V4或R2。但从发布时间和技术特点来看,市场猜测,DeepSeek-R2有可能在不久后上线。R2有望进一步提升模型的推理能力,持续改写AI产业的竞争格局,推动各行业智能化变革走向深入。
3月18日,记者从山西省人民政府获悉,“山西煤炭工业互联网智算平台”日前在山西联通大数据中心建设完成。该平台由中国联通与山西晋云互联科技有限公司共同打造,是山西省目前唯一的垂直行业类智 记者3月18日从安徽明天氢能科技股份有限公司(以下简称明天氢能)获悉,国家电网近日向明天氢能及董事长王朝云分别授予科学技术进步奖一等奖,获奖项目为“大规模氢电一体化站关键技术、核心装备及 根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地图涵盖了大约130万个活跃类星体的精确空间 据中国科学院武汉植物园消息,我国科研人员在大别山区开展植物多样性科学考察时,发现了天门冬科天门冬属新物种,并将其命名为大别山天门冬。相关研究成果日前发表在国际知名植物分类学期刊《植物 据一项在本周举行的美国心脏协会会议上提交的新研究,每天进食时间控制在8小时内的间歇性禁食方法可能与心脏病死亡风险上升相关。近年来越来越流行的间歇性禁食指限制进食时间,在每天或每周的 为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科学技术协会(以下简称“北京市科协”)在北京科 。本文链接:DeepSeek低调上新:友好度跃升http://www.sushuapos.com/show-2-11498-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。