设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

国内首个全国产化千亿参数细粒度MoE语义大模型开源

发布时间: 来源: 中国科学报

 Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)的星辰语义大模型研发团队宣布,国内首个全国产化训练的千亿参数细粒度MoE语义大模型TeleChat3-105B-A4.7-Thinking正式开源。Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该模型采用细粒度MoE 架构,基础模型训练数据超 15T,共包括 1 个共享专家和 192 个路由专家(每次激活 4 个专家),模型整体共 105B 参数量,实际激活参数为 4.7B,专家稀疏比处于业界前列。在IFEval、Math-500、AIME2025、Tau2-Bench等十多个权威评测集上,效果对标GPT-OSS-120B、Qwen3-30B-A3B、Qwen3-32B等模型。Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

面对综合任务场景,TeleChat3-105B-A4.7-Thinking可高效拆解任务需求,整合多项代码能力,一次性交付出完整可运行的代码,实现代码补全、代码修改、网站和网页游戏生成等多类任务,省去大量人工调试时间投入,运行流畅,结果准确。Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,团队还同步开源了稠密参数模型 TeleChat3-36B-Thinking ,在知识问答、逻辑推理、智能体等维度实现了能力提升,并实现了文本创作、语义理解、角色扮演等任务的针对性优化。Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据了解,此前中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)已陆续开源自研的TeleChat、TeleChat2 及 TeleChat2.5 系列模型,以传统稠密参数架构为主,模型尺寸覆盖十亿到千亿,构建了全尺寸大模型的开源布局。Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM


Fmg速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

12月16日,2023科技伦理高峰论坛在复旦大学成功举办。来自中国科协及海内外知名高校、科研机构的150多位专家学者汇聚一堂 人类蛋白质KRAS(蓝色)与其伴侣之一RAF1(黄色)相互作用的三维图。图片来源:西班牙巴塞罗那基因组调控中心 科技日报北京12 “这些小胶质细胞在tau蛋白病变有效地扩散到下一个细胞之前就开始吸收并降解tau蛋白。没有tau病理学,就不会有神经退 ·美国首枚将宇航员送入轨道的商业火箭结束了生命。这枚可重复使用的火箭助推器B1058完成了19次飞行和着陆,在大约 编者按 近两年,中国有一小部分年轻学子正在涌入Gap year文化的潮流,有些人甚至选择延毕去体验这种间隔年。Gap year兴起于 据江苏省扬州市职业大学网站消息,扬州市职业大学教学督导室2023年12月28日发布《2023-2024学年第一学期教师及学生座谈 。

本文链接:国内首个全国产化千亿参数细粒度MoE语义大模型开源http://www.sushuapos.com/show-11-30010-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 2025中国节能协会创新奖揭晓

下一篇: 时速700公里 国防科大创造超导电动磁悬浮推进世界纪录

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜