21世纪经济报道记者 张赛男 上海报道
2023年被公认为是“大模型元年”,国内外大模型层出不穷,堪称“百模大战”。在这场竞赛中,通用大模型、垂直大模型、端侧大模型……各家发布的大模型各有特色,都想从中分一杯羹。
2024年开年之际,新的竞争也来临。先是猎豹移动发布猎户星空大模型,后有岩山科技(002195.SZ)旗下岩芯数智推出的自研大模型“Yan模型”……大模型赛道依旧吸引着各路资本的投入。
尽管竞争者众多,但市场总会决出最终的赢家,关键是花落谁家?
岩山科技常务副总经理、岩芯数智董事长陈代千对21世纪经济报道记者表示:“最终跑出来的大模型一定具有非常好的用户体验。大模型本质上是用户的体验,不管是B端还是C端,最终是用户来评价这个大模型好用不好用。用户体验怎样才能好?首先,要能完成用户给出的任务,如果不能完成任务,谈高效率、低能耗是不现实的。在能完成任务的基础上,以更低能耗和更高效率去完成,客户才会有很强的意愿去复用。”
1月24日,岩芯数智发布“Yan模型”,打出的标签是“非Transformer架构”,为国内首个非Attention机制的通用自然语言大模型。在陈代千看来,“Yan模型”去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,能实现高效率、低能耗的目标。
Transformer架构或许让普通人感到陌生,但其实是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构。凭借着强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,不仅成为自然语言处理领域的主流模型架构,还在计算机视觉、语音识别等多个领域展示了其跨界的通用能力。
在Transformer已经占据人工智能领域半壁江山的今天,岩芯数智为何要另辟蹊径?
算力和成本是岩芯数智的出发点。岩芯数智CEO刘凡平介绍,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。
“Yan团队早在三年前就已经开始布局、落地非transformer架构相关的事情。在这个过程中,行业也慢慢了解到transformer架构机制有一些共性的缺陷,所以大家都会去研究有没有其他的算法去优化、甚至替代这个结构。”陈代千说,“我们基于此前的实践,确信非transformer的路线是可行的。”
陈代千还谈到,“对很多的企业来说,并不是一定要用千亿大模型,用百亿大模型也许就可以达到效果。在千亿大模型上训练成本太高,以至于可能无法快速迭代。我们对通用大模型的理解是,它当然要解决很多普适性的问题,但是它必须个性化、同时必须低能耗。”他还透露,基于Yan架构,仅需投入同等规模Transformer架构成本的50%甚至更低,就可以拥有百万参数级的大模型。
那么,这个新架构下的大模型运行效率如何?从岩芯数智给出的对比结果来看,在同等资源条件下,Yan架构的模型,训练效率和推理吞吐量分别是Transformer架构的7倍及5倍,并使记忆能力得到3倍提升。对比数据表明,在单张4090 24G显卡上,当模型输出token的长度超出2600时,Transformer的模型会出现显存不足,而Yan模型的显存使用始终稳定在14G左右,理论上能够实现无限长度的推理。
在主流架构之外去搭建一个新的系统,岩芯数智显然面临着更大的挑战。
当被问及如何看待全新生态系统带来的难度时,岩芯数智CTO杨华对21世纪经济报道记者坦言,“这个点确实会存在,我们从零开始搭建构建自己的生态,确实需要花费更多时间,但也是我们坚信要走的一条路。”
他还表示,现在发布的产品是Yan 1.0版本,目前正在做Yan 2.0。“最后的通用人工智能,它肯定不仅仅是现在以语言输入、文本输出等形式,它应该是比如计算机视觉、视频甚至数字信号等全模态的内容都可以输入,然后我的模型也能够以各种形态,比如说以文字吐出、语音合成或者视频、信号处理的方式吐回这个结果。我们想做的Yan 2.0,其实就是往这个方向走,做一个全模态的实时人机交互系统。”
记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发弟教授和乐祥鹏教授团队,联合甘肃省武威市天 肺癌是全球死亡率最高的恶性肿瘤。其中非小细胞肺癌(NSCLC)占比达到85%。表皮生长因子受体(EGFR)是NSCLC最常见的驱动突变基因。现在,一个国际科学家团队首次证明,EGFR的一个关键界面可能会成为更 再打一局游戏就睡,再刷几个视频就睡,终于放下手机,关灯睡觉了……结果翻来覆去睡不着,半夜醒来再也睡不着,为什么明明睡着了,睡眠质量却不高?3月21日是世界睡眠日,最新发布的《2024中国 盲视技术已在猴子身上见效!马斯克脑机接口公司新目标:让盲人重见光明 澎湃新闻记者 吴遇利 Neuralink新技术或将造福数千万名失明人士。 当地时间3月21日,特斯拉CEO埃隆・马斯克在社交平台X(原推特)发文称, 3月24日,记者从中国农业科学院获悉,该院蔬菜花卉研究所甘蓝类蔬菜遗传育种创新团队,开发了快速创制细胞质雄性不育系的新方法——“一步法”。相关研究日前发表在国际期刊《自然&midd 科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症的高风险有关。吸烟者相较于不吸烟者,通常体 。本文链接:岩芯数智董事长陈代千:通用大模型要解决普适性问题,但必须个性化、低能耗http://www.sushuapos.com/show-2-2395-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 新东方发布超预期财报 俞敏洪回应董宇辉流量超过东方甄选
下一篇: 研究表明土壤压实影响大豆根系“进化”