23日,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
人类基因组由30亿对碱基组成。“人类基因组计划”破译了序列,但序列上碱基的具体功能仍需要精准识别和解析。
现有模型大多基于1—2个参考基因组开展训练,难以体现人类遗传资源的多样性。而Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次将全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,有助更全面理解人类遗传多样性。
算法架构方面,Genos通过“混合专家”架构,精准调度强相关“专家”算法协同处理,在汇总百亿级庞大参数时成功降低推理成本和资源消耗,让模型既强大、又好用。
测试结果显示,Genos在直接面向临床应用的致病性突变解读任务中,准确率达92%;结合科学基础模型后,准确率高达98.3%。多项综合评测结果也显示,Genos超越现有最佳水平模型。
华大生命科学研究院相关负责人说,Genos模型已在HuggingFace(抱抱脸)、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同需求。
23日,华大生命科学研究院与之江实验室联合发布全球首个百亿参数可部署的基因组通用基础模型Genos。该模型支持多达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
人类基因组由30亿对碱基组成。“人类基因组计划”破译了序列,但序列上碱基的具体功能仍需要精准识别和解析。
现有模型大多基于1—2个参考基因组开展训练,难以体现人类遗传资源的多样性。而Genos整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次将全球范围内636个“端粒到端粒”级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,有助更全面理解人类遗传多样性。
算法架构方面,Genos通过“混合专家”架构,精准调度强相关“专家”算法协同处理,在汇总百亿级庞大参数时成功降低推理成本和资源消耗,让模型既强大、又好用。
测试结果显示,Genos在直接面向临床应用的致病性突变解读任务中,准确率达92%;结合科学基础模型后,准确率高达98.3%。多项综合评测结果也显示,Genos超越现有最佳水平模型。
华大生命科学研究院相关负责人说,Genos模型已在HuggingFace(抱抱脸)、魔搭等平台全面开源开放,提供12亿和100亿参数两个版本,满足不同需求。
北京时间凌晨4点至6点,英伟达联合创始人兼CEO黄仁勋发表主题演讲《见证AI的变革时刻》,正式拉开了2024年英伟达GTC大会的序幕。黄仁勋宣布,正式推出名为Blackwell的新一代AI图形处理器(G 国际天文学家团队绘制了迄今最大的三维宇宙地图,记录了大约130万个活跃类星体在空间和时间上的位置。它将成为探测类星体、暗物质晕和超大质量黑洞的强大工具。发表在最新一期《天体物理学杂 美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许多国家蛋白质消费极大比例的全球性行为,但捕 据埃菲社报道,多发性骨髓瘤是成年人中继淋巴瘤之后第二常见的血液肿瘤。最近,西班牙的一个科研团队开发出了一种新的免疫疗法来对抗它。实验室实验表明,这种新疗法比目前优先使用的免疫疗法更有 中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和区域百米级尺度数值预报的精度,显著减小全球 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 。本文链接:全球首个百亿级可部署基因组基础模型诞生http://www.sushuapos.com/show-2-14108-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 冰在二维下“织网式”结晶过程被揭示
下一篇: 向新求质|机器人这样实现“思考”