近日,中国科学院合肥物质科学研究院研发出基于表型感知对比学习的抗体语言模型BCRInsight。该模型通过对海量序列的自监督学习,实现了对复杂免疫信号的深度解码,在抗体结合位点预测和B细胞亚群分析等任务上均达到当前最佳性能。
B细胞受体(BCR)免疫库蕴含丰富的生物学信号,决定抗原识别的特异性,记录B细胞激活、成熟及演化过程。传统方法难以解析抗体序列的复杂语义,单细胞测序技术成本高昂,因此亟需研发低成本、高效、可深度提取复杂生物语义的新型计算工具。
研究团队构建了基于12层Transformer编码器、约8600万个可训练参数的深度学习框架BCRInsight。与传统仅依赖掩码的语言模型不同,团队引入表型感知对比学习策略,在8000万条人类BCR序列的大规模数据集上完成预训练。在输入设计上,模型将氨基酸序列与基因注释等元数据,进行类似自然语言处理中“句子对”的联合编码。
实验显示,BCRInsight展现出优异的泛化与表征能力。在B细胞亚群分析中,模型能够从高度复杂的bulk BCR-seq数据中低成本地反卷积出B细胞亚群组成比例,准确率超越现有模型;在抗体结合位点预测测试中,其AUROC达0.962,性能优于九种先进方法。在未接触任何三维结构监督信号的条件下,该模型凭借自注意力机制感知蛋白三维结构,聚焦于决定抗原识别的关键HCDR3环区及结构支撑位点。
这一研究为实现从阅读免疫语言到编写免疫语言的跨越,以及指导疾病特异性抗体的人工设计与优化提供了支撑。
相关研究成果发表在Briefings in Bioinformatics上。
论文链接
BCRInsight模型框架
种子在植物生命周期中发挥着重要作用,而种子寿命是决定能否长期储存的关键因素。莲子具有极强的生命力,能够在自然环境中的泥碳层存活千年,并在适宜条件下萌发。然而,以往研究聚焦于生理结构和生化组分对莲子寿命的 近日,教育部公布第二批国家市域产教联合体名单,分别是江苏太仓、浙江宁波、浙江义乌、广西南宁、四川宜宾、新疆昌吉等6个市(县)。 教育部为何新布局建设这6家市域产教联合体?联合体如何走 2024年11月13日,江苏省宿迁市公安局宿城分局府苑派出所组织民警走进辖区学校开展法治宣讲活动。民警通过案例讲解、互动问答等方式,向学生们宣传防网络诈骗、防校园欺凌、防网络谣言、防毒禁毒 中国教育报-中国教育新闻网北京11月11日讯(记者 林焕新)如何保障特殊儿童接受学前教育,事关教育公平。在今天教育部召开的新闻发布会上,江苏省教育厅副厅长顾月华介绍了学前教育法对此的有关规定 ◎摘 要 高校作为统筹推进教育科技人才体制机制一体改革的先行区和试验田,要以更高的政治站位、更强的使命担当、更远的战略眼光深入实施人才强校战略。坚持党管人才,健全统一高效的人才工作 中国教育报-中国教育新闻网讯(记者 杨国良 通讯员 陶亚雄)近日,中国—印尼“长江数智工匠学院”启动仪式在重庆电子科技职业大学两江校区举行。重庆电子科技职业大学党委书记张伟、印度尼西亚通 。本文链接:研究人员研发出抗体语言模型http://www.sushuapos.com/show-12-2945-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。