在真核生物中,RNA转录、剪接、翻译和降解等生物学过程受到顺式调控元件、RNA结构和反式作用因子的调控。解析RNA多层次调控,对研究基因表达分子机制和设计RNA药物具有重要意义。但是,由于调控复杂和数据量不足,构建RNA调控的预测模型面临挑战。
近日,中国科学院上海营养与健康研究所研究员张国庆联合南方科技大学讲席教授王泽峰团队,构建出基于深度神经网络的预训练模型,可微调预测pre-mRNA剪接位点、mRNA翻译效率、mRNA降解率和内部核糖体进入位点(IRES)等RNA调控相关的下游任务,揭示了RNA中调控元件的序列特征,鉴定出新型翻译调控元件,为探讨RNA调控机制和优化RNA生物医学应用提供了新工具和新思路。
研究团队设计并训练了基于多层transformer编码器架构的RNA语言模型LAMAR。研究下载处理约1500万条哺乳动物和病毒的基因和转录本序列,通过掩码学习进行无监督预训练,预先提取RNA序列特征;同时使用含有标签的数据集微调模型,实现RNA调控高效预测。
该研究测试了LAMAR模型在多个下游任务中的性能。在mRNA翻译效率和降解率预测任务中,LAMAR模型分别取得0.66和0.65的Spearman相关系数指标,相比最优基线模型提升7%和8%。在剪接位点预测任务中,LAMAR模型取得0.96的PR-AUC指标,与最优基线模型SpliceAI性能相当。
进一步,团队使用公开数据集微调模型预测病毒和真核IRES,取得0.985的AUROC指标。研究预测RNA病毒基因组中潜在的新IRES,并在多个细胞系中测试其中305条序列驱动环形RNA翻译的效率。研究发现序列的预测概率与翻译活性呈正相关,提示模型具有模拟筛选新型调控元件的能力。
9月24日,相关研究成果在线发表在《基因组生物学》(Genome Biology)上。研究工作得到国家重点研发计划、国家自然科学基金、中国科学院战略性先导科技专项(B类)等的支持。
目前,LAMAR模型已上传至Github(https://github.com/rnasys/LAMAR)供研究人员使用。
论文链接
LAMAR模型架构及研究流程图
南京一家氛围柔和的酒吧里,老板娘很认真地告诉李业诚,“坐右边角落里那个‘歪果仁’,也许跟你聊得来,他也很喜欢小动物。” 生命自诞生以来一直经历着从简单到复杂,从低等到高等的演化趋势。但演化是多个方向的,有时候也会出现特化。一些科学家普 脚桥核(PPN)被认为是运动调控的重要脑区,而脚桥核中谷氨酸能(vGluT2)神经元对运动控制的贡献在临床和基础研究中存在争议。临床上,脚桥核是帕金森病患者深部脑刺激(DBS)的潜在靶点,尤其适用于对多巴胺能治疗和丘脑底核/ 本报北京9月26日讯(记者 高毅哲)今天,国务院新闻办公室举行“推动高质量发展”系列主题新闻发布会。教育部部长怀进鹏,教育部副部长王嘉毅、吴岩、王光彦出席发布会并答记者问。以下为发布会问答实录。 【关键词】 “黄金考点”“解题模板”等传统“干货”,为何无法激发学生们的学习热情?曾经参与过中考命题的教师李铭(化名)在广东省珠海市第八中学(以下简称“珠海八中”)任教时,遇到了教学生涯新挑战。 中国教育报-中国教育新闻网讯(记者 任朝霞)11月12日,上海市黄浦区义务教育教学改革实验区推进大会暨黄浦区第六届小学教学节在上海师范大学附属卢湾实验小学举行,会上解读了黄浦区义务教育教学改 。本文链接:科研人员开发出RNA基础语言模型http://www.sushuapos.com/show-12-1868-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: FAST银道面中性氢巡天研究取得新突破
下一篇: 二氧化碳制可持续燃料研究获进展