美国索尔克研究所开发出一种名为ShortStop的机器学习框架,用于探索以往“被忽视的DNA区域”,寻找在疾病中发挥关键作用的微蛋白。相关研究发表在最新一期《BMC方法学》上。
研究人员与运行中的ShortStop。图片来源:美国索尔克研究所
这些微蛋白是蛋白质家族中的小型成员,其组成氨基酸通常少于150个,因此难以通过传统蛋白质分析方法检测。长期以来,它们隐藏在基因组中被视为“非编码”或“垃圾DNA”的99%区域中,从未被充分研究。然而,越来越多证据表明,这些区域并非无用,其所编码的微蛋白在调节健康与疾病过程中扮演重要角色。
传统研究方法主要关注编码大型蛋白质的DNA区域,而忽略了可能包含微蛋白编码指令的小开放阅读框(smORF)。尽管已有实验方法识别出了数千个smORF,但这些方法成本高、耗时长,且无法有效区分具有生物学功能的微蛋白与无功能的序列,严重限制了相关研究的进展。
ShortStop的出现改变了这一局面。该AI工具通过机器学习训练,不仅能够从大型基因数据库中识别出潜在的smORF,还能预测哪些微蛋白最有可能具备生物学相关性,从而显著提高研究效率。其核心创新在于采用双类别排序系统:通过将真实发现的smORF与计算机生成的随机“诱饵”序列进行比较,ShortStop能够快速评估新发现的smORF是否可能具有功能性,从而优先筛选出值得深入研究的候选者。
团队将ShortStop应用于已发布的smORF数据集后,发现约8%的序列可能编码功能性微蛋白,并已将其列为优先验证目标。该工具还能识别出以往方法遗漏的微蛋白,包括在人体细胞和组织中实际表达的种类。尤为重要的是,它可直接利用广泛存在的RNA测序数据,这意味着许多实验室无需额外实验即可开展微蛋白研究。
在一项应用实例中,团队使用ShortStop分析了肺癌相关的遗传数据,从肿瘤与正常肺组织的对比中识别出210种全新的微蛋白候选者。其中一种微蛋白在肿瘤组织中显著升高,显示出作为肺癌生物标志物或治疗靶点的巨大潜力,验证了该工具在疾病研究中的实用性。
上海生物医药产业怎么做到产学研合力?12月14日,澎湃新闻记者从上海张江一场共话人才未来产学研合作的闭门会议获悉,前 根据12月13日发表于《自然》上的两项研究,澳大利亚北部和中部地区的土著是地球上基因最独特的群体,他们的基因变异率很高, 今天上午,中国首家公办本科职业学校——南京工业职业技术大学与柬埔寨柬华理事总会合作共建的柬华应用科技大学成立揭牌 近日,“面向经济主战场 共建科技创新生态”科技创新驱动高质量发展研讨会在京举行。中国科学院相关科研院所数十位专家出 12月18日23时59分,甘肃省临夏回族自治州积石山保安族东乡族撒拉族自治县发生6.2级地震,震源深度10公里。截至19日16时,此次 近日发表于《睡眠医学》的一项研究表明,“夜猫子”动脉钙化的概率几乎是“早起鸟”的两倍。在心血管疾病的早期阶段, 。本文链接:AI新工具探索“被忽视的DNA区域”http://www.sushuapos.com/show-11-24181-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 马斯克旗下脑机公司将在英国启动脑芯片临床实验,帮瘫痪患者用意念控制设备
下一篇: OpenAI牵头建欧洲最大数据中心之一