谷歌AlphaGenome解读调控基因表达的DNA

谷歌推出名为AlphaGenome的开源权重模型,用于解读人类和小鼠基因组中不编码蛋白质但调控基因表达及其他功能的98%非编码DNA区域。该模型可预测多种基因属性,包括基因在DNA序列中的起止位置、细胞被指令产生的RNA量,以及细胞读取基因时跳过某些序列的位置(此类剪接错误可能导致多种疾病)。AlphaGenome的输入为最多100万对DNA碱基对及物种类型(人或小鼠),输出约为6,000项人类基因属性和1,000项小鼠基因属性。其架构由卷积神经网络(CNN)编码器、Transformer和CNN解码器组成。在50项评估中,AlphaGenome在47项上表现优于或等同于先前模型。

AlphaGenome通过知识蒸馏构建:研究人员首先在四个大型公开数据集上预训练了64个结构相同的模型,这些模型分别学习人类和小鼠的DNA序列及其属性;随后将这64个模型的知识蒸馏整合到单一模型中。每个原始模型接收最长100万碱基对的DNA序列,CNN将其每128个碱基对嵌入为向量,Transformer处理这些嵌入以捕捉远距离碱基对之间的关系,最后CNN解码器生成各类基因属性。训练过程中使用19个损失项指导模型学习,例如一项损失使模型预测的RNA产量分布与真实分布匹配,另一项则促使模型对每个碱基对进行分类,判断细胞读取时是否会从此处开始跳过序列。蒸馏阶段沿用相同损失项,使AlphaGenome学会复现64个模型的输出。

在性能评估中,研究人员将AlphaGenome与九个先前模型对比,涵盖两大任务:识别基因序列属性和预测突变(序列改变)对这些属性的影响。结果显示,在24项基因属性识别任务中,AlphaGenome在22项上表现更优;在26项突变效应预测任务中,它在24项上达到或超越先前模型。此外,在一项现实场景测试中,研究人员将正常DNA修改为模拟T细胞急性淋巴细胞白血病(T-ALL)所致突变的序列,并分别输入AlphaGenome。模型预测的蛋白质表达变化与已知T-ALL致病机制一致。

该模型意义重大:约15年前,科学界普遍认为非编码DNA是无功能的“垃圾DNA”,此后虽发现其具有关键调控作用,但研究依赖耗时费力的实验。AlphaGenome将相关知识整合进一个可广泛使用的工具,使研究人员能高效探索非编码基因组与生物过程之间的联系,例如比较正常与突变基因的功能差异,从而为医学和其他生命科学领域提供潜在价值。

https://www.nature.com/articles/s41586-025-10014-0

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^

相关好文推荐:

一种快速判别产品AI含量的黄金指标,帮你远离披着AI外皮的传统软件公司

飞书会取代微信吗?

AI 时代的软件与软件公司应该长什么样?

引入嵌套学习(Nested Learning):一种用于持续学习的全新机器学习范式

如何构建多智能体研究系统

0条留言

留言