撰文丨王聪
编辑丨王多鱼
排版丨水成文
近年来,人工智能(AI)在生命科学领域的最重要的突破莫过于AlphaFold,这款由 DeepMind 推出的 AI 工具能够仅根据氨基酸序列就实现对蛋白质三维结构的精准预测,并获得了诺贝尔奖的认可。
而最近, DeepMind 推出了一款新型 AI 工具——AlphaGenome,这是一个全新的DNA 序列模型,能够 更全面、更准确地预测人类 DNA 序列中的单碱基突变如何影响调控基因的多种生物过程,该模型能够处理高达 100万碱基对的长 DNA 序列,并输出高分辨率的预测结果,例如,准确预测患者中的非编码基因突变间接激活了附近的致癌基因表达。
该研究于 2025 年 6 月 25 日发表于预印本,论文题为: AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model.
DeepMind表示 , 相信 AlphaGenome 能够成为科学界的一项宝贵资源,帮助科学家更好地理解基因组功能、疾病生物学,最终推动新的生物学发现以及新疗法的开发。
基因组是我们的细胞操作手册。它是完整的 DNA 集合,几乎指导着生物体的每一个部分,从外观和功能到生长和繁殖。基因组 DNA 序列的细微变化可能会改变生物体对环境的反应或其对疾病的易感性。但要解读基因组指令在分子层面是如何被读取的——以及当 DNA 发生微小变化时会发生什么——仍是生物学最大的谜团之一。
实际上,在科学家完成人类基因组草图近 25 年后的今天,人类基因组中绝大部分对我们来说仍然是个谜,占基因组 98% 的非编码序列尤其令人困惑,它们不编码蛋白质,但发挥着重要的调控作用。
2020 年,DeepMind 推出AlphaFold2,大大推进了解决困扰研究人员数十年的问题的进程:蛋白质序列如何影响其三维结构。
而要弄清楚 DNA 序列的作用则有所不同,因为不像 AlphaFold2 提供的蛋白质三维结构那样只有一个答案。实际上,一段 DNA 序列会有众多相互关联的作用——从吸引一组细胞机制附着到染色体的特定部分并将附近的基因转录成 RNA 分子,到吸引影响基因表达位置、时间和程度的蛋白质转录因子。例如,许多 DNA 序列通过改变染色体的 3D 形状来影响基因活性,要么限制要么促进转录机制的接近。
几十年来,生物学家一直在利用各种计算工具来研究这个问题。在过去十年左右的时间里,科学家们开发了数十种 AI 模型来解读基因组。其中许多模型专注于单一任务,比如预测基因表达水平或确定单个基因中的外显子是如何被剪切和拼接成不同蛋白质的。但科学家们越来越对能够“all in one”解读 DNA 序列的工具感兴趣。
AlphaGenome 如何运作
AlphaGenome 模型以长 DNA 序列作为输入——长达 100 万个碱基对,预测数千种分子特性,这些特性表征其调控活性。它还能通过将突变序列的预测结果与未突变序列的预测结果进行比较,来评估基因变异或突变的影响。
预测的属性包括不同细胞类型和组织中基因的起始和终止位置、基因的剪接位置、产生的 RNA 水平,以及哪些 DNA 基因座是可及的、彼此靠近的或被某些蛋白质结合的。训练数据来自大型公共联盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量了涵盖数百种人类和小鼠细胞类型及组织的重要基因调控模式的这些属性。
AlphaGenome 架构使用卷积层初步检测基因组序列中的短模式,利用 Transformer 在序列的所有位置之间传递信息,并通过最终的一系列层将检测到的模式转化为不同模态的预测。在训练期间,针对单个序列的计算会被分布到多个互连的张量处理单元(TPU)上执行。
该模型建立在 DeepMind 之前的基因组学模型 Enformer 的基础上,并与 AlphaMissense 互补,后者专门对蛋白质编码区内突变的影响进行分类。这些区域覆盖了基因组的 2%。剩下的 98% 被称为非编码区,它们对调控基因活动至关重要,并包含许多与疾病相关的突变。AlphaGenome 为解释这些扩展序列及其突变提供了一个新的视角。
AlphaGenome 的强大之处
与现有的 DNA 序列模型相比,AlphaGenome 提供了多项独特特性:
长序列背景下的高分辨率:
AlphaGenome 模型能够分析多达 100 万碱基对的 DNA 序列,并以单碱基的精度进行预测。长序列背景对于覆盖远距离调控基因的区域十分重要,而单碱基分辨率对于捕捉细微的生物学细节至关重要。
此前的模型必须在序列长度和分辨率之间做出权衡,这限制了它们能够联合建模和准确预测的模态范围。而技术进步解决了这一局限性,且并未显著增加训练资源——训练单个 AlphaGenome 模型(未采用知识蒸馏)仅需四小时,所需的计算预算仅为训练最初的 Enformer 模型的一半。
全面的多模态预测:
通过为长输入序列解锁高分辨率预测,AlphaGenome 能够预测最多样化的模态。通过这种方式,AlphaGenome 为科学家提供了有关基因调控复杂步骤的更全面的信息。
高效突变评分:
除了能够预测多种分子特性之外,AlphaGenome 还能在一秒内高效评估基因突变对所有这些特性的影响。它通过将突变序列的预测结果与未突变序列的预测结果进行对比,并针对不同模态采用不同的方法对这种对比进行高效总结来实现这一点。
新型剪接位点建模:
许多罕见遗传疾病,例如脊髓性肌萎缩症(SMA)和某些类型的囊性纤维化,可由 RNA 剪接错误引。AlphaGenome 首次能够直接从序列中明确建模这些位点的位置和表达水平,从而更深入地了解基因突变对 RNA 剪接的影响。
在各项基准测试中均达到顶尖水平(SOTA):
AlphaGenome 在广泛的基因组预测基准测试中均达到了顶尖水平,例如预测 DNA 分子的哪些部分会彼此靠近、某个基因突变是否会增加或减少基因表达,或者是否会改变基因的剪接模式。
AlphaGenome 在不同的 DNA 序列和突变效应任务上的相对改进情况,与每个类别中当前最佳方法的结果进行了对比
在对单个 DNA 序列进行预测时,AlphaGenome 在 24 项评估中有 22 项的表现优于最佳外部模型。而在预测突变的调控效应时,它在 26 项评估中有 24 项的表现与最佳外部模型持平或更优。这些比较涵盖了专门针对特定单一任务的模型,AlphaGenome 是唯一能够同时预测所有评估模式的模型,突显了其通用性。
统一模型的优势
AlphaGenome 的通用性使科学家能够通过一次 API 调用同时探究一个突变体对多种模态的影响。这意味着科学家能够更迅速地生成和测试假设,而无需使用多个模型来研究不同的模态。
此外,AlphaGenome 的出色表现表明,它在基因调控的背景下已经学习到了相对通用的 DNA 序列表示。这为更广泛的科研群体提供了一个坚实的基础,以便在此基础上进行拓展。一旦该模型完全发布(当前发布的是预览版),科学家们就能够根据自己的数据集对其进行调整和微调,从而更好地解决他们各自独特的研究问题。
最后,这种方法为未来提供了一种灵活且可扩展的架构。通过扩充训练数据,AlphaGenome 的能力可以得到拓展,从而实现更优的性能、涵盖更多物种,或者纳入更多模态,使模型更加全面。
强大的研究工具
AlphaGenome 的预测能力能够助力多个研究方向:
疾病理解:通过更准确地预测基因破坏情况,AlphaGenome 能够帮助研究人员更精确地确定疾病潜在成因,并更好地解读与某些特征相关的突变的功能影响,从而有可能发现新的治疗靶点。该模型特别适合研究那些可能具有重大影响的罕见突变,例如导致罕见孟德尔遗传病的突变。
合成生物学:其预测结果可用于指导设计具有特定调节功能的合成 DNA,例如仅在神经细胞中激活而不激活肌肉细胞中的基因。
基础研究:它能够通过协助绘制基因组的关键功能元件并定义其作用,加速我们对基因组的理解,识别出对特定细胞类型功能进行调节的最必要 DNA 指令。
例如,DeepMind 的研究人员利用 AlphaGenome 来探究一种与癌症相关的突变的潜在机制。在一项现有的T 细胞急性淋巴细胞白血病(T-ALL)患者研究中,研究人员观察到基因组中非编码区域存在突变。利用 AlphaGenome,预测这些非编码基因突变会通过引入一个 MYB DNA 结合基序,激活附近的一个名为TAL1的基因,而这是一个一直的致癌基因,这突显了 AlphaGenome 将特定非编码基因突变与疾病基因相联系的能力。
AlphaGenome 模型架构、训练方案以及全面的评估性能
当前的局限性
AlphaGenome 是一项重大进步,但当前仍存在一些局限性。
与其他基于序列的模型一样,AlphaGenome 在准确捕捉相隔甚远的调控元件(比如相隔超过 10 万个碱基对的元件)的影响,仍是当前面临的一项挑战。未来工作的另一个重点是进一步增强模型捕捉细胞和组织特异性模式的能力。
DeepMind 尚未针对个人基因组预测对 AlphaGenome 进行设计或验证,这是 AI 模型面临的一个已知难题。相反,他们更侧重于对单个基因突变表现的特征描述。尽管 AlphaGenome 能够预测分子层面的结果,但它无法全面展现基因突变如何导致复杂性状或疾病。这些通常涉及更广泛的生物学过程,比如发育和环境因素,而这些超出了该模型的直接研究范围。DeepMind 表示,目前正在不断改进该模型,并收集反馈以帮助弥补这些不足。
目前,DeepMind 已向非商业用途开放 API 接口,但需要指出的是,该模型的预测功能只用于科学研究,并未设计或验证用于直接临床目的。DeepMind 希望 AlphaGenome 能成为更好地理解基因组的重要工具,并致力于与学术界、工业界和政府组织的外部专家合作,以确保 AlphaGenome 能够造福尽可能多的人。
最后,DeepMind 表示,希望与更广泛的科学界共同努力,能够加深我们对 DNA 序列中编码的复杂细胞学过程以及突变影响的理解,并推动基因组学和医疗保健领域令人振奋的新发现。
论文链接:
https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
盈昌配资-股票上杠杆资金-股票市场配资-如何配资炒股提示:文章来自网络,不代表本站观点。