谷歌DeepMind发布DNA序列模型AlphaGenome,可分析1兆碱基,直击疾病根源
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
基因组可以比喻为细胞「指令操作指南」,这本由DNA写就的「天书」详细记载了生物体的全套组装说明书。从外貌特征到内部功能,从生长发育到传宗接代,它事无巨细地掌控着生命活动的每个环节。
有趣的是,这本「天书」里哪怕出现个把字母的排版错误(我们往往称之为变异),都可能让生物体对环境的态度「判若两人」,会瞬间丧失或者产生对某些疾病的抵抗力,变异带来的可能是新加的「技能点」也可能是糟糕的「Debuff」。
可以看出,这本「天书」异常复杂,解码基因组指令在分子水平上是如何被读取,一直是生物学界的最大谜团之一。
根据DNA序列预测功能基因组测量值的深度学习模型是破译遗传调控密码的有力工具。现有方法在输入序列长度和预测分辨率之间权衡取舍,从而限制了其模态范围和性能。
在最新的研究中,谷歌DeepMind的研究人员提出了AlphaGenome,它以1兆碱基的DNA序列作为输入,能够预测数千个功能基因组轨迹,最高可达单碱基对分辨率,涵盖多种模态,包括基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图谱、剪接位点使用情况以及剪接连接点的坐标和强度。
「这将是一个极其有效的工具!」纪念斯隆凯特琳癌症中心的系统生物学家CalebLareau说道,他率先尝试了这项技术,「这是对人类基因组中30亿个字母序列的所有可能变化进行注释和解释的最全面的尝试。这是我们迄今为止拥有的最强大的计算机模拟工具。」
论文链接:https ://storage. googleapis.com/deepmind-media/papers/alphagenome. pdf
背景
解读基因组序列变异的影响仍然是生物学领域的一大核心挑战。非编码变异位于蛋白质编码区之外,由于其可能引发多种维度的分子结果,因此解读起来尤其困难。
例如,非编码变异可以调节基因组特性,例如染色质的可及性、表观遗传修饰和染色质的三维构象。变异可以通过改变表达水平或通过剪接改变序列组成来进一步影响信使RNA(mRNA)的可用性。此外,变异还可能表现出细胞类型或组织特异性效应。
目前,科学家所观察到的人类遗传变异中,超过98%是非编码变异。而我们已有的工具往往仅专注于另外2%的基因组序列。
AlphaGenome
为了更准确、更快速且多模态、多维度地解码基因组,DeepMind的研究人员开发了AlphaGenome,它将多模态预测、长序列上下文和碱基对分辨率整合到一个框架中。
AlphaGenome模型以长达100万个碱基对的长DNA序列作为输入,并预测数千种表征其调控活性的分子特性。它还可以通过比较突变序列与未突变序列的预测值来评估基因变异或突变的影响。
预测的特性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的RNA数量,以及哪些DNA碱基可接近、彼此靠近或与某些蛋白质结合。
训练数据来自大型公共联盟,包括ENCODE、GTEx、4DNucleome和FANTOM5,这些联盟通过实验测量了这些特性,涵盖了数百种人类和小鼠细胞类型和组织中重要的基因调控模式。
图示:AlphaGenome模型架构、训练机制和综合评估性能。(来源:论文)
AlphaGenome架构使用卷积层初步检测基因组序列中的短模式,使用Transformer在序列的所有位置传递信息,最后使用一系列层将检测到的模式转化为不同模态的预测。在训练期间,此计算分布在多个互连的张量处理单元(TPU)上,用于处理单个序列。
该模型基于DeepMind之前的基因组学模型Enformer,并与AlphaMissense相辅相成,后者专门对蛋白质编码区内变异的影响进行分类。
强悍的性能
AlphaGenome可以预测单个DNA字母的改变会如何影响基因表达,并改变其RNA和蛋白质产物。其他人工智能系统可以对蛋白质编码基因中约2%的基因组进行部分分析,而AlphaGenome是第一个对整个基因组进行同样分析的系统。
加州大学旧金山分校的HaniGoodarzi表示:「这是人工智能模型首次能够直接从DNA序列中准确预测RNA(变体)的表达位置和方式。这不仅让我们能够了解基因是否表达,还能了解由此产生的RNA将如何被处理。」
图示:AlphaGenome轨迹预测和详细的性能评估。(来源:论文)
AlphaGenome在人类和小鼠基因组上进行训练后,在26项变异效应预测评估中,有24项达到或超越了各自领域的最强外部模型;在24个基因组轨迹预测任务中,有22个取得了SOTA性能。它能够同时评估所有模态下的变异效应,从而准确地重现了TAL1致癌基因附近临床相关变异的机制。
伦敦大学学院的癌症分子生物学家MarcMansour表示,当他的实验室将患者癌变组织细胞的基因组与未受影响细胞的基因组进行比较时,会发现数千个单独的碱基变异。「很难确定任何特定的变异是否会产生功能性后果。」Mansour说道。很明显,TAL1的案例证明AlphaGenome有潜力做到这点。
这种精确的定位功能「对我的研究至关重要。」Lareau补充道,他的实验室分析基因变化对免疫功能的影响。「我不用测试数百个东西,而是可以专注于几个,这样就能找到正确的方向。」
研究人员表示AlphaGenome将在以下三个方面带来影响:
疾病理解:通过更准确地预测基因破坏,AlphaGenome可以帮助研究人员更精准地查明疾病的潜在病因,并更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。
合成生物学:它的预测结果可用于指导具有特定调控功能的合成DNA的设计——例如,仅激活神经细胞中的基因,而不激活肌肉细胞中的基因。
基础研究:它可以通过协助绘制基因组的关键功能元件图谱并明确其作用,识别调控特定细胞类型功能的最重要DNA指令,从而加速生物学家对基因组的理解。
未来方向
尽管如此,AlphaGenome仍然存在局限性。
与其他基于序列的模型一样,准确捕捉非常远的调控元件(例如距离超过10万个DNA碱基的调控元件)的影响仍然是一个持续的挑战。研究人员表示,未来研究的另一个重点是进一步提升该模型捕捉细胞和组织特异性模式的能力。
另外,该团队尚未设计或验证AlphaGenome用于个人基因组预测,这是AI模型面临的一个已知挑战。相反,他们目前更专注于表征其在个体基因变异上的表现。
虽然AlphaGenome可以预测分子结果,但它并不能全面展现基因变异如何导致复杂的性状或疾病。这些通常涉及更广泛的生物学过程,例如发育和环境因素,而这些内容已经超出了该模型的直接研究范围。这也反映了另一个方向,就是需要更多团队参与这项研究。
目前,AlphaGenome已开放非商业使用,可以通过AlphaGenomeAPI获取。
AlphaGenome:https ://github. com/google-deepmind/alphagenome
最后还有个问题,这是否会让不法分子更容易设计生物武器呢?DeepMind研究副总裁PushmeetKohli表示,公司已与外部生物安全专家分享了该模型。
「我们收到的反馈是,它非常安全,发布它的好处远远大于风险。」Kohli补充说,DeepMind希望继续扩展AlphaGenome的功能,例如提供更深入的洞察,帮助人们理解基因变异如何导致复杂的性状或疾病。
「我们今天所拥有的就像AlphaFold1诞生时一样——迈出了重要的第一步。」Kohli说。
相关内容:
https ://deepmind. google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。