扩散模型+深度学习双剑合璧,生成式AI破解染色质构象


扩散模型+深度学习双剑合璧,生成式AI破解染色质构象

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑丨&
人体内的每一个细胞都包含相同的基因序列,但每个细胞只表达这些基因的一个方面。这些细胞特异性基因表达模式确保脑细胞与皮肤细胞不同,部分由染色质的三维结构决定,遗传物质控制着每个基因的可及性。
高通量测序和成像技术的最新进展大大提高了如今研究单个细胞基因组组织的能力。然而,现有方法通常费力且耗时,阻碍了对不同细胞环境中染色质构象变异性的全面分析。
麻省理工学院的化学家们现在想出了一种使用生成式人工智能来确定这些3D基因组结构的新方法。他们的技术可以在几分钟内预测数千个结构,这比现有的结构分析实验方法要快得多。

「我们的目标是尝试从潜在的DNA序列中预测三维基因组结构,」化学副教授、该研究的资深作者BinZhang说。「现在我们可以做到这些,这使得它可以与尖端的实验技术相提并论,并开辟很多有趣的机会。」
ChromoGen
了解基因组的三维(3D)组织对于揭示其功能复杂性和在基因调控中的作用至关重要。多年来,分子生物学技术的进步为基因组构象提供了宝贵的见解。这些见解揭示了染色质结构如何促进基因周围空间环境的建立,有助于在适当的时间募集适当的分子来协调转录。
最近,深度学习技术为直接从测序数据预测单细胞染色质构象提供了有潜力的研究方向。与序列特征和群体平均值之间相对简单的映射不同,序列特征映射到单个3D结构本质上是随机的。因此,预测单个染色质结构需要一个固有的随机模型来理解和再现这种异质性。
为了在捕获其异质性的同时预测单细胞染色质结构,团队引入了ChromoGen,它是一种扩散模型,已被证明在文本到图像应用以及预测配体和蛋白质分子的3D坐标方面具有很强的能力。
图1:ChromoGen在使用序列数据对染色质组织进行从头预测时遵循的程序图示。(图源:论文)
微调的EPCOT模型将DNA序列和脱氧核糖核酸酶序列(DNase-seq)数据转换为信息丰富的低维数字嵌入。接下来,由微调模型创建的嵌入使用无分类器指导的去噪扩散概率模型(DDPM)对采样的分布进行条件处理。
此外,距离图自然不受3D构象的旋转和平移的影响,许多神经网络架构都难以理解,并且距离图可以按照材料和方法中概述的过程轻松转换为笛卡尔坐标。
为了研究通用区域非特异性系综的特性,团队通过组合来自更广泛数据集中每个区域的200个生成的结构来近似一个通用集成,并计算了由各种序列长度分隔的基因座之间空间距离的概率分布。
图2:ChromoGen可准确捕获在单细胞染色质结构中观察到的构象分布。(图源:论文)
与先前对单个接触对的分析相比,这种方法允许对染色质构象进行更全面的比较。使用生成的构象支持ChromoGen产生高度复杂结构的能力,这些结构涵盖广泛的构象和结构基序。
更多更准确的应用测试
验证了生成的构象的通用物理特性后,他们接下来研究了ChromoGen捕获具有生物学意义的结构特征的能力。在所有情况下,生成的中位距离图捕获了群体中可见的关键结构特征。同样,生成的单个结构与它们从Dip-C衍生的对应结构非常相似。
为了定量评估生成结构和实验结构之间的一致性,团队对预测数据集所包含的整个基因组区域进行了多次分析。结果显示使用生成的和Dip-C构象计算的中位距离图始终具有强相关性。
而在跨细胞类型的预测上,以前的模型已经成功地使用染色质可及性数据来预测不同细胞类型之间群体平均染色质组织模式的差异。所以预计提供给ChromoGen的数据应该允许它预测具有细胞类型特异性的构象集合。
图3:ChromoGen产生准确的、细胞类型特异性的染色质构象。(图源:论文)
尽管显微镜成像显示,去除黏连蛋白的细胞在群体中位距离图中并未出现,但它们的确存在。正如成像和理论研究所表明的那样,它们还与染色质组织到单个细胞内包装结构域的新兴模型一致。
功能总结
ChromoGen,一种有效生成区域和细胞类型特异性染色质构象的智能框架。ChromoGen产生的构象再现了群体Hi-C实验中揭示的各种结构特征以及在单细胞数据集中观察到的异质性。
经过训练后,该模型可以在比Hi-C或其他实验技术更快的时间尺度上生成预测。其可以在20分钟内在一个GPU上生成特定区域的一千个结构。
研究人员还发现,该模型可以准确预测来自其训练所针对的细胞类型以外的细胞类型的数据。这表明它可能有助于分析不同细胞类型的染色质结构如何不同,以及这些差异如何影响它们的功能。该模型还可用于探索单个细胞中可能存在的不同染色质状态,以及这些变化如何影响基因表达。
研究员表示,他希望他们可以通过这份模型来解决很多有趣的问题,譬如探索特定DNA序列中的突变如何改变染色质构象。
论文链接:https ://www.science.org/doi/10.1126/sciadv.adr8265
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录