从抗体、工业酶到基因剪刀设计，AI生物大模型ProGen3或将重构生命科学

发布日期: 2025-04-22

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

将ScienceAI设为星标
第一时间掌握
新鲜的AIforScience资讯
编辑|萝卜皮
蛋白质是分子尺度上生命体的功能单元，负责从催化生化反应到识别外来病原体等各种活动。蛋白质的三维结构与功能活性，均可以通过20种氨基酸结构单元排列组合所形成的序列来描述。
蛋白质设计的挑战在于如何设计新的氨基酸序列，使其能够执行进化过程中未曾出现的功能，例如疾病的治疗方法或超稳定的工业酶。
这个设计空间大得惊人——假设将研究范围限制在100个氨基酸组成的短小蛋白质，研究者所需要筛选的序列条数将超过宇宙中原子的数量。很明显，科学家需要考虑另一种策略——生成式蛋白质语言模型(PLM)。
近期，声称要用「AI书写生物学」的生物计算公司ProFluent推出了ProGen3系列稀疏生成式PLM，并提出了计算优化的缩放定律，用于扩展到46B的参数模型（基于1.5T氨基酸标记进行预训练）。
ProGen3的预训练数据取自ProfluentProteinAtlasv1的优化数据分布，该数据集包含34亿个全长蛋白质。
并且，研究人员首次在湿实验室中评估模型规模对PLM生成的序列的影响，他们发现更大的模型可以为更广泛的蛋白质家族生成可行的蛋白质。
「这并非纯粹的学术探索。我们最终会根据为社会创造实际价值的能力来评估Profluent的成果。扩展蛋白质语言模型实现了从生成溶菌酶等模型酶到设计像OpenCRISPR这样复杂、功能强大的基因组编辑器的能力飞跃。」ProFluent团队表示。

论文链接：https ://www.biorxiv.org/content/10.1101/2025.04.15.649055v1
准确地说，ProGen3是一套用于蛋白质设计的前沿生成语言模型。它不仅允许用户生成新的全长蛋白质，还能重新设计现有蛋白质的特定结构域以增强其功能。它利用稀疏架构实现了4倍加速，且不牺牲建模性能。
为了训练ProGen3，研究人员构建了ProfluentProteinAtlasv1(PPA-1)，这是一个精心挑选的资源，包含34亿个全长蛋白质和1.1万亿个氨基酸标记，是目前为止最全面的高质量蛋白质数据集。他们优化了PPA-1以用于训练语言模型，并利用它将ProGen3最佳扩展至基于1.5万亿个标记训练的460亿个参数模型。
图示：确定最佳数据分布和缩放定律来训练稀疏生成PLMProGen3。（来源：论文）
接下来，研究团队探究了ProGen3模型的规模如何影响其生成真实蛋白质的能力。ProGen3-46B产生的多样性比ProGen3-3B高59%，比ProGen3-339M高198%（以30%ID下独特的世代数衡量）。这表明，随着模型规模的扩大，它们能够更真实地呈现更广泛的生命多样性背后的生物学原理。
图示：与较小的模型相比，较大的模型可以为更加多样化的家族产生真实可用的蛋白质。（来源：论文）
研究人员使用有限的实验室数据来比对ProGen3的活性、表达、稳定性和结合亲和力等特性，证明比对可以优化任何规模的模型。当然，规模更大的模型获益最大，比对后ProGen3-46B与实验测量的蛋白质适应度的相关性从33.1%提高到67.3%。
为了进一步验证ProGen3在现实应用中的强大实力，研究人员设计了一系列挑战任务测试ProGen3。
挑战一：设计发现一流的抗体
在过去的二十年里，抗体已成为治疗多种疾病的关键药物。然而，治疗性抗体的发现、工程化和优化是一个耗时且昂贵的过程，通常需要动物免疫和/或多轮实验筛选。
研究人员想测试他们的蛋白质设计平台，看看它能否一次性生成在多个属性上与已获批准疗法相媲美的抗体。
于是，该团队选择了20个不同的靶点，这些靶点的已获批准药物已累计治疗了700万患者，并产生了6600亿美元的销售额。
对于每个目标，该模型生成的抗体通过计算预测可以与已批准的治疗方法精确结合相同的表位，但构成不同的物质成分。这些设计与任何已知的针对相同靶点的结合剂的同源性中位数最多为80%，并且所有设计的每个互补决定区(CDR)环都存在氨基酸差异。
图示：针对CD38和PKal靶点的抗体设计。（来源：论文）
除了计算评估之外，研究人员还通过湿实验测试了针对CD38和PKal靶点的抗体设计，涵盖了从结合到可开发性等多种属性。该团队的许多设计不仅达到了针对相同表位的高度优化疗法的亲和力水平，而且还显示出显著提升的可开发性。相比之下，传统方法往往会因为优化一个属性而牺牲掉另一个属性。
设计的抗体与其治疗性对应物在整个可变区[包括互补决定区(CDR)]上均存在差异。具体来说，即使CDR环中的一个突变也可能完全破坏结合。由于这种敏感性，目前的主要方法仅限于非CDR突变，并力求与母体序列仅存在几个突变（同一性>98%）。
这些结果表明ProGen3能够针对各种潜在药物靶点设计高质量的抗体候选物，并且拥有探索序列和适应度景观的强大能力，甚至触及了抗体结合界面等高度敏感的相互作用。
挑战二：紧凑型基因编辑器
基因组编辑技术有望改变医学和农业，其主要途径是重新利用CRISPR等天然防御系统。这些系统的简单性和稳健性使其得到了广泛的应用，但在具体的应用领域仍存在许多挑战，例如，来自化脓性链球菌的Cas9核酸酶由1,368个残基组成，需要100个核苷酸的引导RNA，这已经接近单个AAV递送系统的包装极限。
鉴于这些问题，研究人员设计了大量可编程基因编辑器，它们高度紧凑，仅含有592个残基，并在湿实验室中展示了功能性能。
传统CRISPR-Cas系统无法做到这一点，但是该团队将这些紧凑蛋白与其他效应子和组织特异性启动子结合起来，用单个AAV靶向之前无法靶向的靶点。
图示：生成可用于基因编辑应用的超紧凑蛋白质。（来源：论文）
总体而言，研究人员证明了，规模更大的生成式PLM是处理各种实际蛋白质设计任务的更实用的工具。持续的模型扩展可以利用呈指数级增长的蛋白质序列数据量，同时采用更复杂的稀疏性实现来保持高效。
「我们的结果表明，ProGen3-46B已具备推进定制蛋白质设计愿景的条件，可用于药物发现、酶工程和工业生产流程优化等领域。」研究人员表示。
相关内容：
https ://www.profluent.bio/showcase/progen3
https ://x.com/_judewells/status/1912743353608741260
人工智能×[生物神经科学数学物理化学材料]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星，并点击右下角点赞和在看。
点击阅读原文，加入专业从业者社区，以获得更多交流合作机会及服务。