微软开源最新动态蛋白质生成模型BioEmu-1

近日,微软开源了BioEmu-1,一种最新动态蛋白质生成模型。该模型能在单个GPU上每小时生成数千种蛋白质结构,生成效率比传统MD模拟提高了几个数量级。

BioEmu-1

这种超高效率的蛋白质生成模型可以帮助医学家更全面、快速地了解靶点蛋白质的动态变化,设计出有效治疗癌症等绝症药物。此外,每位癌症患者的肿瘤细胞都具有独特的基因突变和蛋白质表达谱。而BioEmu-1可以根据患者特定的基因序列预测蛋白质的结构变化,提供个性化癌症治疗方案。

BioEmu-1介绍

BioEmu-1采用了类似于Distributional Graphormer的模型架构,但在训练方法上进行了大幅度创新。

  • 从输入的蛋白质序列开始,BioEmu-1首先通过一个复杂的序列编码器提取单个和成对表示。这个编码器基于AlphaFold 2中的evoformer模块,利用多层Transformer网络来捕捉序列内部各位置之间的依赖关系。每个氨基酸被映射到高维向量空间,作为后续操作的基础。
  • 接着通过多次自注意力运算计算序列中各个位置之间的相似度矩阵,从而捕获全局依赖关系。
  • 在去噪扩散模型中,BioEmu-1定义了一个前向扩散过程,其中每一步都向输入数据添加少量噪声,直到最终变成完全随机的状态。然后,通过学习逆向过程中的条件概率分布,逐步去除噪声,最终生成目标样本。

为了提高效率,BioEmu-1采用了一种新颖的二阶积分方法,使得每次去噪步骤只需进行少量迭代即可达到较好的效果。还通过引入注意力机制,BioEmu-1确保模型在处理不同尺度的结构时具备良好的不变性和鲁棒性,避免局部噪声对全局结构的影响,保证生成的蛋白质结构具有较高的准确性。

在训练过程中,BioEmu-1的数据处理流程分为预训练和微调两个阶段。预训练阶段利用了超过2亿条来自AFDB数据库的蛋白质序列,并进行了多级过滤和聚类,最终得到约5万个具有多样化结构的序列簇。这些序列簇不仅覆盖了广泛的蛋白质家族,还包含了丰富的结构信息。然后研究人员对这些序列簇进行了进一步增强,通过多结构增强技术,将每个序列簇中的代表性序列与其他结构相结合,生成多样化的训练样本。

研究人员设计了一系列测试案例来验证BioEmu-1的有效性,结果显示,在快速折叠蛋白的测试中,BioEmu-1仅需数百小时的GPU时间即可完成一次完整的折叠过程。更重要的是,BioEmu-1生成的结构与实际观测结果高度一致,平均绝对误差控制在较小范围内。

行业动态

Meta宣布举办首届生成式AI开发者大会

2025-2-20 9:30:20

使用教程

硅云云服务器搭建LNMP环境

2023-11-15 16:19:43

相关推荐