5月9日,谷歌DeepMind和IsomorphicLabs联合发布AlphaFold3,可预测蛋白质等结构,助力新药研发。该模型使用扩散模型、Pairformer等创新模块,提升预测准确率和泛化能力。已免费提供在线使用,并在全球顶级期刊《自然》上发表。
谷歌表示,自AlphaFold系列模型发布以来,全球数百万科研人员在其帮助下实现了多项技术突破,在疟疾疫苗、癌症治疗和酶设计等获得了大奖。最新发布的AlphaFold 3是在2代模型基础之上研发而成,并且使用了全新扩散模型、Pairformer等创新模块,进一步增强对蛋白质的预测准确率以及架构解读。
从AlphaFold 3的论文来看,虽然AlphaFold 2在预测蛋白质结构方面已经很优秀,但研究人员为了进一步提升其准确率和泛化能力,在AlphaFold 3引入了生成式AI领域非常火的扩散模型。使用扩散模型的好处是,可以直接在原始原子坐标上操作,而不需要依赖于氨基酸特定的框架或侧链扭转角度。这种直接预测原子坐标的方法有助于减少立体化学的损失。其核心思想是将结构预测问题转化为一个逆向过程,从带有噪声的坐标中恢复出真实的生物分子结构。这个过程通过逐步去噪,逐渐精细化结构预测。可指导AlphaFold 3学习如何从噪声数据中恢复出准确的蛋白质结构信息。
在上一代AlphaFold 2模型中,Evoformer模块对准确预测蛋白质结构发挥了重要作用,负责处理多序列比对(MSA)表示、成对表示和单个残基表示。但Evoformer也有一个非常致命的缺点,就是对算力的消耗非常大,不适用于批量大规模业务。所以,在AlphaFold 3中用Pairformer替代了Evoformer模块,彻底去除了对MSA表示的处理,只保留了简单、高效的成对表示和单个残基表示。
Pairformer模块只有4个transformer块组成,仅使用简单的加权平均方法处理MSA表示,接着所有信息都通过成对表示传递给48个标准的transformer块进一步处理数据。这种巧妙的设计不仅极大节省了算力,还提升了AlphaFold 3的预测泛化能力,可轻松预测各种非天然化合物。
根据谷歌公布的测试数据显示,AlphaFold 3的准确性比PoseBusters基准测试中最佳传统方法高出50%,这也是首个超越基于物理的生物分子结构预测AI模型。
所有的植物、动物和人类细胞内部都有数十亿的分子机器,并由蛋白质、DNA等多种分子组成。但是,这些分子并不是独立工作的,它们需要互相配合才能完成复杂的生命活动。只有通过研究这些分子如何协同工作,我们才能真正理解生命的运作过程。因此,蛋白质在所有生物过程中都扮演关键角色,包括细胞信号传递、免疫反应、代谢和细胞结构维持等。
很多疾病,例如,癌症、阿尔茨海默病、心血管疾病等,都与蛋白质的异常功能或折叠有关。只有通过预测和理解特定蛋白质的结构,医疗科学家可以更好地理解疾病的分子基础,进而发现疾病的成因和潜在的治疗目标,加速医药的研发进程。