(资料图片仅供参考)
计算生物学和生物信息学从蛋白质序列中提供了大量的数据资源,非常适合使用自然语言处理中的语言模型。这些语言模型以低推理成本跨越新的预测领域。在这里,我们使用来自UniRef和BFD的数据,其中包含高达3930亿个氨基酸,对两个自回归模型(Transformer-XL,XLNet)和四个自编码器模型(BERT,Albert,Electra,T5)进行了训练。我们使用5616个GPU和高达1024个核心的TPU Pod在Summit超级计算机上进行了训练。通过降维技术,我们发现来自未标记数据的原始蛋白质语言模型嵌入捕获了蛋白质序列的一些生物物理特征。我们验证了将这些嵌入作为独占输入用于后续任务的优势。第一个任务是对蛋白质二级结构进行每个残基的预测(3种状态的准确度Q3为81%-87%);第二个任务是对蛋白质亚细胞定位进行每个蛋白质的预测(10种状态的准确度Q10为81%)和膜内与水溶性(2种状态的准确度Q2为91%)的预测。对于每个残基的预测,最具信息的嵌入(ProtT5)首次在不使用进化信息的情况下胜过了最先进的技术,从而避免了昂贵的数据库搜索。综合而言,结果表明蛋白质语言模型学到了生命语言的某些语法规则。为了促进未来的研究,我们在/agemagician/ProtTrans上发布了我们的模型。
深度学习(DL)近来与高性能计算(HPC)齐头并进,取得了科学领域的新突破。更强大的超级计算机[1],[2]和先进的库[3],[4],[5],[6],[7]使得能够使用高级处理单元(包括图形处理单元(GPU)和张量处理单元(TPU))在更大的数据集上训练更复杂的模型。
通过上下文化的语言模型(LMs)[8],[9],自然语言处理(NLP)从HPC的进展中受益良多。特别是变形金刚[10]已经在多个任务[11],[12]上达到了最先进的性能(SOA)。标注的局限不会限制LMs:自监督训练完全依赖输入的顺序,例如通过重建周围序列中的错误标记。训练完成后,我们可以从LMs中提取一些学习到的信息,称为嵌入。迁移学习指的是使用这些嵌入作为接下来训练的有监督模型的输入的思想。这两个步骤将计算量较大的LM预训练外包给了HPC基础设施,将计算量较小的推理留给了通用硬件。
蛋白质是生命的机器,由20个不同的基本化学构件(称为氨基酸)组成。像串珠一样,这些氨基酸以一维(1D)序列被串在一起(连接后称为残基)。这些1D序列采用独特的三维(3D)结构(称为蛋白质3D结构),而这些3D结构执行特定的功能(常被简化为序列决定结构,结构决定功能)。与实验蛋白质结构相比,我们知道更多数量级的蛋白质氨基酸序列(序列-结构差距)[14]。了解蛋白质结构有助于理解其功能。通过基于人工智能(AI)的预测方法,更一般地说,通过填补序列注释差距是计算生物学和生物信息学面临的关键挑战之一。通过迁移学习利用大量未标记数据可能成为弥合这些差距的关键。
计算生物学中的顶级预测方法[15],[16],[17],[18],[19],[20]结合了机器学习(ML)和进化信息(EI),最早被证明是预测蛋白质二级结构[21],[22]的优胜策略,有两个步骤。首先,搜索总结为多序列比对(MSA)的一系列相关蛋白质家族,并提取这个比对中所包含的进化信息。其次,通过监督学习将进化信息输入到ML中,利用结构或功能的隐含约束。在预测未经实验证明的蛋白质时,这些方法仅利用在训练模型中隐含的实验信息。由于所有其他信息都源自序列的知识,因此这些方法除了广泛可得的EI之外,不需要其他附加的输入信息,这与生物序列数据库的快速增长有关[23],[24]。然而,使用EI也有一些代价。首先,在预测整个蛋白质组(组织中的所有蛋白质)时,为所有蛋白质编译EI是计算上昂贵的[25]。其次,并非所有蛋白质都有可用的EI(内在无序蛋白质[26]或暗蛋白质[27])。第三,当EI最多样化时,改进效果最好[28],[29]。第四,基于EI的预测在某种程度上平均了整个家族的特征,可能不能区分同一家族中两个不同蛋白质之间的差异。最新的、可以说是有史以来最大的一次蛋白质结构预测飞跃,即AlphaFold2,是基于EI和ML的先进组合[30]。尽管该方法在预测蛋白质的3D结构时达到了前所未有的精确度,但AlphaFold2模型的计算成本比编制EI要高出几个数量级。
通过先进的LMs,NLP的飞跃已经成功地推广到了通过在蛋白质上训练的先进LMs来理解生命语言[31],[32],[33],[34],[35],[36],[37],[38],[39]。类似于NLP,这些方法将整个蛋白质序列解释为一个句子,将其组成部分(氨基酸)解释为单个单词。蛋白质序列限制为采用特定的优化了特定功能的3D结构。这些约束反映了NLP中的语法和含义规则。由于LMs直接从单个蛋白质序列中提取特征,它们可能在不使用EI的情况下达到SOA的性能。
在这个名为ProtTrans的项目中,我们追求了两个目标。首先,我们探索了在蛋白质上训练的语言模型以及用于训练的蛋白质序列数据库的扩展限制。其次,我们比较了自回归和自编码预训练对后续有监督训练成功的影响,并将这里训练的所有LMs与使用进化信息(EI)的现有SOTA解决方案进行了比较[40]。