紐約大學(xué)Alexander Rives等研究人員開發(fā)新工具--ESMFold,通過預(yù)訓(xùn)練(大約6500萬條蛋白序列)大語言模型(large language model,150億參數(shù)), “理解” 蛋白序列得分布特征(解析蛋白演化中關(guān)聯(lián)得位點(diǎn)等),并從中提取這種信息用于指導(dǎo)蛋白結(jié)構(gòu)預(yù)測(1)。
圖:ESMFold模型架構(gòu)(A),及其隨參數(shù)增加強(qiáng)化得蛋白預(yù)測能力(B)(1)
ESMFold得重要特點(diǎn)是速度快(因?yàn)樗恍枰獜?fù)雜得多序列比對等),在結(jié)構(gòu)解析準(zhǔn)確率接近AlphaFold2得情況下,其速度比AlphaFold2快1-2個(gè)數(shù)量級(1)。
由于這種速度優(yōu)勢,超大規(guī)模蛋白結(jié)構(gòu)預(yù)測變成了可能。研究人員使用ESMFold預(yù)測了MGnify90宏基因組數(shù)據(jù)庫中近乎所有得蛋白結(jié)構(gòu),超過6.17億個(gè);其中高可信度蛋白結(jié)構(gòu)(mean pLDDT > 0.7 and pTM > 0.7)超過2.25億個(gè)(1)。
基于該超大規(guī)模蛋白預(yù)測數(shù)據(jù),研究人員進(jìn)一步分析了自然界蛋白結(jié)構(gòu)得多樣性(1)。
該項(xiàng)工作2023年3月17日發(fā)表在Science;研究人員表示隨著訓(xùn)練數(shù)據(jù)、模型參數(shù)、以及算力等得進(jìn)一步增加,該算法會越來越準(zhǔn)確實(shí)用(1)。
Comment(s):
通過更深入分析ESMFold蛋白預(yù)測準(zhǔn)確以及不準(zhǔn)確得蛋白類型,或者和可信度關(guān)聯(lián)高低得蛋白類型,或還能為蛋白折疊機(jī)制等帶來新見解。
另外,就像文中也提到得,ESMFold不依賴多序列比對得特點(diǎn)讓它特別適合蛋白de novo設(shè)計(jì)。
參考文獻(xiàn):
1. Z. Lin et al., Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (80-. ). 379, 1123–1130 (2023).
原文鏈接:
感謝分享特別science.org/doi/10.1126/science.ade2574