語言模型生成了自然界不存在的蛋白質,圖靈獎得主LeCun:蛋白質編程來了
Meta:設計蛋白質這件事,語言模型就能干。
用機器學習去研究蛋白質結構預測,吸引了眾多科技大廠、科研機構的目光紛紛投入其中,這期間,他們也產出了重要成果。如在 2021 年 《Science》的十大年度突破中,DeepMind 攜預測蛋白質結構的 AI 模型 AlphaFold 上榜,在這項工作的基礎上,研究人員現在已經使用人工智能來設計可用于疫苗、建筑材料或納米機器的全新蛋白質。
在《Science》2022年 9 月發表的一篇論文中,華盛頓大學醫學院生物化學教授 David Baker 等研究者提出,AI 可以通過兩種思路從頭設計蛋白質。當然,對這一領域的熱情,自然也少不了 Meta 的加入,在2022年 11 月,Meta 拿下微生物領域蛋白質結構預測,開放 6 億 + 宏基因組蛋白質結構圖譜,這是首個蛋白質宇宙「暗物質」的綜合視圖。
近期,在 FAIR 公布的最新兩篇論文中,該研究發現 ESM2 語言模型通過學習深層語法,就能生成天然蛋白質以外的新蛋白質,并可以編程生成復雜和模塊化的蛋白質結構。其中 ESM2 模型參數為 150 億,是迄今為止最大的蛋白質語言模型。
Yann LeCun 在推特上表示:FAIR 開發的新蛋白質設計系統,可以產生與自然界中觀察到的蛋白質完全不同的蛋白質;在這個蛋白質設計系統之上,蛋白質可以通過一種編程語言來指定。
在論文《Language models generalize beyond natural proteins》中,ESM2 通過學習深層語法,成功設計了 152 種蛋白質。
論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf
在論文《A high-level programming language for generative protein design》中,該研究實現了一種用于生成蛋白設計的高級編程語言。這使得編程生成具有復雜和模塊化結構的大蛋白質和復合物成為可能。
論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf
ESM2 設計蛋白質
在論文《Language models generalize beyond natural proteins》中,研究者專注于兩個蛋白質設計任務:
指定結構的固定骨架設計;
從模型中采樣結構的無約束生成。
盡管語言模型僅針對序列進行訓練,但該研究發現它們能夠設計結構。在該研究的實驗結果中,一共生成了 228 種蛋白質,設計成功的比率是 152/228(67%)。在 152 個實驗成功的設計中,有 35 個與已知的天然蛋白質沒有明顯的序列匹配。對于固定主干設計,語言模型成功為 8 個經過實驗評估的人工創建的固定主干目標生成了蛋白質設計。對于不受約束生成的情況,采樣的蛋白質涵蓋了不同的拓撲結構和二級結構組成,結果具有很高的實驗成功率 71/129(55%)。
該研究通過分析比較,歸納出語言模型在蛋白質設計過程中的作用,如下圖 2 所示:
實驗結果表明,ESM2 模型能夠生成自然界已有的蛋白質結構和全新的蛋白質結構:
一種用于生成蛋白質設計的高級編程語言
對于蛋白質來說,我們不能將其分解為易重組部分,因為蛋白質序列的局部結構糾纏在其全局背景中,傳統的設計方法試圖確定一組基本的結構構件,然后在組裝成更高階的結構。然而,現有方法還不能達到真正可編程性所必需的高度組合復雜性。該研究從模塊化和可編程性入手,將兩者置于更高的抽象層次,蛋白質設計者只需要重新組合高級指令,然后在生成模型上執行指令即可。他們提出的生成蛋白質設計的編程語言,允許設計人員指定直觀、模塊化和分層的程序。該編程語言首先需要一個語法樹 (圖 1A),由末端符號 (即樹的葉子) 和非末端符號 (即樹的內部節點) 組成,前者對應一個獨特的蛋白質序列 (在蛋白質中可能重復),后者支持分層組織。此外還需要一個基于能量的生成模型。首先,蛋白質設計器指定一個高級程序,該程序由一組按層次組織的約束組成(圖 1A)。然后,該程序編譯為一個能量函數,用于評估與約束的兼容性,約束是任意的且不可微的(圖 1B)。最后通過將原子級結構預測(由語言模型支持)合并到能量函數中,可以生成大量復雜的蛋白質設計(圖 1C)。
下圖為模型生成的高置信度結構(圖 2A 和 2B)。
下圖為生成模型產生了一組不同的高置信度結構(圖 3B、S2A 和 S2B),包括自然界中蛋白質的各種折疊(卷曲螺旋、β 螺旋槳狀、β 桶狀和 TIM 桶狀)以五角星形狀蛋白質(圖 3B 中的第 1 行和第 3 列)和立方體狀蛋白質 (圖 3B 中的第 2 行和第 2 列)。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。