通用蛋白質設計新方法,谷歌研究團隊:具有分層功能的從頭蛋白質設計的條件生成建模
谷歌的研究人員解決了以分層基因本體的功能標簽為條件的通用蛋白質設計問題。由于缺少在該領域評估生成模型的規范方法,他們設計了一個評估方案,其中包含幾個生物學和統計學啟發的指標。然后,該團隊開發了條件生成對抗網絡 ProteoGAN,并表明它在蛋白質序列生成方面優于幾個經典和最近的深度學習基線。研究人員估計,功能條件模型可以通過組合標簽來生成具有新功能的蛋白質,并為這一研究方向邁出第一步。該研究以「Conditional generative modeling for de novo protein design with hierarchical functions」為題,于 2022 年 7 月 1 日刊載在《Bioinformatics》。設計具有目標生物功能的新蛋白質是生物技術中的一項常見任務,并且在合成生物學和****物研究(例如****物發現)中具有廣泛的應用。這項任務具有挑戰性,因為蛋白質的序列-結構-功能關系極其復雜,尚未完全了解。因此,蛋白質設計主要通過試錯法完成,例如定向進化,它依賴于已知蛋白質的一些隨機突變和選擇壓力來探索相關蛋白質的空間。這個過程既費時又費錢,而且通常只探索一小部分序列空間。同時,表征蛋白質及其功能的數據很容易獲得,并為機器學習在蛋白質序列設計中的應用提供了有希望的機會。最近提出了多種生成模型來設計用于不同任務的蛋白質,例如開發新療法、酶、納米抗體序列或導致抗生素耐****性的蛋白質。這些模型通常專注于蛋白質設計的子任務,因此僅限于給定的應用,通常甚至僅限于特定的蛋白質家族。這需要對一項新任務進行重新訓練,這限制了模型可以從中學習的序列的多樣性和數量。在其他領域,例如密切相關的自然語言生成,人們可以觀察到通用模型的趨勢,然后在各種上下文中使用這些模型。谷歌團隊的研究人員假設,同樣在蛋白質設計中,一刀切的模型可以學習不同蛋白質類別的共同基本原理,從而提高生成序列的質量。更進一步,它甚至可以通過結合它在不同蛋白質家族中學到的功能的不同方面來創造不僅新的序列,而且還可以創造新的功能。因此,該團隊開發了 ProteoGAN,這是一種用于條件蛋白質設計的通用生成模型,基于分子功能基因本體論(the Molecular Function Gene Ontology,GO),一種描述蛋白質功能方面的標簽層次結構。這些功能從結合特異性試劑到轉運蛋白或傳感器活性、生化反應催化等等不一而足。此外,分層組織中編碼的信息可能有助于對性能進行建模。他們的模型基于流行的生成對抗網絡(GAN)框架。研究人員通過提出一種條件機制來擴展框架,將蛋白質功能的多標簽層次信息納入生成過程。然而,開發這樣的生成模型可能具有挑戰性,尤其是因為缺乏針對問題的評估。評估指標需要評估生成的樣本是否有效(即現實性和功能性),這本身就是一個難題,還需要快速計算大量樣本。生成模型的評估仍在進行中,特別是在蛋白質設計領域。雖然生成序列的金標準驗證意味著在實驗室中合成蛋白質,但缺乏計算機評估使得難以有效地比較蛋白質序列設計的方法。因此,該團隊基于最大平均差異 (MMD) 統計量為生成蛋白質設計構建了一系列評估指標,以測量生成序列與真實蛋白質的分布相似性和條件一致性。同時,進一步提出了解釋序列多樣性的措施。蛋白質設計的相關生成模型引導和條件蛋白質生成模型機器學習模型和最近的深度生成模型已被用于設計計算機生物序列,例如 RNA、DNA 或蛋白質序列,通常旨在創建具有所需特性的序列。實現這一目標有兩種主要策略,一種是有指導的,另一種是有條件的。引導式方法使用預測器(也稱為預言機)通過迭代的訓練-生成-預測步驟來引導設計朝著目標屬性發展。然而,在具有多個功能標簽的情況下,缺乏用于蛋白質功能的高度準確和快速的多標簽預測器會損害功能性蛋白質生成中的引導生成技術。另一方面,條件方法將功能信息集成到生成機制本身中,從而無需預測器。例如,2020 年 Madani 團隊開發了 ProGen,這是一種條件轉換器,可以控制生成大量功能性蛋白質,但對序列上下文的需求可能會受到實驗限制,并且與從頭設計不兼容。2019 年 Ingraham 團隊提出了一種基于圖的條件生成模型,該模型依賴于結構信息,而這種信息很少可用。2018 年 Das 團隊和 Greener 團隊訓練條件變分自動編碼器(CVAE)以生成特定蛋白質,例如金屬蛋白。2020 年 Karimi 團隊使用引導條件 Wasserstein-GAN 生成具有新折疊的蛋白質。所有這些模型要么只關注蛋白質設計的子任務,要么依賴于上下文信息,例如 3D 結構或模板序列片段。而谷歌團隊所提出的 ProteoGAN,是一種用于蛋白質設計的通用模型,該模型只需要指定生成所需的功能特性。生成模型的評估迄今為止,對于評估(條件)生成模型輸出的質量、多樣性和條件一致性的最佳評估措施,還沒有明確的共識。大多數在計算機視覺中脫穎而出的指標,例如初始分數、Frechet 初始距離(FID)或 GAN 訓練和 GAN 測試,都依賴于外部的、特定于領域的預測器。對于功能性蛋白質設計,這樣的預測器在評估和訓練神經網絡時既不夠好也不夠快,無法完全依賴它們的預測。功能注釋的關鍵評估 (CAFA) 挑戰報告了當前最佳模型(NetGO),其 Fmax 得分為 0.63,其預測速度約為每小時 1000 個序列。相反,域無關對偶間隙可以在訓練和測試時計算,并且已被證明與 FID 有很好的相關性。在自然語言建模中,困惑度是一種常見的評估指標,與模型下測試集的概率有關。然而,這需要訪問在某些模型中不可用的可能性,例如 GAN,并且并不總是樣本質量的良好指標。另一種方法測量可以從不完整的序列中恢復多少野生型殘基,然而,這與從頭蛋白質設計的想法背道而馳。盡管研究界對蛋白質生成模型的興趣日益濃厚,但還沒有明確的指標可以作為比較它們的可靠工具。討論指標的元評估:Spectrum MMD 是蛋白質設計的有效指標不同的嵌入捕獲原始數據的不同方面。該團隊感興趣的是相對簡單的 Spectrum 內核嵌入是否足以評估分布相似性和條件一致性,因此將其與三個生物學基礎的嵌入進行了比較:ProFET,主要與單個氨基酸或序列基序的生物物理特性相關的序列特征的手工選擇,UniRep,基于 LSTM 的學習嵌入和 ESM,基于 Transformer 的學習嵌入。后兩者被證明可以恢復蛋白質的各個方面,包括結構和功能特性以及進化背景。在這個比較中,ESM 嵌入可以說是最強大的,并且有望獲得最好的分數。值得注意的是,Spectrum 內核嵌入也非常適合評估蛋白質的結構和功能方面,同時計算速度快幾個數量級,并且需要更少的計算資源。這使得它更適合神經網絡和其他模型的評估或超參數優化過程中對性能的要求。選擇 Spectrum 內核嵌入的另一個原因是它的簡單性,因為它不對數據分布做任何假設:學習到的嵌入 UniRep 和 ESM 是在大量自然序列上訓練的復雜非線性映射,雖然它們在自然分布數據上表現出色,但它們在生成序列上的行為仍然不可預測。超參數分析:ProteoGAN 的條件判別器對其性能最為關鍵研究人員測試了 cGAN 的各種超參數和架構選擇,并在 fANOVA 框架(functional ANOVA framework)中對蛋白質設計性能指標 MMD 和 MRR 進行了分析。為了為這些模型的后續工作提供信息,研究人員可以根據經驗得出一些專門用于蛋白質設計的 GAN 設計原則。首先,較小的架構比具有四個以上隱藏層的網絡表現得更好。這個大小似乎足以對蛋白質進行建模,盡管優化當然會對快速收斂(小)模型產生選擇壓力。判別器達到最優解,比通過較大的學習率經常找到的局部最優,更重要。研究人員觀察到分布相似性和條件一致性之間的權衡。這表現在增加 MRR 和降低 MMD 性能時,當權衡更強的 AC 的訓練損失項時,以及在不同的調節機制之間切換時。僅使用序列作為輸入,而不是將生物物理特征向量附加到序列嵌入中,可以獲得最佳性能。氨基酸同一性,而不是其特性,似乎對序列建模更為關鍵。研究人員發現,在比較捕獲標簽之間的層次關系的不同標簽嵌入時,標簽的簡單 one-hot 編碼顯示出最佳結果。對于模型,離散的 one-hot 標簽嵌入似乎比連續的 node2vec 嵌入或雙曲 Poincaré 嵌入更容易解釋。雖然這些嵌入包含更多信息,但 one-hot 編碼以更易于訪問的形式呈現它們。此外,對于神經網絡需要首先學習的許多基本概念,雙曲空間需要特殊的算子。GAN 框架的其他流行擴展,例如輸入噪聲、標簽平滑或訓練比率在上下文中沒有顯著影響模型性能。總而言之,一個具有調節機制且沒有進一步序列或標簽增強的小型模型效果最好。對架構的進一步改進應該集中在改進鑒別器上,因為影響它的超參數顯示出最大的影響。他們的最終模型 ProteoGAN 是優化性能最好的模型,具有多個投影、一個 AC、沒有生物物理特征和標簽信息的單熱編碼。基線比較:ProteoGAN 優于其他方法根據提出的分布相似性、條件一致性和多樣性指標,研究人員評估 ProteoGAN 的性能,并將其與幾個基線進行比較。通過對生物嵌入 ProFET、UniRep 和 ESM 以及嵌入的特征 KS 統計量的評估來鞏固結果。
圖示:基于 Spectrum 內核嵌入,使用 MMD、MRR 和多樣性指標評估 ProteoGAN 和各種基線。(來源:論文)結果表明,ProteoGAN 在所有指標和嵌入上都明顯優于 HMM、n-gram 模型和 CVAE。這同樣適用于 OpL 版本,每個標簽訓練一次。ProteoGAN 的性能也優于最先進的 ProGen 模型。MMD 值相似,ProGen 可能會比 ProteoGAN 更好地擴展;然而,MRR 顯示了 ProteoGAN 在條件生成方面的明顯優勢。適用性:ProteoGAN可以支持更大序列空間的蛋白質篩選沒有濕實驗室驗證,很難證明生物學有效性,后續可能會進行驗證。研究人員承認,MMD 值仍然與陽性對照有顯著差異,并且相應的 P 值在這方面尚無定論。因此,生成的序列很可能不是開箱即用的,而是需要一些實驗性調整,如定向進化。目前,ProteoGAN 的主要應用:用比以前可能的距離已知序列空間更遠的候選者進行蛋白質篩選的擴展,但比其他方法的相對新穎的候選者更可能具有功能。展望:調理可能使新蛋白質功能的設計成為可能作為一個有趣的前景,該團隊提供了關于 OOD 生成的初步評估。以多個標簽為條件的模型通常旨在模擬給定標簽的蛋白質的聯合分布,即執行所有指定功能的蛋白質。因此,研究人員假設條件機制可用于將以前不相關的功能標記組合成一種蛋白質,這將能夠設計出具有以前看不見的功能的全新類型的蛋白質。研究人員強調這個目標沒有明確地建立在條件機制中,因此它不適合優化沖突屬性。但是,正交屬性的組合可能是允許的。雖然同樣在這里,生物實施是不可避免的來證明這一概念,但研究人員可以報告 ProteoGAN 和 CVAE 在五個保留標簽組合上顯示出有希望的 Top-X 精度。這一概念的進一步發展將為生物技術提供新的工具。
圖示:具有 OOD 功能的模型的頻譜嵌入 top10 準確度。(來源:論文)
代碼和數據:https://github.com/timkucera/proteogan論文鏈接:https://academic.oup.com/bioinformatics/article/38/13/3454/6593486?login=true
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。