博客專欄

        EEPW首頁 > 博客 > OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了嗎?一文總結生物制藥必備經典模型(二)

        OmegaFold、EquBind、RELATION、BIMODAL…你都掌握了嗎?一文總結生物制藥必備經典模型(二)

        發布人:機器之心 時間:2023-07-09 來源:工程師 發布文章

        1990年代后期,計算生物學開始成為生物學中非常重要的一部分。在大熱的AlphaFold掀起浪潮之前,就有科學家斷言:所有生物學都是計算生物學。AI或者深度學習的出現,給計算生物學帶來了新的巨大的發展空間。

        對于生物學本身,傳統的實驗和分析手段已難以充分開發海量生物數據,確實需要計算生物學這種跨學科同時兼顧多個細分領域的綜合性工具來解決問題。在具體實驗方法上,當前絕大多數采用的都是基于已有數據庫和資源、利用成熟工具來解決特定問題或自行設計統計分析、數值計算的方法,而計算生物學的出現讓干濕實驗結合的新方法開始走向主流(在生物上講,干實驗就是通過計算機模擬以及生物信息學方法來進行研究。濕實驗就是通過在實驗室里采用分子、細胞、生理學試驗方法進行研究)。引入AI,實現了對在傳統的濕實驗環境中的假設的驗證,干濕實驗共同迭代加速,AI和傳統科研結合帶來的巨大潛能,有望帶來一場全新的科學革命。

        在計算生物學中,AI的應用主要有三類:一是,計算推演生物性質及原理,包括:蛋白質結構預測、致病機理研究、蛋白質相互作用預測(PPI)、抗體和抗原的表位預測、基于基因組學尋找疾病成因或尋找新型的生物標志物等。(生物標志物是指可以標記系統、器官、組織、細胞及亞細胞結構或功能的改變或可能發生的改變的生化指標,可用于疾病診斷、判斷疾病分期或者用來評價新藥或新療法在目標人群中的安全性及有效性。)這些研究的成果后續可用于得到新的藥物靶點等,為疾病治療提供基本思路。二是搭建預測及判斷模型,包括:AI制藥中基于靶點的化合物性質預測(主要涉及小分子藥物開發),疾病診斷/監控/治療建模,涵蓋細胞/器官/人體的生物模擬器等。其中,生物模擬器的本質功能是用于驗證特定療法有效性的生物模擬器,可以簡單理解為生物醫藥領域的數字孿生。三是對生物體進行控制改造,包括:新療法/藥物開發、精準醫療和生物制造(以合成生物學為代表)。其中新療法/藥物開發是目前落地最成熟的場景。再往細來說,對癌癥的個性化治療和基因組學也將成為精準醫療中最先落地的場景。AI應用于新藥開發,可以實現藥物靶點發現、藥物篩選和結構優化、合成路線等。

        本文聚焦于生物制藥中必備的TOP模型,具體來說就是第三類AI應用中的主要模型,可以運用到整個藥物從研發、中試到生產的所有關鍵技術環節。上面提及的第二類AI應用主要是生物醫藥領域的數字孿生,不包含在本文的討論范圍內。

        本文回顧的必備TOP模型主要包括蛋白質結構預測和蛋白設計、分子生成、分子表征和性質預測這三類應用,而化學合成/逆合成及其它大數據分析應用等,暫不包含在本文討論的模型范圍中。AI的各種模型和算法應用在生物制藥領域,需要與對應的生物學、醫學知識高度結合,因此,本報告中對必備TOP模型的介紹主要是從AI建模的角度對模型總體架構和整體設計思路進行介紹,各個模型設計的技術細節、模型調參等思路和技術創新點,需結合原文和所應用的醫學場景深入理解。



        一、蛋白質結構預測和蛋白設計


        1、 OmegaFold

        AI預測蛋白質3D結構,僅通過單條蛋白序列就能搞定。也就是說,AI預測蛋白質結構,可以不需要蛋白質進化過程中的同源信息。一些人工設計的蛋白質藥物和工業合成用酶,也可以通過AI預測3D結構,確定其對人體的功能,實現這一功能的模型就是OmegaFold。OmegaFold的整體模型在概念上受到自然語言處理的語言模型以及AlphaFold2中使用的深度神經網絡的最新進展的啟發。


        圖片圖1 OmegaFold的模型結構。主要的蛋白質序列首先被送入一個預訓練的蛋白質語言模型(Omega protein language model,OmegaPLM),以獲得殘基級節點嵌入和殘基-殘基配對嵌入。然后,一堆Geoformer層迭代更新這些嵌入,以提高其幾何一致性。最后,一個結構模塊從最終的嵌入中預測出三維蛋白質結構。預測的結構和嵌入可以通過循環程序再次輸入到另一個循環中,以預測更精細的結構


        這項工作專注于設計一個內存高效的自注意力架構,通過改進以前的PLM的不同組件,如位置編碼功能、非線性轉換和歸一化功能,使PLM更加深入。OmegaPLM的整體架構是一個自注意力模型,其中,每個token是一個氨基酸。OmegaFold模型用一堆GAU層來處理一個蛋白質序列,而不是用自注意力層和多層感知器。該模型包含66個層,大約有6.7億個參數,沒有共享參數。令n_i∈R^d作為位置i的token的d維向量表示,Algorithm 1中給出了OmegaPLM的詳細過程。


        圖片 

        Pre-LayerNorm。如算法1所示,引入pre-LayerNorm操作,將層歸一化放在殘差塊之間。正如最近的研究表明,預層規范化能夠產生更穩定的梯度,特別是在初始化時。目前在不同的深度學習包中普遍存在的歸一化層的實現,通常包含element-wise的仿射變換,其參數可學習,緊隨其后的是許多 pre-layernorm Transformers的線性操作。然而,這種配置在數學上并沒有意義,只會在訓練期間選擇優化器造成的微小差異。因此,刪除了pre-LayerNorm中的所有element-wise仿射變換。

        Gated Attention Unit。沒有使用多頭自注意力(multi-headed self-attention,MHSA),而是采用了門控注意單元(GAU)(算法1中的第8行),它作為多頭自注意力的替代品,具有較小的內存消耗和較快的收斂率,顯示出巨大的前景。在注意力聚集后應用門控操作,用relu2(-)取代傳統的softmax(-)函數來聚集成對的對數。特別是,使用一個額外的門控向量gi∈R^dv,其中dv是價值向量的維度,后來以元素方式與價值vj的加權和相乘(第8行)。

        Relative Positional Encoding (RoPE)。注意力機制本質上是變異的,所以它在應用于序列數據時需要位置信息。這里我們應用旋轉位置嵌入(rotary positional embedding,RoPE)(算法1中的第5行和第6行)來編碼一對氨基酸的位置信息,其定義見算法2。利用復數的特性解決了這個問題,并將這種機制應用到查詢和密鑰中。為了進一步強調相對位置信息的影響,引入一個偏置項b_i-j,它是針對位置i和j的。注意b_i-j和b_j-i的值是不同的。沒有隨著絕對相對位置的增加而減少嵌入值,而是對相對位置進行剪輯以允許extrapolation。


        圖片



        項目SOTA!平臺項目詳情頁
        OmegaFold前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/omegafold


        2、 EquBind

        EquBind的工作發表在ICML 2022中。之前典型的‘配體-蛋白質’方法,就像試圖讓模型將鑰匙插入一個有許多鎖孔的鎖中,需要花大量時間對鑰匙和每個鎖孔的配合度打分,然后選擇最合適的那個。而EquBind可以跳過最耗時的步驟,遇到新分子時可提前預測最合適的‘鎖眼’,這就是所謂的‘盲對接’。其內置的幾何推理算法,可幫助模型學習分子的基本結構。該算法允許EquBind在遇到新分子時直接預測最合適的位置,而不是花費大量時間嘗試不同的位置并對其進行評分。即,EquBind依靠SE(3)等價圖神經網絡來預測結合的蛋白質配體構象,只需一次就能完成。EquBind將配體分子圖與隨機關聯的非結合三維構象體以及受體結合結構作為輸入,詳細結構如圖2所示。

        圖片圖2 EquBind結構

        K-NN圖的表示。將兩個輸入分子表示為空間k-近鄰(k-NN)圖。配體圖G = (V, E)使用原子作為節點,其各自的三維坐標來自未結合的構象體,表示為X∈R^3×n,以及初始特征F∈R^d×n(例如原子類型)。邊緣包括距離在4?A以內的所有原子對。受體圖 G‘ = (V’, E‘) 將殘基作為節點,其三維坐標X0∈R……3×m由α-碳的位置給出。每個節點在圖中都與最近的10個其他節點相連,距離小于30?A。

        Independent E(3)-equivariant transformations。使用獨立E(3)-變量圖匹配網絡(IEGMN),它結合了圖匹配網絡和E(3)-變量圖神經網絡。這種架構共同轉換特征和三維坐標,以進行神經圖內部的信息傳遞。
        IEGMN(X, F, X’ , F’ ) = Z ∈ R ^3×n, H ∈ R^ d×n, Z’ ∈ R^ 3×m, H’ ∈ R^ d×m。IEGMNs的核心屬性是,堆疊任何數量的此類層都能保證原始輸入結構的任何獨立旋轉和平移都將準確地反映在輸出中。在實踐中,圖11所示的Z、H、Z'、H'輸出是通過堆疊幾個IEGMN層得到的。我們對單個第l層的選擇是:

        圖片

        Z的作用。表示為Z和Z'的坐標E(3)等價變換的輸出將被用于不同的作用:識別剛體變換和結合點,以及通過訓練Z來表示變形的原子點云來模擬配體的靈活性。

        項目SOTA!平臺項目詳情頁
        EquBind前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/equbind


        3、RELATION

        基于深度學習的從頭分子設計最近獲得了相當大的關注。許多基于深度學習的生成模型已被成功開發出來并應用于設計新的分子,但其中大多數是以配體為中心的,target binding pockets的三維幾何形狀在分子生成中的作用還沒有得到很好的利用。為此,提出了一個新的基于三維的生成模型,稱為RELATION。在RELATION模型中,BiTL算法被專門設計用來提取蛋白質-配體復合物的所需幾何特征并將其遷移到一個潛在的空間進行生成,在引入雙向遷移學習后,隱藏層的采樣能夠同時兼顧生成分子的骨架片段的新穎性以及對靶標蛋白的親和性。應用藥效團約束生成( pharmacophore conditioning)貝葉斯優化(BO)采樣,能夠有效地瀏覽巨大的化學空間,可供用戶定制化生成藥效團匹配度更高以及對靶標的對接打分表現更好的分子。

        RELATION框架由兩個部分組成:(1)3D編碼器,使用了3D-CNN的結構,包括私有編碼器和共享編碼器。附帶SMILES標簽的訓練源域數據以及目標域數據轉換成4D張量后,分別作為私有編碼器和共享編碼器的輸入。所有的編碼器具有相同的架構,均具有8層,第一層包含64個過濾器,然后在奇數層上加倍,最后一層學習512個過濾器。每一個偶數層后面都有一個額外的池化層,核數、步長和填充為2,用于執行下采樣。利用ReLU激活函數對3D-CNN模型進行訓練,并使用兩個輸出為512維的全連接層得到μ和σ,對其重參數化后,生成一個的1024維嵌入向量;(2)****,****的結構是caption-LSTM,可以將隱藏層內的高維向量轉化為SMILE分子式,caption-LSTM由三層組成,其詞匯量輸入大小為39,隱藏大小為1024。


        圖片
        圖3 RELATION架構

        為了實現雙向遷移,定義損失函數如下:


        圖片

        在遷移學習中引入L_sim和βL_diff,使得隱藏層在生成過程中不僅考慮了源域數據集和目標域數據集的相似性,也保留了源域數據集(結構多樣性)和目標域數據集(蛋白-配體親和力)各自的特征。L_sim項能夠保證共享隱藏層中小分子與復合物的相似性。L_latent表示編碼器由均值和單位方差均為零的多元高斯分布先驗進行正則化,表示為:


        圖片

        最后,L_caption用來測量原始輸入和通過字幕網絡產生的輸出之間的重建損失。

        項目SOTA!平臺項目詳情頁

        RELATION

        前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/relation

        、分子生成

        1、 BIMODAL

        循環神經網絡(RNN)能夠使用簡化的分子輸入線輸入系統(SMILES)字符串表示的化學結構來生成新的分子設計?;赗NN的結構生成通常是單向進行的,通過從左到右增長SMILES字符串。然而,小分子沒有自然的起點或終點,SMILES字符串本質上是分子圖的非單點表示。這些特性促使了雙向結構的生成。這篇文章介紹了用于基于SMILES的分子設計的雙向生成性RNNs,實現了兩種既定的雙向方法,并引入了一種用于SMILES字符串生成和數據增強的新方法:雙向分子設計交替學習法(BIMODAL)。作者將這三種雙向策略與用于SMILES字符串生成的單向正向RNN方法進行了比較,內容包括(i)計算機生成的分子的新穎性,(ii)支架的多樣性,(iii)化學-生物學相關性。

        圖片圖4 (a) SMILES字符串,從分子圖表示中獲得,每個原子用其元素符號表示,而分支和連接性用符號或小寫字母表示(例如,"( )"、"="和 "c "分別表示分支、雙鍵和芳香族碳)。圖中給出代表藥物布洛芬的三個SMILES字符串的示例;用于SMILES字符串生成的起始原子用灰色數字表示。(b) 帶有一個遞歸神經元層的前向RNN的簡化方案。RNNs是一個動態系統的模型,其中任何一個時間點t的網絡狀態都取決于當前的觀察(x_t)和之前的狀態(t - 1),并被用來預測輸出(y_t)


        以SMILES字符序列("token")作為輸入,RNN模型根據序列的前一部分和概率估計,每次學習預測一個token(圖4b)??梢詮膶W到的概率分布抽樣新的SMILES字符串。RNNs通常被訓練成以 "向前 "的方式讀取和生成SMILES字符串,即從左到右。然而,SMILES表示可以從任何非氫原子開始,按任何方向進行生成(圖4a)。與自然語言不同,小分子沒有唯一定義的起點和終點。非單向性和非方向性提供了探索雙向序列生成的機會,即在前向和后向都能讀取和生成SMILES字符串的方法。然而,純粹的從頭開始("端到端")的雙向SMILES生成至今還沒有被探索過。BIMODAL就是一種雙向生成性RNNs。

        給定一個輸入序列,生成式RNNs被訓練成通過預測下一個序列標記來擴展這個序列,定義為y_t = x_t+1。使用帶有LSTM單元的RNNs以解決由長序列和大型網絡結構引起的梯度消失和梯度爆炸問題。在任何給定的第t個時間步長,這樣的網絡由以下一組方程描述:


        圖片

        最常見的用于序列生成的RNNs版本從左到右進行(前向),即從t=1到t=L,其中,L是SMILES序列的長度。在訓練過程中,輸入的第一個位置被填入一個序列開始的token,而輸入的最后一個位置被填入一個序列結束的token。一旦RNN模型被訓練好,新的序列就會通過(i)輸入起始token("G"),(ii)允許模型逐步選擇下一個token,給定各自的前一個token序列,直到生成結束token("E")(圖5a)。在每一個時間步長t,每一個第k個符號跟隨生成的字符串的前一部分的概率是用一個softmax函數計算的


        圖片圖片

        圖5 基于RNN的SMILES字符串生成方法。SMILES生成從起始token "G "開始,按預定方向進行。(a) 前向RNN。從起始token "G "開始,從左到右添加新的token。(b) BIMODAL方法:在每個時間步長(t)交替生成token。該模型使用整個序列(前向和后向)來生成下一個token。(c) 前向-后向模型。從 "G "token開始,每個時間步長預測兩個token,兩邊各一個。(d) NADE方法:缺失的 "假 "token("M")被替換為有效的SMILES字符,可以向字符串的中心或以隨機方式替換


        在任何第t個時間步長,BIMODAL沿前向(x_m→x_t)和后向(x_t←x_m)方向讀取x={x_m, x_m+1, ..., x_t},在兩個方向上生成SMILES序列。然而,通過同時使用從左到右(向前)和從右到左(向后)的信息,每一步只有一個token被交替預測。BIMODAL由兩個RNN組成,每個方向(前向和后向)都有一個讀取序列,然后結合起來提供一個聯合預測(y_t):


        圖片

        在SMILES的生成設置中,BIMODAL在每個時間步長t的前向和后向都會讀取序列(圖5b)。然后,它在前向或后向生成一個新token:


        圖片


        項目SOTA!平臺項目詳情頁
        BIMODAL前往 SOTA!模型平臺獲取實現資源:https://sota.jiqizhixin.com/project/bimodal


        2、 GF-VAE

        GF-VAE是一種用于分子圖生成的基于流的變分自動編碼器(VAE)模型。該模型在原來VAE的基礎上增加了Flow模型****。其中,編碼器主要是加速解碼的訓練,而****則依次優化編碼器的性能。由于流模型的可逆性,生成過程很容易通過反轉****來完成。因此,GF-VAE繼承了VAE和基于流的方法的優點。給定

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 香河县| 年辖:市辖区| 康马县| 格尔木市| 盱眙县| 于田县| 新密市| 洛扎县| 沧源| 乐至县| 九寨沟县| 青河县| 唐海县| 南投市| 旬阳县| 乐至县| 广安市| 凭祥市| 南漳县| 河曲县| 嵊泗县| 大荔县| 阳谷县| 泊头市| 申扎县| 郴州市| 司法| 湖州市| 梧州市| 鄂托克前旗| 山西省| 若尔盖县| 黄浦区| 玉溪市| 临夏市| 宣武区| 买车| 大兴区| 新巴尔虎右旗| 峡江县| 铜鼓县|