博客專欄

        EEPW首頁 > 博客 > 一個基于Transformer的深度學習架構,在基因調控中組蛋白代碼的定量破譯方面性能超群

        一個基于Transformer的深度學習架構,在基因調控中組蛋白代碼的定量破譯方面性能超群

        發布人:機器之心 時間:2022-11-19 來源:工程師 發布文章
        編輯 | 蘿卜皮

        通過組蛋白修飾對轉錄控制的定量表征受到許多計算研究的挑戰,但其中大多數只關注啟動子周圍的狹窄和線性基因組區域,留下了改進的空間。

        韓國首爾大學的研究人員提出了 Chromoformer,這是一種基于 Transformer 的三維染色質構象感知深度學習架構,它在基因調控中組蛋白代碼的定量破譯方面實現了最先進的性能。Chromoformer 架構的核心本質在于注意力操作的三個變體,每個變體都專門模擬轉錄調控的個體層次,涉及從核心啟動子到通過三維染色質相互作用與啟動子接觸的遠端元件。

        對 Chromoformer 的深入解釋表明,它自適應地利用了與轉錄起始和延伸相關的組蛋白修飾之間的長程依賴性。研究表明,Chromoformer 可以捕獲轉錄工廠和 Polycomb 基團的定量動力學。總之,這項研究突出了基于注意力的表觀基因組中復雜相互作用的深度建模的巨大優勢。

        該研究以「Learning the histone codes with large genomic windows and three-dimensional chromatin interactions using transformer」為題,于 2022 年 11 月 5 日發布在《Nature Communications》。

        圖片

        基因表達的控制由不同組的調節因子進行,包括轉錄因子、共激活因子、輔助抑制因子以及基因組序列元件。然而,這些因素相互作用背后的基本前提是在相關基因組區域中組蛋白尾部或組蛋白修飾(HMs)的共價修飾的適當配置,因為它們在染色質可及性的調節中起關鍵作用。因此,可以設想一定數量的 HM 及其組合編碼了附近基因組區域的調節潛力。

        這個概念被稱為「組蛋白密碼假說」。已經有許多計算和定量方法來破解由 HM 編碼的基因表達的調控代碼。它們中的大多數是預測模型,利用轉錄起始位點(TSS)周圍啟動子的 HMs 水平來預測相應基因的表達水平。值得注意的是,最近的研究表明,在這項任務中,深度學習模型與傳統機器學習模型相比具有卓越的性能。

        兩個挑戰

        迄今為止,深度學習已經在計算生物學的各個領域取得了顯著的突破,從表征結合 DNA 和 RNA 結合蛋白的特異性,到長期存在的基于氨基酸序列的蛋白質結構預測問題。如果沒有新的模型架構的發明以及它們對復雜生物學問題的巧妙應用,就無法在生物學中取得深度學習的這些成功。從這個意義上說,組蛋白代碼的高度復雜性確實使其成為深度學習的一個很好的目標,如現有方法所示,但它們仍然存在兩個主要的限制,推動了新方法的開發。

        首先,他們只能在 TSS 周圍使用狹窄的基因組窗口。這是因為這些模型所基于的深度學習架構,例如卷積神經網絡(CNN)和循環神經網絡(RNN),在對長序列內的依賴關系進行建模時效果不佳。CNN 高度專業于學習數據的局部模式,但對它們來說學習模式之間的遠距離依賴關系具有挑戰性。

        盡管 RNN 架構是為對序列數據進行建模而開發的,但由于嵌入在單個位置的信息逐漸被稀釋并被污染,而模型計算沿著兩個遙遠位置之間的位置傳播,RNN 架構也難以清楚地捕獲遠程依賴關系。事實上,諸如門控循環單元或長短期記憶 (LSTM) 之類的 RNN 單元的高級形式部分地改善了這個問題,但是由于循環而對長序列進行建模的內在低效率仍然存在。

        其次,大多數深度學習模型不考慮由三維(3D)染色質折疊介導的遠端順式調節,盡管眾所周知,核心啟動子和遠端順式調節元件之間的物理相互作用會嚴重調節基因表達。換言之,組蛋白代碼所傳達的調控信息不僅可以在本地傳播,還可以通過 3D 染色質相互作用在遙遠的基因組位點之間跳躍。

        幸運的是,Hi-C 等高通量測量技術的最新進展成功地提供了千堿基規模的 3D 染色質相互作用的高分辨率視圖,并為研究人員提供了前所未有的機會,來利用這些有價值的信息來模擬基因調控的綜合觀點。很少有新興研究明確考慮 3D 染色質相互作用來預測基因表達。一個這樣的例子是 GC-MERGE,這是一種圖神經網絡 (GNN),用于在相互作用的基因組區域之間傳播信息以預測基因的表達水平。

        雖然它是一個概念驗證模型,不能應用于沒有任何染色質相互作用的基因,并且只能執行 10 kbp 基因組 bin 級別的預測,但不能在基因級別進行預測,它仍然強調了對遠端基因組區域以及啟動子的表觀基因組環境進行建模的前景。

        Transformer 也許是****方

        與此同時,最初為自然語言處理而開發的名為 Transformer 的深度學習模型架構,在理解 DNA 序列、氨基酸序列甚至它們的比對的潛在語法方面表現出巨大的潛力。在這項研究中,研究人員注意到 Transformer 架構的兩個主要功能非常適合解決上述兩個挑戰。

        首先,Transformer 可以精確地建模序列數據中的長期依賴關系。這是通過向輸入序列添加位置編碼來優雅地完成的。這些包含位置信息的輸入特征被獨立處理,并被輸入到隨后的自注意力模塊中,該模塊計算輸入特征之間的所有成對依賴關系。因此,可以在不受位于對之間的特征干擾的情況下捕獲遠程依賴關系。

        其次,Transformer 架構也可以應用于建模無序的實體集以及它們之間的交互。值得注意的是,對于大多數深度學習架構來說,這并不簡單,因為包含它們的操作取決于輸入位置。另一方面,構成變換器的操作基本上是置換不變的。

        輸入特征之間的交互僅在 self-attention 操作中考慮,所有其他操作都以位置方式完成,因此它們可以應用于模型的無序特征集。總之,Transformer 架構的這兩個優勢使其成為組蛋白代碼定量建模的有希望的選擇,因為它允許研究人員同時在多個遠端調控區域利用 TSS 附近更寬的基因組窗口和組蛋白代碼。

        基于Transformer 的深度學習架構 Chromoformer

        圖片

        圖示:Chromoformer 模型架構。(來源:論文)

        在這里,首爾大學的研究人員提出了一種名為 Chromoformer 的基于 Transformer 的深度學習架構,以模擬組蛋白代碼在基因表達調控中的定量作用。Chromoformer 通過對涉及核心啟動子和 pCRE 的三級順式調節層次進行建模,極大地提高了基因表達預測的性能。

        通過對 self-attention 權重、潛在嵌入動力學和幾個特征消融研究的分析,研究人員對 Chromoformer 模型的行為提供了深入的生物學解釋。

        圖片

        圖示:促成 Chromoformer 卓越性能的因素。(來源:論文)

        由于 Transformer 能夠理解序列中的遠距離依賴性,Chromoformer 可以成功地學習關注基因體內的特定區域,在該區域中,與基因表達相關的 HM 在高表達和低表達基因之間最為獨特。有趣的是,對基因體的關注程度取決于 TSS 的表觀遺傳背景,這意味著 Chromoformer 模型捕獲了放置在 TSS 和基因體的 HM 的遠距離依賴性。

        另一方面,通過使用 Transformer 對一組無序特征中的成對關系進行建模,Chromoformer 可以了解由組蛋白代碼介導的信息如何通過 3D 染色質折疊從 pCRE 傳播到核心啟動子以調節基因表達。對模型學習的組蛋白密碼的潛在表示的分析強調,持家基因和細胞類型特異性基因的表達通過與增強子的相互作用得到加強,而發育基因的表達主要通過與 PRC2 結合的消音器的相互作用受到抑制。

        該團隊使用 3D 染色質相互作用的預編譯知識來指導 Chromoformer 學習。那些通過實驗測量的交互頻率被用來確定將參與模型訓練的 pCRE 的優先級,這些 pCRE 被顯式地注入到自我注意得分矩陣中。

        然而,僅從基因組序列信息中推斷 pCRE 和核心啟動子之間的相互作用頻率似乎也是可能的。這是因為順式調控相互作用的特異性很大程度上取決于 DNA 結合蛋白對 DNA 序列基序的識別,包括轉錄因子或 CCCTC 結合因子 (CTCF),它們作為分隔 3D 基因組構象的絕緣體。因此,嵌入基因組中的那些結合基序可以作為隱藏的詞匯表,允許僅基于 DNA 序列推斷所需的染色質構象。

        圖片

        圖示:Chromoformer 學習的順式調節特征。(來源:論文)

        同時,來自最近名為 Enformer 的模型的結果強烈支持,當使用更廣泛的序列信息時,pCRE 的這種從頭排序更有效,從而表明通過使用 Transformer 架構整合基因組和表觀基因組特征,實現基因表達調控的完全數據驅動建模的令人興奮的可能性。該團隊將這種基于 Transformer 的多組學集成作為進一步的工作。

        從活躍的 TSS 跳轉到基因體的嵌入 Transformer 所學到的注意力表明,在預測穩態基因表達水平時,放置在基因體上的 HM 確實是有用的,即使不是最關鍵的信息。從這個結果中,研究人員考慮使用分布在單個基因中的整個組蛋白代碼景觀,可以進一步提高穩態 mRNA 水平的預測準確性的可能性。

        此外,由于研究所用的 H3K36me3 的外顯子比內含子豐富得多,因此利用全長基因注釋將是模型訓練的另一個有效指導。由于基因長度和外顯子-內含子分布顯示出很大的可變性,研究人員需要對這種生物學先驗知識進行一些巧妙的表示。

        同樣,Transformer 架構將是最強大的選擇之一,因為可以靈活地應用掩碼來處理可變長度輸入,還可以擴展位置編碼以形成復合編碼,同時包含基因組位置和基因結構注釋的信息。

        為 Chromoformer 模型提出的訓練方案具有高度可擴展性。例如,該團隊展示了 Chromoformer 模型可以針對來自人類以外物種的細胞類型進行訓練,即小鼠胚胎干細胞,使用相關的組蛋白 ChIP-seq 和 Hi-C 配置文件,通過跨物種預測性能證明了兩個物種之間組蛋白代碼語法之間的總體相似性。

        圖片

        圖示:Chromoformer 的跨物種和跨細胞類型預測性能。(來源:論文)

        此外,跨細胞類型預測實驗表明,在一種細胞類型中訓練的 Chromoformer 模型在一定程度上仍適用于其他細胞類型(相對驗證AUC?>?92%),相似細胞類型的交叉預測性能更高。

        這意味著以細胞類型特異性方式訓練的 Chromoformer 不僅學習了基因調控的細胞類型特異性特征,而且仍然捕獲了可普遍應用于其他細胞類型的一般規則。如果它可以表示為全基因組信號值的數組,則可以擴展顯色體訓練以包含任何額外的表觀基因組特征。這些特征包括轉錄因子 ChIP-seq 信號或用于隔間識別的第一主成分 (PC1) 信號。

        圖片

        圖示:在 Chromoformer 訓練中加入 CTCF 結合信號。(來源:論文)

        論文中介紹,CTCF 結合是 3D 基因組結構的關鍵決定因素,并且通過遠端增強子 - 啟動子相互作用在基因激活中也突出了啟動子 - 近端 CTCF 結合,如上圖所示。該團隊證明,包括 CTCF 在內的 Chromoformer-clf 性能有邊際但一致的增加,而嵌入 Transformer 的 Chromoformer-clf 模型的增加更大。

        另一方面,使用 PC1 值作為附加特征通知 Chromoformer 細胞類型特異性基因組劃分狀態不會導致顯著的整體性能提升。盡管區室化與基因表達水平相關,但由于關聯的絕對水平(皮爾遜相關系數 0.12–0.19)不夠大,該團隊認為,區室級特征的預測能力沒有超過基因級 HM 特征的預測能力。

        圖片

        圖示:在 Chromoformer 訓練中納入基因組劃分狀態。(來源:論文)

        總之,Chromoformer 是另一個示例性應用,它強調了 Transformer 架構在生物序列建模方面的巨大潛力。該研究還強調了開發有效嵌入生物先驗知識的專業深度學習架構的重要性,不僅可以提高預測任務的性能,還可以定量表征生物實體之間的復雜關系。

        論文鏈接:https://www.nature.com/articles/s41467-022-34152-5


        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 沂水县| 文昌市| 诸暨市| 无锡市| 平江县| 珲春市| 昆明市| 电白县| 措勤县| 南陵县| 新源县| 秀山| 怀宁县| 开远市| 黄浦区| 永城市| 怀化市| 通江县| 南汇区| 游戏| 青海省| 景洪市| 卢氏县| 利川市| 图们市| 深州市| 尖扎县| 京山县| 涿鹿县| 藁城市| 惠来县| 乌拉特前旗| 松阳县| 德令哈市| 宜丰县| 岗巴县| 道真| 左云县| 项城市| 剑川县| 曲麻莱县|