博客專欄

        EEPW首頁 > 博客 > Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長序列,瞄準遺傳病高發區域

        Transformer新玩法登Nature子刊:DeepMind用新變體讀取DNA長序列,瞄準遺傳病高發區域

        發布人:機器之心 時間:2021-10-07 來源:工程師 發布文章

        繼蛋白質結構預測之后,一路領跑的 DeepMind 又將 AI 的觸角伸向了 DNA。

        當人類基因組計劃成功地繪制出人類基因組的 DNA 序列時,整個國際研究界都為之一振。因為這樣一來,人類就有機會進一步了解影響人類健康和發展的遺傳指令。

        從眼球顏色到是否容易患某種疾病,DNA 攜帶著決定一切的基因信息。人體內大約有 2 萬個 DNA 片段被確定為基因,其中包含有關蛋白質氨基酸序列的指令,這些蛋白質在我們的細胞中執行許多基本功能。然而,這些基因占整個基因組的比重還不到 2%。剩下的堿基對——占基因組 30 億個「字母」的 98%——被稱為「非編碼」,包含一些不太為人所知的指令,這些指令讓基因知道應該在何時、何地產生或表達。為了更好地完成人類遺傳學的很多下游應用任務,我們必須弄清楚非編碼區 DNA 如何決定不同細胞類型中的基因表達。

        10 月 4 日,DeepMind 與谷歌旗下生物科技公司 Calico 的一項研究登上了國際頂級方法學期刊《Nature Methods》。在這篇論文中,他們引入了一種叫做 Enformer 的神經網絡架構,大大提高了根據 DNA 序列預測基因表達的準確性。為了進一步研究疾病中的基因調控和致病因素,研究者還公開了他們的模型及其對常見遺傳變異的初步預測。

        1.png

        論文鏈接:https://www.nature.com/articles/s41592-021-01252-x.pdf

        項目鏈接:https://github.com/deepmind/deepmind-research/tree/master/enformer

        DeepMind 的研究者表示,「我們相信 AI 可以幫助我們深入理解這些復雜的領域,加速科學進步,并未人類健康帶來潛在收益。」

        以往關于基因表達的研究通常使用卷積神經網絡作為基本構建塊,但這些網絡在建模遠端增強子(enhancer)對基因表達的影響方面存在局限。增強子是 DNA 上一小段可與蛋白質結合的區域,與蛋白質結合之后,基因的轉錄作用將會加強。增強子可能位于基因上游,也可能位于下游,且不一定接近所要作用的基因,這是因為染色質的纏繞結構,使序列上相隔很遠的位置也有機會相互接觸。因此,要想精確研究增強子對基因表達的影響,模型需要「閱讀」盡可能長的 DNA 序列。

        DeepMind 表示,他們最初的探索依賴于 Calico 的 Basenji2 模型,它可以從相對較長的 DNA 序列(40, 000 個堿基對)中預測調控活性,但這個長度還是不夠。

        基于這些認識,研究者意識到,要想捕獲長序列,必須在基本架構層面進行改變。

        于是,他們開發了一個基于 Transformer 的新模型——Enformer,以利用自注意力機制處理更大范圍的 DNA 上下文。和擅長閱讀長文本的 Transformer 類似,改造后的 Enformer 能夠「閱讀」很長的 DNA 序列,可處理的序列長度達到之前的 5 倍(200, 000 個堿基對)。有了這樣一個模型,研究者就能從更長的 DNA 序列上建模增強子對基因表達的影響。

        2.png

        研究者訓練 Enformer 以預測功能性基因組數據,包括來自輸入 DNA 的 200, 000 個堿基對的基因表達。上圖的示例展示了 5000 多種可能的基因組軌跡中的 3 種。

        為了更好地理解 Enformer 是如何解釋 DNA 序列以得到更準確的預測的,研究者使用貢獻分(contribution score)來突出輸入序列中對預測影響最大的部分。如同生物直覺一般,研究者發現即使距離基因超過 50000 個堿基對,模型也會注意到增強子。

        預測哪些增強子調控哪些基因仍然是基因組學中一個尚未解決的問題,研究顯示, Enformer 的貢獻分與專門為此任務開發的現有方法(使用實驗數據作為輸入)表現相當。此外,Enformer 還理解了絕緣子元件(insulator element),后者將 DNA 的兩個獨立調控區域分隔開。

        3.png

        Enformer 注意到的相關的調控 DNA 區域(藍色),增強子為灰色塊。

        目前全面研究生物體的 DNA 已經成為了可能的事,但要想理解基因組還需要復雜的實驗。盡管進行了大量的實驗,大多數 DNA 對基因表達的控制仍然是個謎。借助人工智能技術,人類可以探索在基因組中發現模式的新的可能性,并提供關于序列變化的機制假設。與拼寫檢查器的原理類似,Enformer 能夠部分理解 DNA 序列的「詞匯」,因此能夠「高亮」那些可能導致基因表達改變的編輯。

        這一新模型的主要應用是預測 DNA 字母的變化,也稱為基因變異,它會改變基因表達。與以前的模型相比,Enformer 在預測變異對基因表達的影響方面更加準確,無論是自然遺傳變異還是改變重要調控序列的合成變異。

        借助這一特性,我們可以對越來越多的疾病相關變異進行研究。要知道,與復雜遺傳疾病相關的變異主要位于基因組的非編碼區,可能通過改變基因表達引起疾病。但是由于變異之間的內在聯系,這些疾病相關的許多變異只是虛假的聯系,而非因果關系。現在,計算工具可以幫助區分真正的聯系和假陽性。

        當然,人類基因組中仍有尚未解開的謎團,Enformer 只是在理解基因組序列的復雜性方面向前邁出了一步。

        DeepMind 的研究者希望這些進展能讓與人類疾病相關的更高效的精細定位成為可能,并提供一個解釋順式調控演變的框架。

        參考鏈接:https://deepmind.com/blog/article/enformer

        *博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



        關鍵詞: AI

        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 金沙县| 景德镇市| 上蔡县| 北辰区| 新营市| 河津市| 习水县| 三都| 阳城县| 开封县| 东莞市| 江永县| 荔浦县| 宜兰市| 阳城县| 龙江县| 遂溪县| 湘潭市| 淄博市| 漠河县| 高清| 阿图什市| 同心县| 织金县| 长垣县| 牙克石市| 陕西省| 德清县| 涞水县| 正阳县| 平安县| 安丘市| 兴仁县| 博客| 商丘市| 顺平县| 绍兴县| 聊城市| 衡阳县| 汕头市| 凤翔县|