高效預測幾乎所有人類蛋白質結構,AlphaFold再登Nature,數據庫全部免費開放
以下文章來源于ScienceAI ,作者ScienceAI
這次,AlphaFold 的預測結果幾乎覆蓋了人類所有的蛋白質結構,而且將免費開放給公眾。這將是科學界的一筆寶貴財富。
生命所必需的每一次基礎生物學活動幾乎都是由蛋白質帶來的。蛋白質參與創建細胞和組織并保持著它們的形狀;構成維持生命所需化學反應的催化酶;充當分子工廠、轉運工具和馬達;充當細胞通訊的信號和接收器等等。
蛋白質由很多氨基酸長鏈組成,通過折疊成精確的 3D 結構來完成無數的任務。這些結構控制著它們與其它分子互動的方式,決定了其功能以及它在疾病中的功能紊亂程度。闡明蛋白質的結構是分子生物學的核心議題,更是治療患者、拯救生命、改變生活的醫學發展的核心。
在這一領域,DeepMind 的 AlphaFold 被寄予厚望。在上周發表在《自然》雜志上的一篇論文中,DeepMind 表示,AlphaFold 預測的蛋白質結構已經能達到原子水平的準確度。
如今,這一成果的最大回報已經到來:其中一個研究小組剛剛宣布,他們已經使用新開發的 AlphaFold 預測出了 35 萬種蛋白質的結構,包括人類基因組所表達的約 2 萬種蛋白質和其他 20 種生物學研究中常用模式生物(如大腸桿菌、酵母和果蠅)的蛋白質,是以前用實驗方法解決的蛋白質數量的兩倍多。該組織表示,未來,他們還將繼續擴大預測的范圍,將預測數量擴展至已編目的所有蛋白質,這大約要覆蓋 1 億個分子。
最重要的是,DeepMind 還與歐洲生物信息研究所(EMBL-EBI)合作建立了一個平臺——AlphaFold DB(AlphaFold 蛋白質結構數據庫),將他們的預測結果免費開放給公眾。這將涵蓋 98.5% 的幾乎所有人類蛋白。
網站鏈接:https://alphafold.ebi.ac.uk/
DeepMind 創始人兼首席執行官 Demis Hassabis 博士說:「我們使用 AlphaFold 生成了人類蛋白質組最完整、最準確的圖片。我們相信這是迄今為止人工智能對推進科學知識所做的最重要貢獻,也是人工智能可以為社會帶來的各種好處的一個很好的例證 。」
這項最新的研究成果于 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」為題發表在《自然》雜志上。
論文鏈接:https://www.nature.com/articles/s41586-021-03828-1
研究發現,AlphaFold 能對人類蛋白質組 58% 的氨基酸的結構位置給出可信預測。其中,對 35.7% 的結構位置的預測達到了很高的置信度,是實驗方法覆蓋的結構數量的兩倍。在蛋白水平上,AlphaFold 對 43.8% 的蛋白的至少四分之三的氨基酸序列給出了可信預測。預測信息將通過 EMBL-EBI 托管的公用數據庫免費向公眾開放。
清華大學生命科學學院的龔海鵬副教授告訴機器之心——ScienceAI,「這項工作影響非常深遠,將在很大程度上改變相關領域的科研模式」,而且從事蛋白質功能和機理研究、分子動力學模擬和基于結構的****物開發、蛋白質結構解析的研究者都能從中受益。
龔海鵬副教授表示,對于計算化學領域和生物信息學領域的研究者來說,這項研究給出了很好的蛋白質初始結構信息,可以基于此進行分子動力學模擬以及計算機輔助****物設計等工作。研究蛋白質功能和機理的學者,也可以根據預測的結構解釋實驗中氨基酸殘基突變對蛋白質功能的影響,有助于更深入和更準確地理解蛋白質的工作機理。目前結構解析團隊用冷凍電鏡法較容易建立低分辨率的電子密度圖,用X射線晶體衍射法常常缺乏相位信息,這些缺陷都影響結構的解析;而該研究結果的開源,使得大部分實驗室可以根據精度較低的實驗數據建立較為合理的結構模型。
不過,芝加哥豐田計算技術研究所的許錦波教授指出:「AlphaFold 預測人類蛋白的覆蓋率很高,達到了 98.5%,但在某些生物制****或疾病治療領域,對蛋白質氨基酸結構精度需要達到原子級別,從這個角度看,AlphaFold 還有一定的提升空間。」
另一些研究人員也同意許教授的看法。自然資源部第三海洋研究所一名研究蛋白互作的研究人員表示,AlphaFold 是對實驗結構生物學的一種補充技術,它可以加速現有的生物結構實驗研究,節約數月的時間,但「預測畢竟是預測,還是需要實驗證實」。
參與這項工作的 DeepMind 研究人員表示,「像AlphaFold 這樣擅長理解蛋白質結構任務的網絡架構的發展令人樂觀,我們可以在相關問題上(預測復合物的結構、結合非蛋白質成分等)取得進展……大規模的準確結構預測將成為一種重要工具,讓我們能從結構的角度解答新的科學問題,而 AlphaFold 的預測結果將幫助進一步闡明蛋白質的作用。」
機器學習加速蛋白質結構預測
解析蛋白質的結構可以為理解生物學過程提供重要信息,并有望指導****物研發。考慮到理解人類蛋白質組對健康和醫****的重要性,研究人員付出了大量努力來確定這些蛋白質結構。雖然開展了數十年的研究攻關,但只有 35% 的人類蛋白質映射到蛋白質數據庫(PDB)條目。利用實驗方法解析結構需要跨越諸多十分耗時的障礙,因此,擴大蛋白質組覆蓋面仍是一項艱巨挑戰。
蛋白質結構預測通過快速、大規模地提供可操作的結構假設,有助于縮小這一差距。近年來,機器學習方法的出現,讓蛋白質結構預測取得了實質性進展。
2020年12月,DeepMind 團隊開發的 AlphaFold2 在國際蛋白質結構預測競賽 CASP14 擊敗一眾選手,實現了前所未有的結構預測精度,這破解了出現50年之久的蛋白質分子折疊問題,被稱作結構生物學「革命性」的突破、蛋白質研究領域的里程碑。
上周,備受矚目的 AlphaFold2 開源,它預測的蛋白質結構能達到原子水平的準確度。鑒于此,DeepMind 將 AlphaFold 應用于人類蛋白質組結構預測。
視頻簡單介紹了AlphaFold預測蛋白質結構的原理與方法。(來源:DeepMind)
AlphaFold方法
AlphaFold 網絡由兩個主要階段組成。第1階段,以氨基酸序列和多序列對齊(MSA)作為輸入。它的目標是學習一個豐富的「成對表示」。這種表示可提供「哪些殘基對在 3D 空間中接近」的信息。第2階段,使用第一階段的表示法直接產生原子坐標;將每個殘基作為一個單獨的物體,預測放置每個殘基所需的旋轉和平移;最終組裝成一個完整的結構鏈。這里可以生成一個基于網絡中間層表示的三維結構。
圖示:CASP14的預測結構在網絡的連續層上的目標T1044、T1024和T1064。(來源:論文)
準確性和置信度
CASP14 實驗對 AlphaFold 進行了嚴格的評估。實驗中,參與者對已經解決但尚未公開的蛋白質結構進行盲測。AlphaFold 在大多數情況下都取得了較高的精度,實驗結構平均 95% 的 RMSD-Cα 小于1?。在新發布的論文中,DeepMind在更大的 PDB 條目上進一步評估了這個模型。結果表明,AlphaFold 在大蛋白上具有強大性能和良好的側鏈精度,其中主鏈預測性能很好。
圖示:在CASP14中AlphaFold相對于其他方法的精度。(來源:論文)
結構預測實用性的一個重要因素是相關置信度的質量。為了解決「模型能否確定其預測中可能可靠的部分」的問題,研究人員在 AlphaFold 網絡的基礎上開發了兩個信任度量。
第一個度量是 pLDDT(預測的 lDDT-Cα),它是在 0 -100范圍內對局部置信度的每個殘基的度量。pLDDT可以沿著一條鏈顯著變化,使得模型能夠表達結構域的高置信度,但是在結構域之間的連接子(linker)上具有低置信度。研究人員提出了一些證據,證明低 pLDDT 的區域可能是孤立的非結構。pLDDT<50 的區域不應被解釋,或者被解釋為「可能的無序預測」。
第二個度量是 PAE(預測對齊誤差),當預測和真實結構在殘基y上對齊時,它報告AlphaFold在殘基x處的預期位置誤差。這對于評估對全局特征(尤其是域包裝)的信心很有用。對于來自兩個不同結構域的殘基x和y,在(x,y)處始終較低的PAE表明α折疊對相對結構域位置更可信;在(x,y)處始終較高的PAE表明不應解釋域的相對位置。用于生成PAE的一般方法,同樣適用于預測各種基于疊加的度量,包括 TM-score 和 GDT。
圖示:兩種示例蛋白(P54725、Q5VSL9)的每殘基置信度(pLDDT)和預測對準誤差(PAE)。(來源:論文)
蛋白質組規模和 AlphaFold DB
AlphaFold 可快速預測的特性,允許該方法應用于整個蛋白質組規模。研究人員使用 AlphaFold 對人類蛋白質組進行預測。在這之前,AlphaFold 已經對許多模式生物、病原體以及經濟上重要的物種的參考蛋白質組進行了預測。觀察物種之間pLDDT 分布的差異,AlphaFold 的預測對細菌和古細菌的置信度普遍較高,對真核生物的置信度較低;研究人員猜測可能與這些蛋白質組中疾病的流行有關。
圖示:14 個物種的每個殘留置信度分布;從左到右:細菌/古細菌、動物和原生生物。(來源:論文)
圖示:AlphaFold DB 對自各種生物體的預測示例。(來源:論文)
論文一作 Kathryn Tunyasuvunakool 表示:「我們對計算生物學的未來感到興奮。最終,我們希望 AlphaFold 將成為一個照亮蛋白質空間的有用工具,我們期待看到它在未來幾個月和幾年的應用。」
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。