博客專欄

EEPW首頁 > 博客 > 高效預(yù)測幾乎所有人類蛋白質(zhì)結(jié)構(gòu)，AlphaFold再登Nature，數(shù)據(jù)庫全部免費(fèi)開放

高效預(yù)測幾乎所有人類蛋白質(zhì)結(jié)構(gòu)，AlphaFold再登Nature，數(shù)據(jù)庫全部免費(fèi)開放

發(fā)布人：機(jī)器之心時間：2021-07-25 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

以下文章來源于ScienceAI ，作者ScienceAI

這次，AlphaFold 的預(yù)測結(jié)果幾乎覆蓋了人類所有的蛋白質(zhì)結(jié)構(gòu)，而且將免費(fèi)開放給公眾。這將是科學(xué)界的一筆寶貴財富。

生命所必需的每一次基礎(chǔ)生物學(xué)活動幾乎都是由蛋白質(zhì)帶來的。蛋白質(zhì)參與創(chuàng)建細(xì)胞和組織并保持著它們的形狀；構(gòu)成維持生命所需化學(xué)反應(yīng)的催化酶；充當(dāng)分子工廠、轉(zhuǎn)運(yùn)工具和馬達(dá)；充當(dāng)細(xì)胞通訊的信號和接收器等等。

蛋白質(zhì)由很多氨基酸長鏈組成，通過折疊成精確的 3D 結(jié)構(gòu)來完成無數(shù)的任務(wù)。這些結(jié)構(gòu)控制著它們與其它分子互動的方式，決定了其功能以及它在疾病中的功能紊亂程度。闡明蛋白質(zhì)的結(jié)構(gòu)是分子生物學(xué)的核心議題，更是治療患者、拯救生命、改變生活的醫(yī)學(xué)發(fā)展的核心。

在這一領(lǐng)域，DeepMind 的 AlphaFold 被寄予厚望。在上周發(fā)表在《自然》雜志上的一篇論文中，DeepMind 表示，AlphaFold 預(yù)測的蛋白質(zhì)結(jié)構(gòu)已經(jīng)能達(dá)到原子水平的準(zhǔn)確度。

如今，這一成果的最大回報已經(jīng)到來：其中一個研究小組剛剛宣布，他們已經(jīng)使用新開發(fā)的 AlphaFold 預(yù)測出了 35 萬種蛋白質(zhì)的結(jié)構(gòu)，包括人類基因組所表達(dá)的約 2 萬種蛋白質(zhì)和其他 20 種生物學(xué)研究中常用模式生物（如大腸桿菌、酵母和果蠅）的蛋白質(zhì)，是以前用實(shí)驗(yàn)方法解決的蛋白質(zhì)數(shù)量的兩倍多。該組織表示，未來，他們還將繼續(xù)擴(kuò)大預(yù)測的范圍，將預(yù)測數(shù)量擴(kuò)展至已編目的所有蛋白質(zhì)，這大約要覆蓋 1 億個分子。

最重要的是，DeepMind 還與歐洲生物信息研究所（EMBL-EBI）合作建立了一個平臺——AlphaFold DB（AlphaFold 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫），將他們的預(yù)測結(jié)果免費(fèi)開放給公眾。這將涵蓋 98.5% 的幾乎所有人類蛋白。

網(wǎng)站鏈接：https://alphafold.ebi.ac.uk/

DeepMind 創(chuàng)始人兼首席執(zhí)行官 Demis Hassabis 博士說：「我們使用 AlphaFold 生成了人類蛋白質(zhì)組最完整、最準(zhǔn)確的圖片。我們相信這是迄今為止人工智能對推進(jìn)科學(xué)知識所做的最重要貢獻(xiàn)，也是人工智能可以為社會帶來的各種好處的一個很好的例證。」

這項(xiàng)最新的研究成果于 7 月 22 日以「Highly accurate protein structure prediction for the human proteome」為題發(fā)表在《自然》雜志上。

論文鏈接：https://www.nature.com/articles/s41586-021-03828-1

研究發(fā)現(xiàn)，AlphaFold 能對人類蛋白質(zhì)組 58% 的氨基酸的結(jié)構(gòu)位置給出可信預(yù)測。其中，對 35.7% 的結(jié)構(gòu)位置的預(yù)測達(dá)到了很高的置信度，是實(shí)驗(yàn)方法覆蓋的結(jié)構(gòu)數(shù)量的兩倍。在蛋白水平上，AlphaFold 對 43.8% 的蛋白的至少四分之三的氨基酸序列給出了可信預(yù)測。預(yù)測信息將通過 EMBL-EBI 托管的公用數(shù)據(jù)庫免費(fèi)向公眾開放。

清華大學(xué)生命科學(xué)學(xué)院的龔海鵬副教授告訴機(jī)器之心——ScienceAI，「這項(xiàng)工作影響非常深遠(yuǎn)，將在很大程度上改變相關(guān)領(lǐng)域的科研模式」，而且從事蛋白質(zhì)功能和機(jī)理研究、分子動力學(xué)模擬和基于結(jié)構(gòu)的****物開發(fā)、蛋白質(zhì)結(jié)構(gòu)解析的研究者都能從中受益。

龔海鵬副教授表示，對于計算化學(xué)領(lǐng)域和生物信息學(xué)領(lǐng)域的研究者來說，這項(xiàng)研究給出了很好的蛋白質(zhì)初始結(jié)構(gòu)信息，可以基于此進(jìn)行分子動力學(xué)模擬以及計算機(jī)輔助****物設(shè)計等工作。研究蛋白質(zhì)功能和機(jī)理的學(xué)者，也可以根據(jù)預(yù)測的結(jié)構(gòu)解釋實(shí)驗(yàn)中氨基酸殘基突變對蛋白質(zhì)功能的影響，有助于更深入和更準(zhǔn)確地理解蛋白質(zhì)的工作機(jī)理。目前結(jié)構(gòu)解析團(tuán)隊(duì)用冷凍電鏡法較容易建立低分辨率的電子密度圖，用X射線晶體衍射法常常缺乏相位信息，這些缺陷都影響結(jié)構(gòu)的解析；而該研究結(jié)果的開源，使得大部分實(shí)驗(yàn)室可以根據(jù)精度較低的實(shí)驗(yàn)數(shù)據(jù)建立較為合理的結(jié)構(gòu)模型。

不過，芝加哥豐田計算技術(shù)研究所的許錦波教授指出：「AlphaFold 預(yù)測人類蛋白的覆蓋率很高，達(dá)到了 98.5%，但在某些生物制****或疾病治療領(lǐng)域，對蛋白質(zhì)氨基酸結(jié)構(gòu)精度需要達(dá)到原子級別，從這個角度看，AlphaFold 還有一定的提升空間。」

另一些研究人員也同意許教授的看法。自然資源部第三海洋研究所一名研究蛋白互作的研究人員表示，AlphaFold 是對實(shí)驗(yàn)結(jié)構(gòu)生物學(xué)的一種補(bǔ)充技術(shù)，它可以加速現(xiàn)有的生物結(jié)構(gòu)實(shí)驗(yàn)研究，節(jié)約數(shù)月的時間，但「預(yù)測畢竟是預(yù)測，還是需要實(shí)驗(yàn)證實(shí)」。

參與這項(xiàng)工作的 DeepMind 研究人員表示，「像AlphaFold 這樣擅長理解蛋白質(zhì)結(jié)構(gòu)任務(wù)的網(wǎng)絡(luò)架構(gòu)的發(fā)展令人樂觀，我們可以在相關(guān)問題上（預(yù)測復(fù)合物的結(jié)構(gòu)、結(jié)合非蛋白質(zhì)成分等）取得進(jìn)展……大規(guī)模的準(zhǔn)確結(jié)構(gòu)預(yù)測將成為一種重要工具，讓我們能從結(jié)構(gòu)的角度解答新的科學(xué)問題，而 AlphaFold 的預(yù)測結(jié)果將幫助進(jìn)一步闡明蛋白質(zhì)的作用。」

機(jī)器學(xué)習(xí)加速蛋白質(zhì)結(jié)構(gòu)預(yù)測

解析蛋白質(zhì)的結(jié)構(gòu)可以為理解生物學(xué)過程提供重要信息，并有望指導(dǎo)****物研發(fā)。考慮到理解人類蛋白質(zhì)組對健康和醫(yī)****的重要性，研究人員付出了大量努力來確定這些蛋白質(zhì)結(jié)構(gòu)。雖然開展了數(shù)十年的研究攻關(guān)，但只有 35% 的人類蛋白質(zhì)映射到蛋白質(zhì)數(shù)據(jù)庫（PDB）條目。利用實(shí)驗(yàn)方法解析結(jié)構(gòu)需要跨越諸多十分耗時的障礙，因此，擴(kuò)大蛋白質(zhì)組覆蓋面仍是一項(xiàng)艱巨挑戰(zhàn)。

蛋白質(zhì)結(jié)構(gòu)預(yù)測通過快速、大規(guī)模地提供可操作的結(jié)構(gòu)假設(shè)，有助于縮小這一差距。近年來，機(jī)器學(xué)習(xí)方法的出現(xiàn)，讓蛋白質(zhì)結(jié)構(gòu)預(yù)測取得了實(shí)質(zhì)性進(jìn)展。

2020年12月，DeepMind 團(tuán)隊(duì)開發(fā)的 AlphaFold2 在國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽 CASP14 擊敗一眾選手，實(shí)現(xiàn)了前所未有的結(jié)構(gòu)預(yù)測精度，這破解了出現(xiàn)50年之久的蛋白質(zhì)分子折疊問題，被稱作結(jié)構(gòu)生物學(xué)「革命性」的突破、蛋白質(zhì)研究領(lǐng)域的里程碑。

上周，備受矚目的 AlphaFold2 開源，它預(yù)測的蛋白質(zhì)結(jié)構(gòu)能達(dá)到原子水平的準(zhǔn)確度。鑒于此，DeepMind 將 AlphaFold 應(yīng)用于人類蛋白質(zhì)組結(jié)構(gòu)預(yù)測。

視頻簡單介紹了AlphaFold預(yù)測蛋白質(zhì)結(jié)構(gòu)的原理與方法。（來源：DeepMind)

AlphaFold方法

AlphaFold 網(wǎng)絡(luò)由兩個主要階段組成。第1階段，以氨基酸序列和多序列對齊（MSA）作為輸入。它的目標(biāo)是學(xué)習(xí)一個豐富的「成對表示」。這種表示可提供「哪些殘基對在 3D 空間中接近」的信息。第2階段，使用第一階段的表示法直接產(chǎn)生原子坐標(biāo)；將每個殘基作為一個單獨(dú)的物體，預(yù)測放置每個殘基所需的旋轉(zhuǎn)和平移；最終組裝成一個完整的結(jié)構(gòu)鏈。這里可以生成一個基于網(wǎng)絡(luò)中間層表示的三維結(jié)構(gòu)。

圖示：CASP14的預(yù)測結(jié)構(gòu)在網(wǎng)絡(luò)的連續(xù)層上的目標(biāo)T1044、T1024和T1064。（來源：論文）

準(zhǔn)確性和置信度

CASP14 實(shí)驗(yàn)對 AlphaFold 進(jìn)行了嚴(yán)格的評估。實(shí)驗(yàn)中，參與者對已經(jīng)解決但尚未公開的蛋白質(zhì)結(jié)構(gòu)進(jìn)行盲測。AlphaFold 在大多數(shù)情況下都取得了較高的精度，實(shí)驗(yàn)結(jié)構(gòu)平均 95% 的 RMSD-Cα 小于1?。在新發(fā)布的論文中，DeepMind在更大的 PDB 條目上進(jìn)一步評估了這個模型。結(jié)果表明，AlphaFold 在大蛋白上具有強(qiáng)大性能和良好的側(cè)鏈精度，其中主鏈預(yù)測性能很好。

圖示：在CASP14中AlphaFold相對于其他方法的精度。（來源：論文）

結(jié)構(gòu)預(yù)測實(shí)用性的一個重要因素是相關(guān)置信度的質(zhì)量。為了解決「模型能否確定其預(yù)測中可能可靠的部分」的問題，研究人員在 AlphaFold 網(wǎng)絡(luò)的基礎(chǔ)上開發(fā)了兩個信任度量。

第一個度量是 pLDDT(預(yù)測的 lDDT-Cα)，它是在 0 -100范圍內(nèi)對局部置信度的每個殘基的度量。pLDDT可以沿著一條鏈顯著變化，使得模型能夠表達(dá)結(jié)構(gòu)域的高置信度，但是在結(jié)構(gòu)域之間的連接子（linker）上具有低置信度。研究人員提出了一些證據(jù)，證明低 pLDDT 的區(qū)域可能是孤立的非結(jié)構(gòu)。pLDDT<50 的區(qū)域不應(yīng)被解釋，或者被解釋為「可能的無序預(yù)測」。

第二個度量是 PAE（預(yù)測對齊誤差），當(dāng)預(yù)測和真實(shí)結(jié)構(gòu)在殘基y上對齊時，它報告AlphaFold在殘基x處的預(yù)期位置誤差。這對于評估對全局特征（尤其是域包裝）的信心很有用。對于來自兩個不同結(jié)構(gòu)域的殘基x和y，在（x，y）處始終較低的PAE表明α折疊對相對結(jié)構(gòu)域位置更可信；在（x，y）處始終較高的PAE表明不應(yīng)解釋域的相對位置。用于生成PAE的一般方法，同樣適用于預(yù)測各種基于疊加的度量，包括 TM-score 和 GDT。

圖示：兩種示例蛋白（P54725、Q5VSL9）的每殘基置信度(pLDDT)和預(yù)測對準(zhǔn)誤差(PAE)。（來源：論文）

蛋白質(zhì)組規(guī)模和 AlphaFold DB

AlphaFold 可快速預(yù)測的特性，允許該方法應(yīng)用于整個蛋白質(zhì)組規(guī)模。研究人員使用 AlphaFold 對人類蛋白質(zhì)組進(jìn)行預(yù)測。在這之前，AlphaFold 已經(jīng)對許多模式生物、病原體以及經(jīng)濟(jì)上重要的物種的參考蛋白質(zhì)組進(jìn)行了預(yù)測。觀察物種之間pLDDT 分布的差異，AlphaFold 的預(yù)測對細(xì)菌和古細(xì)菌的置信度普遍較高，對真核生物的置信度較低；研究人員猜測可能與這些蛋白質(zhì)組中疾病的流行有關(guān)。

圖示：14 個物種的每個殘留置信度分布；從左到右：細(xì)菌/古細(xì)菌、動物和原生生物。（來源：論文）

圖示：AlphaFold DB 對自各種生物體的預(yù)測示例。（來源：論文）

論文一作 Kathryn Tunyasuvunakool 表示：「我們對計算生物學(xué)的未來感到興奮。最終，我們希望 AlphaFold 將成為一個照亮蛋白質(zhì)空間的有用工具，我們期待看到它在未來幾個月和幾年的應(yīng)用。」

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點(diǎn)，如有侵權(quán)請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： AI

焦點(diǎn)

更多>>

技術(shù)專區(qū)

關(guān)閉

博客專欄

高效預(yù)測幾乎所有人類蛋白質(zhì)結(jié)構(gòu)，AlphaFold再登Nature，數(shù)據(jù)庫全部免費(fèi)開放

相關(guān)推薦

技術(shù)專區(qū)