使用深度學習方法高通量預測代謝酶的 kcat,或可揭開細胞工廠的秘密
以下文章來源于ScienceAI ,作者ScienceAI
編輯 | 蘿卜皮酶周轉數(kcat)是了解細胞代謝、蛋白質組分配和生理多樣性的關鍵,但實驗測量的 kcat 數據往往稀疏且嘈雜。查爾姆斯理工大學(Chalmers University of Technology)的研究團隊提供了一種深度學習方法(DLKcat),用于僅根據底物結構和蛋白質序列對來自任何生物體的代謝酶進行高通量 kcat 預測。DLKcat 可以捕獲突變酶的 kcat 變化并識別對 kcat 值有強烈影響的氨基酸殘基。研究人員應用這種方法來預測 300 多種酵母物種的基因組規模 kcat 值。此外,該團隊設計了一個貝葉斯管道,以根據預測的 kcat 值參數化酶約束的基因組規模代謝模型。由此產生的模型在預測表型和蛋白質組方面優于先前管道中相應的原始酶約束基因組規模代謝模型,并使研究人員能夠解釋表型差異。DLKcat 和酶約束的基因組規模代謝模型構建管道是揭示酶動力學和生理多樣性的全球趨勢,并進一步闡明大規模細胞代謝的寶貴工具。該研究以「Deep learning-based kcat prediction enables improved enzyme-constrained model reconstruction」為題,于 2022 年 6 月 16 日發布在《Nature Catalysis》。酶轉換數(kcat)定義了反應的最大化學轉化率,是了解特定生物體的新陳代謝、蛋白質組分配、生長和生理學的關鍵參數。酶數據庫 BRENDA 和 SABIO-RK 中有大量可用的 kcat 值集合,然而,與現有的各種生物體和代謝酶相比,這些值仍然稀少,這主要是因為缺乏用于 kcat 測量的高通量方法。此外,由于不同的測定條件(例如 pH 值、輔因子可用性和實驗方法),實驗測量的 kcat 值具有相當大的可變性。總之,稀疏的收集和相當大的噪聲限制了 kcat 數據在全局分析中的使用,并可能掩蓋酶進化趨勢。特別是酶約束的基因組規模代謝模型(ecGEM),其中全細胞代謝網絡受到酶催化能力的約束,因此能夠準確模擬最大生長能力、代謝變化和蛋白質組分配,特別依賴于基因組- 縮放 kcat 值。在過去的十年中,ecGEM(或遵循酶約束概念的模型)已分別針對幾種經過充分研究的生物體開發,包括大腸桿菌、釀酒酵母、中國倉鼠卵巢細胞和智人。由于 kcat 測量的局限性和依賴酶委員會(EC)編號注釋來搜索這些已開發管道中的 kcat 值,為研究較少的生物體重建 ecGEM 或為多種生物體進行大規模重建仍然是一個挑戰。此外,即使對于那些經過充分研究的生物,kcat 的覆蓋范圍也遠未完成。在釀酒酵母 ecGEM 中,只有 5% 的酶促反應在 BRENDA 中具有完全匹配的 kcat 值。當數據缺失時,以前的 ecGEM 重建流程通常假設 kcat 值來自類似的底物、反應或其他生物,這可能導致模型預測偏離實驗觀察。明確要求獲得大規模的 kcat 值以提高模型準確性并產生更可靠的表型模擬。深度學習已被應用并在模擬化學空間、基因表達、酶相關參數(如酶親和力和 EC 數)方面表現出出色的性能。此前,有研究人員采用機器學習方法,根據從蛋白質結構中獲得的平均代謝通量和催化位點等特征來預測大腸桿菌 kcat 值。然而,這些特征通常很難獲得,這使得這種方法只能應用于研究最充分的生物體,如大腸桿菌。在這里,查爾姆斯理工大學(Chalmers University of Technology)的研究團隊提出了深度學習方法 DLKcat 來預測所有代謝酶與其底物的 kcat 值,只需要底物 SMILES 信息和酶的蛋白質序列作為輸入,從而為任何物種產生通用的 kcat 預測工具。
圖示:用于 ecGEM 參數化的 kcat 深度學習。(來源:論文)DLKcat 可以捕獲 kcat 向精確的單個氨基酸替代方向的變化,從而能夠計算注意力權重,從而識別對酶活性產生重大影響的氨基酸殘基。氨基酸取代是酶進化領域的一項強大技術,通常用于探測酶催化機制。特別是,大多數替代實驗在底物結合位點區域進行誘變,因為假設結合區域將對催化活性產生很大影響。然而,據報道,偏遠地區會對催化活性產生深遠影響。研究人員不僅確定了人 PNP 酶肌苷結合區域中氨基酸殘基的高關注權重,而且還確定了具有高關注權重的各種非結合殘基位點,這表明這些殘基也可能對催化活性產生重大影響,值得進一步驗證。DLKcat 因此可以作為蛋白質工程工具箱的重要組成部分。預測的基因組規模的 kcat 譜可以促進酶約束代謝模型的重建,從策劃和自動生成的基本(非 ec)GEM 中。事實證明,深度學習預測的 kcat 過程比匹配來自 BRENDA 和 SABIO-RK 數據庫的體外 kcat 值更全面但仍然實用;這在 GECKO 和 MOMENT 等原始 ecGEM 重建管道中很常見。通過不依賴 EC 編號注釋,DLKcat 還能夠預測同工酶特異性 kcat 值,而 SMILES 的使用避免了原始 ecGEM 重建管道可能遇到的 GEM 和 BRENDA 之間底物命名不統一的問題。隨后可以通過貝葉斯方法將 DL-ecGEM 調整為現有的實驗生長數據,該方法產生具有生理相關解空間的后均值 ecGEM。結合起來,當前基于 DLKcat 的管道因此適用于幾乎任何生物體的 ecGEM 重建,其中蛋白質序列 FASTA 文件和基本 GEM 可用。他們的管道因此提高了適用性,與以前構建的原始 ecGEM 相比,它甚至提高了具有酶促約束的反應數量。
圖示:kcat 預測的深度學習模型性能。(來源:論文)盡管基于 DLKcat 的管道產生的 ecGEM 性能優于原始 ecGEM,但仍然存在各種挑戰。例如,雖然深度學習模型可以將混雜酶的替代物與隨機選擇的底物區分開來,但它仍然預測了可能過高的隨機底物的動力學活性水平。這種行為可以通過負面數據的有限可用性來解釋:酶 - 底物對沒有產生催化作用的情況。增加對陰性數據集的報告,其中酶-底物對的未檢測到的活性由酶數據庫報告和收集,可以增強未來深度學習模型在定義真陰性方面的能力。此外,DLKcat 并未考慮 pH 和溫度等環境因素的影響,但將 DLKcat 與其他新興機器學習工具(例如酶的最佳溫度預測)相結合,將有助于未來研究環境參數對酶活性的影響。另一個挑戰涉及涉及多種底物和由異聚酶復合物催化的反應。可以為此類反應定義的多底物 SMILES 和蛋白質序列都可以與 DLKcat 一起發揮作用,從而為一個反應產生多個預測的 kcat 值。目前在這些情況下,研究人員會選擇最大 kcat 值,但最好設計一種方法來預測每種多底物和異聚酶的一個 kcat 值。
圖示:用于預測和解釋突變酶 kcat 的深度學習模型。(來源:論文)
此外,DLKcat 衍生的 DL-ecGEM 和后驗均值 ecGEM 繼承了基本 GEM 的局限性,其中基于約束的建模的核心穩態假設允許人們確定代謝通量,但不容易考慮調節行為。雖然 ecGEM 極大地將基于約束的模型的解空間減少到細胞可行容量,但 kcat 并不是決定反應速率的唯一動力學參數,例如,親和常數起著重要的作用。然而,由于基于約束的模型無法預測內部代謝物濃度,因此目前無法輕易考慮這些參數的影響。盡管如此,kcat 值也是其他資源分配模型中的重要參數,例如蛋白質組約束的 GEM 和代謝/大分子表達模型。盡管改進的預測和更多的應用,如何定義 kcat 值也仍然是重建這些模型的挑戰。這種資源分配模型和 ecGEM 都認為細胞需要將其有限的蛋白質組分配到不同的途徑以實現更快的生長或更好的適應度,而每個反應的蛋白質組成本同樣由酶的通量和動力學速率定義。因此,這些模型的代謝部分的深度學習預測 kcat 值可以提高其質量和性能,盡管無法從 DLKcat 獲得在這些模型公式中確定的其他具有挑戰性的動力學參數,例如核糖體催化率。此外,特別關注描述酶動力學的模型公式可以受益于深度學習預測的 kcat 值,因此 DLKcat 方法可以在建模領域找到廣泛的應用。總之,DLKcat 產生了現實的 kcat 值,可用于指導未來的基因工程、了解酶進化和重建 ecGEM 以預測代謝通量和表型。除此之外,這種基于深度學習的 kcat 預測工具的許多其他潛在用途,例如基因組挖掘和全基因組關聯研究分析中的工具。開發的自動貝葉斯 ecGEM 重建管道將有助于進一步用于 ecGEM 重建,用于組學數據合并和分析。論文鏈接:https://www.nature.com/articles/s41929-022-00798-z相關報道:https://phys.org/news/2022-08-algorithm-uncovers-secrets-cell-factories.html
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。