科學家結合機器學習方法,開發可預測“細胞分化命運”模型,能用于再生治療及癌癥預測等
世界上沒有兩片相同的樹葉,細胞也一樣。利用基因表達研究中的一項重要技術單細胞轉錄組測序,可以把數以十萬甚至百萬量級的單個細胞分離出來,對細胞里面表達的所有 RNA 分子進行測序,從而以極高通量和高分辨率揭示細胞的狀態和分化轉變。然而,目前分析這些單細胞數據的工具主要集中于簡單的描述和統計分析,還未有能夠充分推斷并揭示細胞命運轉變機理甚至做出高精度預測的方法及模型。
為此,美國麻省理工學院(MIT)喬納森·韋斯曼(Jonathan Weissman)課題組和匹茲堡大學醫學院邢建華課題組聯合開發了一個可預測細胞未來分化命運的模型 dynamo(相關開源工具包鏈接: https://github.com/aristoteleo/dynamo-release),該模型還能給出相應的發育方程來具體解釋導致細胞最終分化的關鍵基因及作用機制。人類因此有一天或能實現“定制”所需的特定細胞。
2022 年 2 月 1 日,相關論文以《繪制單細胞的轉錄組矢量場圖》(Mapping transcriptomic vector fields of single cells)為題發表在 Cell 上,MIT 喬納森·韋斯曼實驗室博士后邱肖杰和匹茲堡大學邢建華實驗室博士生張衍擔任共同第一作者,邱肖杰、 邢建華及喬納森·韋斯曼為共同通訊作者。
圖 | 相關論文(來源:Cell)
據了解,dynamo 模型結合了內在 RNA 剪接和 RNA 代謝標記動力學來得出準確的絕對 RNA 速度,并采用機器學習方法構建高維速度矢量場,還結合微分幾何分析算法來闡明潛在的調節網絡,甚至可以通過物理里的最小作用量方法來預測細胞命運轉變的最優路徑和關鍵轉錄因子,且實現全基因組基因敲除對細胞狀態和命運擾動的準確預測。
該團隊將 dynamo 這個理論工具應用于各種不同的生物過程,包括預測分化的造血干細胞系的未來狀態、揭露出細胞周期進展和與之正交的糖皮質激素反應、提供了造血干細胞發育過程中幾個懸而未決的問題的可能分子機制,包括巨核細胞相對于其他干細胞譜系的更早期發育以及嗜堿細胞的兩條可能發育路徑等。
動 圖 | 人造血干細胞分化預測動畫(來源:邱肖杰)
邱肖杰提到,這項研究的重要貢獻在于其超越了之前基于數據的描述性方法,首次直接利用高通量數據學習出了能夠揭示細胞動態變化過程的方程。這得益于過去十年里機器學習方法和單細胞測序技術日新月異的進步。
從一定程度上,這個工作的重要意義,類似于 400 年前天文學家第谷·布拉赫(Tycho Brahe)的學生約翰尼斯·開普勒(Johannes Kepler)對其收集的天體運動大數據進行分析而得出行星運動三大定律。隨著實驗方法的進一步發展以及更高通量和精度數據的產生,生物學將同物理學一般邁進一個更加定量的時代。
另外,需要特別強調的是,dynamo 的核心技術是采用了機器學習和深度學習的方法,這些方法特別適合處理大數據。但問題是,機器學習模型通常被認為是一個“黑箱”。因此,該團隊通過引入物理學方面的動力系統分析方法,將“黑箱”拆解成一些直觀的、有物理意義且與細胞發育相關的具體變量。
圖 | 研究過程(來源:邱肖杰)
不過,邱肖杰表示,相關研究論文的發表并非一帆風順。該研究是 2018 年底邱肖杰加入喬納森·韋斯曼實驗室做博士后時立題,再從形成一個多學科的完整團隊到最后發表,總共歷時近 3 年半的時間。
而且,在論文審稿過程中,該團隊也遇到不少困難,他們收到了一些諸如“預測不夠令人印象深刻”“新意不夠”等的審稿人評價。為此,他們花了 3~4 個月的時間進行造血發育的相關實驗,又花了了另外 4 個月左右的時間分析數據,在論文中增加了對不同細胞轉變的預測,并基本達到 85% 的準確率,論文最終順利被接收。
邱肖杰指出,這項研究的應用場景很廣,且不限于具體問題,基本能夠用單細胞測序研究的生物動態過程都適用。首先,dynamo 模型可以得出在細胞變化過程中發揮作用的特定基因,并預測將來這個細胞會怎么變化,所以可用于臨床上的重大疾病診斷,如只需提取患者的一點細胞就可以分析預測其得癌癥的概率及病發時間等。
其次,dynamo 模型能夠對不同造血細胞之間轉變所需要的途徑進行預測,可用于再生醫療。例如,人在皮膚燒傷時,研究人員可以將其他部位細胞轉變成皮膚細胞來進行康復治療;對待精神類疾病患者,研究人員可以將其大腦中的膠質細胞轉變成神經細胞來緩解病癥。
該團隊稱,后續他們希望把 dynamo 模型與空間組織、蛋白質的表達和表觀遺傳及更多領域整合起來,作進一步的研究。此外,他們將嘗試使用這個工具解決更為具體的生物問題,如衰老的防止,即把一個老年細胞變回年輕時的狀態。值得注意的是,邱肖杰最近還利用 dynamo 幫助科技前沿機構華大基因分析其大視場高精度的空間基因組學方法 Stereo-seq(https://www.biorxiv.org/content/10.1101/2021.01.17.427004v3),相關研究論文不久后會在 Cell 刊出。
圖 | 邱肖杰(來源:邱肖杰)
據了解,邱肖杰是湖南人,本科畢業于長春工業大學,隨后分別在華東師范大學和華盛頓大學獲得碩士和博士學位,目前在 MIT 攻讀博士后。此外,現在他已經開始在美國申請教授職務,并希望在將來建立一個結合機器學習、單細胞技術和系統生物學的實驗室。
最后他談到,這項研究雖然屬于生物學領域,但還需要結合物理方面的學科知識,而他不是學物理出身。幸運的是,他遇到了論文的通訊作者之一的匹茲堡大學邢建華教授。邢建華所在的課題組長期以來一直在用數學和物理的思維及手段解決生物學問題,包括細胞分化的認識與調控方面。
隨后,又有張衍加入到研究中。張衍的數理功底特別好,做了許多模型上的工作,幫助加快了整個研究過程的推進速度。
邱肖杰表示,“合作很重要,現在幾乎沒有通才,只有合作才能把研究做得更快和更加深入。”
-End-
支持:熊岳城
參考:
1.Xiaojie Qiu et al. Mapping Transcriptomic Vector Fields of Single Cells. Cell(2022)https://doi.org/10.1016/j.cell.2021.12.045
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。