北京大學高歌:21世紀的生命科學屬于數據科學丨獨家專訪
高歌現為北京大學生物醫學前沿創新中心 (BIOPIC)、北京未來基因診斷高精尖創新中心 (ICG)、生物信息中心 (CBI) 暨蛋白質與植物基因研究國家重點實驗室研究員、博士生導師。他長期從事新一代的生物信息方法和技術研究,其團隊正在基于大數據、統計學習等計算方法和單細胞多組學技術,深入挖掘和整合高通量生物數據,在單細胞水平上精準解析細胞調控圖譜并探索其在生物醫****領域的應用方向。
他形象地將其團隊從事的事情描述為科學地 “看相” 和 “算命”,即利用計算的方法解析生物大數據中蘊含的新生命規律。具體來說就是基于基因組、轉錄組等大規模組學測量數據 (科學 “看相”),通過多種計算方法有效挖掘、整合、建模,發現新現象、總結新規律,形成對生命過程的統一解析和理解,進而將其應用于生物醫****領域的診治中,實現 “科學算命”。 其技術路線可以總結為 “數據導向”(Data-Oriented)、“方法驅動”(Methodology-Driven)、“干濕結合”(in silico for in vivo)。 細胞是構成生命的基本單元,細胞中多種調控機制造就了機體中功能形態豐富多樣的細胞群體,并進而構成了早期發育、腫瘤發展等多種關鍵生理病理現象的生物學基礎。而現階段,要實現 “科學看相” 和 “科學算命”,核心工作就在于精準解析細胞調控圖譜。 “隨著近年來以單細胞多組學數據為代表的新一代測量數據爆發式增長,以深度學習、因果推斷等為代表的統計建模方法不斷取得新進展,以及以混合計算、彈性計算等為代表的計算技術快速鋪開,我們有望在近期內精準解析人類細胞調控圖譜。”
“21 世紀的生命科學正在進入數據科學時代,生命科學的整體研究方法或者研究思路很大程度上都將隨著數據量的快速增長而變化,這種改變將會帶來巨大、深遠的影響。” 高歌說。 如何在海量的生物學數據中有效挖掘新的生物學知識是利用計算方法解析生命的關鍵,而無論是新型的深度學習模型、還是經典的統計學習方法,都高度依賴高質量的生物學數據。近年來,單細胞多組學測量技術的快速發展是獲取高維度生物數據的關鍵之一。
單細胞多組學測量技術是指對單個細胞包含的基因組、表觀基因組、轉錄組、蛋白質組和代謝組等組學信息進行測量分析,從而獲得單個細胞在多個層面的運作狀態。 在此基礎上,科研人員可以進一步開發新的計算方法,從多個層面分析細胞,整合和解讀不同層面的數據,以全面理解細胞的組成成分和運作機制。進一步地,在臨床上,多組學數據能夠幫助人們理解細胞在病理狀態和生理狀態之間的差異,并精準鎖定診斷標志物和治療性靶點。 “作為近年來生命科學技術領域最大進展之一的單細胞多組學技術正在蓬勃發展。隨著多組學技術產生的數據量持續增長,我們在歷史上第一次有可能從整體上構建細胞調控圖譜,進而在單細胞水平上對基因表達調控及其生理、病理結果進行精準解析,并最終實現在計算機中建立細胞調控的高精度模型,構造 Virtual Cell。” 高歌說。
“在生命科學領域,數據本身具有不可忽視的價值。然而,產生海量數據只是第一步;只有發展新的計算技術與方法解析、挖掘這些寶貴的數據,才能發現新的生物學現象與規律,并進而將其運用于生物醫學的實踐中。” 高歌說。 “數據導向,方法驅動” 是高歌團隊的核心研究路線。高歌相信,方法學(方法特指計算方法)的進步是獲得新發現的有效途徑,并將為從根本上提升對生命系統的理解提供全新的視角與可能。 有鑒于此,該團隊近年來圍繞生物數據的解析、挖掘與整合,開發了一系列生物信息學新方法與新技術。截止目前,其團隊已自主研發 10 余款生物信息新算法軟件和數據庫,外部有效訪問量累計逾 10 億次。
具體來說,高歌團隊已經開發出了多款深度學習模型和組件,包括最新發表的新型卷積層 vConv、新型池化層 ePooling、單細胞轉錄組數據整合和注釋的新方法 Cell BLAST 等。據介紹,其基本思路是根據生物數據特點,針對現有深度學習模型或者組件進行調整和優化,進而從底層重構一套適用于生物學的深度學習框架。
高歌告訴生輝,對于一個計算模型的評價可以從兩個方面來看,一是計算模型本身的性能;二是可解釋性,也就是幫助科學家理解生物數據中所蘊含的信息與知識的能力。 今年 7 月,該團隊在線發表最新深度學習組件 —— 基于自適應卷積核的新型卷積層 vConv。標準卷積神經網絡的卷積核長度通常是固定的,但是在生物信號檢測過程中,信號本身的長度并不固定。基于此,該團隊針對生物醫****領域的數據對卷積神經網絡里的常用卷積層進行了改良。 高歌告訴生輝,該模型最大的創新之處在于通過針對細分領域的數據特點設計深度學習組件,將標準卷積神經網絡中長度固定的卷積核變為可自動調整長度的卷積核。 ePooling 則是該團隊開發的一種具有明確概率可解釋性的新型池化層,它從概率可解釋性出發,通過理性設計,對當前主流的池化方法進行了改進,不僅提升了可解釋性、也提高了性能。 2020 年 7 月,該團隊在 Nature Communications 上發表了一種基于深度對抗學習模型的數據檢索和注釋新方法 ——Cell BLAST,和一個高質量單細胞轉錄組參考數據庫 ACA。今年3月,這項研究入選了《基因組蛋白質組與生物信息學報》評選的 2020 年度 “中國生物信息學十大進展”。
在比較跨數據集時,批次效應往往會降低預測的準確性和可靠性,并影響現有數據的利用,借助對抗學習方法,Cell BLAST 可以有效地消除數據之間的批次效應。此外,Cell BLAST 還能夠發現存在于用戶提交的待查數據集、但不存在于 ACA 參考數據集中的細胞類型。 據悉,該團隊還在開發深度學習模型 GLUE 以整合包括轉錄組、表觀組、蛋白質組等在內不同維度的單細胞多組學數據,最新研究結果近期已刊登于預印本網站 bioRxiv 上。
今年是高歌加入北京大學的第 10 個年頭。目前,高歌團隊的工作專注于構建解析細胞調控圖譜,并探索其在早期發育、消化道腫瘤和免疫相關疾病上的應用潛力。 科研成果更大的意義是走向轉化應用,真正為生命科學行業以及應用帶來變革。對于科研轉化落地,高歌也有自己的想法。 “從落地角度來看,我們希望可以找到更有意義和價值的應用場景和方向。對于具體應用方向,我們需要考慮自己能夠為行業提供哪些具有長期價值、長期競爭優勢的科研成果。” 高歌說。 雖然還沒有具體的規劃,但是該團隊現階段也有了一些前期的考慮和計劃。高歌認為,現階段多組學技術已經應用于精準醫學研究,預計未來 5 年可能會進一步應用于精準醫學臨床診斷與治療。
目前在產前診斷、靶向用****等領域廣泛應用的遺傳篩查仍主要基于對疾病易感基因遺傳變異的檢測,然而,不完全外顯 (reduced penetrance, 即基因型有缺陷的前提下沒有表型上的變化) 等情形會嚴重影響最終診斷的信度與效度。 高歌告訴生輝,現在實驗室的一項工作就是降低遺傳疾病診斷的誤差,現已初步獲得了一些可以降低誤差的發現。 目前高歌團隊仍將以基礎科研為主,不過他們正在探索場景落地的可能性。高歌繼續補充,“如果要找到具有長期價值的方向,我覺得需要與高校的技術創新能力結合起來。從基礎到應用的過程中,高校往往聚焦于 0-1 的階段,大型企業會專注于 100-10000,而我們希望能著眼于填補 1-100 之間的空白。”
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。