以大模型加速新藥研發,成本降低70%:一家大廠的「云端」實戰(1)
最近幾年,AI 加持下的新藥研發成為被寄予厚望的賽道之一。
從流程上看,藥物研發分為藥物發現、臨床前研究、臨床研究、審批與上市四個階段。醫藥界有一個「雙十定律」的說法 —— 即需要超過 10 年時間、10 億美元的成本,才有可能成功研發出一款新藥。即使如此,也只有約 10% 新藥能被批準進入臨床期。
目前,AI 技術的參與主要集中于藥物發現階段。挑戰在于,雖然 AI 技術加快了一部分工作的推進速度,但 AI 技術與藥物研發的 “聯姻” 并不是一蹴而就的,囿于算法低效、數據割裂、數據安全、算力瓶頸等挑戰,藥物研發仍然是一項高風險、長周期、高成本的工作。
鑒于「AI 新藥研發」還處于待普及階段,學界和業界都在探索一種更好的技術落地模式。數據、算法、算力,并列為人工智能技術發展的三大要素,也在某種程度上決定了 AI 新藥研發能夠以何種速度走到最后一步。研發團隊需要具備的條件很多:大量數據資源、充足的算力以及強大的技術積累。在這樣的情況下,在數據、算法、算力三方面均有深厚實力的大廠似乎更能扛起這份責任。
路漫漫其修遠兮,究竟該如何解決遇到的挑戰?
盤古藥物分子大模型,為新藥研發提質增效
對于西安交大一附院的劉冰教授來說,「雙十定律」給他帶來的體會尤其深刻。
2020 年,劉冰教授所在的團隊正在嘗試研發一種名為「Drug X」的超級抗菌藥。然而細菌的進化速度是非常驚人的,很多時候可能等不及一款新藥上市,細菌就已經產生了對這款藥物的耐藥性。近四十年來,領域內都未有新類別、新靶點的抗生素出現,有些被超級耐藥菌感染的病人甚至面臨無藥可用的局面。
「目前一款抗生素的研發費用平均能達到 16 億美金,如果這款抗生素在還沒有面世的階段被發現了細菌對它的耐藥性,就等于 16 億美金直接打水漂了。」劉冰教授表示。
想要研制一款超級抗菌藥,就相當于和「耐藥性的產生」進行一場時間賽跑。
傳統的藥物研發方式顯然是不夠快的,我們可以粗略算一算:藥物研發平均周期超過 10 年,其中先導藥物的設計就需要 3 到 5 年之久。科研團隊首先要從上億個小分子化合物中找到對目標靶點最有效的那一個,在這個過程中,團隊需要不斷地修改藥物結構來提高其活性和成藥性。每一次更新藥物結構都意味著合成路線、藥效評估實驗等系列方案的重設和驗證。
彼時,劉冰教授剛回國不久,實驗室還在建設中,他想要帶領團隊進行 AI 輔助藥物設計,但在數據、算法、算力三方面都遇到了一些挑戰。
與華為云的合作機會讓他看到了新的可能。華為云在 2021 年正式推出了盤古藥物分子大模型,這是當前業界參數最大的藥物分子大模型,主要面向藥物研發領域,提供結合預測、屬性預測、分子優化與生成能力。
「在科研的整個過程中,可能一萬次失敗里面才有一次成功。像我們這樣十多個人的團隊,必須要依靠像 AI 這種新技術,才能繞開既有壁壘,走出一條新路。」劉冰教授表示。
劉冰教授所遇到的壁壘,也正是現階段大多數科研團隊和藥企所遇到的挑戰。而引入 AI 技術進行藥物設計的提升是相當明顯的:在「藥物分子篩選」和「藥物分子優化」這兩大環節,華為云盤古藥物分子大模型對 Drug X 的研發提供了重要幫助。最終,在 AI 大模型的加持下,Drug X 先導藥的研發周期獲得了數十倍的加速,從數年縮短到數月,研發成本直接降低了 70%。
這種飛躍式提升是如何實現的?簡單來說,華為云盤古藥物分子大模型接受了超大規模的化合物表征模型訓練,預先對 17 億個藥物分子的化學結構進行了學習,并對藥物分子結構進行預測、打分。實驗結果表明,華為云盤古藥物分子大模型的成藥性預測準確率比傳統方式高 20%,幫助科研人員省去大量藥物設計的成本。此外,該模型還內置了高效的分子生成器生成了 1 億個創新的類藥物小分子篩選庫,結構新穎性達 99.68%,為發現新藥創造了更多可能性。
盤古藥物分子大模型框架。圖源:https://www.biorxiv.org/content/10.1101/2022.03.31.485886v1.full
「盤古藥物分子大模型的訓練前后花費兩年的時間,華為云團隊在模型架構設計及驗證、大規模百卡昇騰 NPU 的訓練都遇到過挑戰,最后都一一解決了。」華為云 EIHealth 醫療智能體負責人喬楠博士介紹說。
在這一模型的打造過程中,華為云團隊首創了名為「圖 - 序列不對稱條件自編碼器」的架構,將藥物分子結構轉換成可量化的數值,可以更好地在數值空間定量地對藥物分子結構與性質進行預測與推薦。在 AI 優先推薦的藥物分子基礎上,科研人員可直接選擇評分較高的藥物分子進行人工實驗驗證。
這一架構的靈感來源于人類認識化合物的兩種方式:分子式和結構式。「我們教會 AI 用同樣的方法學習化合物的分子式和結構式,設計了這樣一個圖和序列不對稱的算法架構,它的兩端采用的是兩種不同的深度學習架構,圖部分采用了圖深度學習、圖卷積的方法,序列部分采用了 Transformer 架構。」喬楠博士表示。
盤古藥物分子大模型的圖 - 序列不對稱條件自編碼器架構。
在縮短研發時間、降低研發成本之外,盤古藥物分子大模型還能夠對篩選后的先導化合物進行定向優化,通過更科學的藥物結構設計,降低新藥可能對人體產生的毒副作用。
在相關論文發表前,華為云團隊對盤古藥物分子大模型進行了多項測試,結果表明,該模型在化合物 - 靶標相互作用預測、化合物 ADME/T(吸收、分配、代謝、排泄、毒性)屬性評分、化合物分子生成與優化等 20 余項藥物發現任務上實現了 SOTA(性能最優),可賦能藥物發現全鏈條任務。
正如喬楠博士所說,如果說相關領域內的科研是「科學」,那么盤古藥物設計大模型就是「技術」,科學與技術與相輔相成,才能讓基礎發現快速轉化為一個可以運用到實際場景的成果。在近兩年的商用中,已有多家藥企借助盤古藥物分子大模型設計出了具備良好活性的新分子。
其中,微芯生物在腫瘤藥物設計領域基于華為云能力,將藥物設計效率提升 1/3,分子優化后結合能提升 40%,加速腫瘤領域藥物研發創新研究。
旺山旺水在中樞神經系統創新藥物的系列研發工作中,靶點發現效率提升 3 倍,分子設計實驗時間及資金成本節省 60%以上,高靶向性化合物的優化設計和驗證工作量降低五倍以上。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。