將人類語言理解能力應用于藥物發現中以提高活性預測模型的性能
在藥物發現和材料科學中,活性和性質預測模型是及其重要的工具,但目前采用的模型一般需要根據新需求在目標數據上進行訓練或微調。語言模型可以通過零/少樣本能力處理新的任務,但其活性預測的預測質量較差。為此,作者提出了一種新型活性預測模型,通過理解描述任務的文本信息,能夠在推理時適應新的預測任務。
分子活性和分子性質預測模型是計算藥物發現中的主要工具,類似于自然語言處理(NLP)中的語言模型和計算機視覺(CV)中的圖像分類模型,并且已經發展了數年。
分子編碼器從化學結構中提取相關特征,并在生物活性數據上進行訓練。由于活性數據的標簽來自于濕實驗,標注方式十分繁雜并且昂貴,因此人們對能夠在少量數據點上高效訓練活性預測模型的方法非常感興趣。最近提出的基準數據集FS-Mol為活性預測任務提供了僅四個標記分子,因此模型必須能夠有效地從其他任務中轉移知識,這顯然不試用于如上圖a部分所示的模型構建形式。同時,濕實驗中有關活性預測任務的文本描述中可能也有大量信息,但目前的活性預測模型(以上圖a部分所示模型為代表)無法利用這些信息。
對于語言模型而言(上圖b部分所示),雖然其結合了自然語言和化學結構的信息,但它們在活性預測方面仍表現不佳,其效果受限于隱式分子編碼器和訓練數據量等因素。作者認為,選擇有效的分子編碼器并利用帶自然語言的化學數據庫作為訓練或預訓練數據,可以改進上述兩種模型的缺點,以提高活性預測的性能。為此,作者出了一種具有兩個獨立模塊的模型結構(CLMAP)。第一個模塊是分子編碼器,第二個模塊是文本編碼器,兩者在這兩種數據模態之間進行基于對比學習的預訓練,如上圖c部分所示。值得注意的是,目前流行的對比學習框架(沒有標簽的成對數據),將匹配數據對與生成的不匹配數據對進行對比,而作者在這里采用的是依據數據集已有的標簽來構建文本和分子的數據對(即分子對文本描述的任務有活性時,設置為匹配的數據對,無活性時,為不匹配對)。
實驗結果
零樣本遷移學習:作者在FS-Mol和PubChem這里兩個數據集上對CLAMP的能力與其他方法做了對比。可以看到,基于純自然語言的模型GAL和KV-PLM并不能很好的做好零樣本下的遷移學習。值得注意的是,FH是目前最好的方法,CLAMP仍能夠在各種數據集劃分的方式下打敗它。
模型表示能力:為了檢查模型學習到的分子表示是否可轉移到其他任務上,文章選取MoleculeNet作為基準數據集,將CLAMP與其他方法進行對比。通過在分子表示層特征進行線性調整之后,CLAMP效果甚佳,在大部分情況遠超已有模型。
結論
作者提出的對比學習方法 CLAMP 在多個大型數據集上展現出了最佳的零樣本預測藥物活性的表現。除此之外,CLAMP 的預訓練分子編碼器能夠產生有效的分子編碼,可以遷移到其他分子屬性預測任務上。作者還指出,盡管語言模型原則上可以用于零樣本活性預測,但它們在這個任務上表現不佳,并且計算成本較高。
參考資料
Seidl, P., Vall, A., Hochreiter, S., & Klambauer, G. (2023). Enhancing Activity Prediction Models in Drug Discovery with the Ability to Understand Human Language. arXiv preprint arXiv:2303.03363.*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。