博客專欄

        EEPW首頁 > 博客 > AI for Science:人工智能改變化學領域,機器學習范式加速化學物質發(fā)現(xiàn)

        AI for Science:人工智能改變化學領域,機器學習范式加速化學物質發(fā)現(xiàn)

        發(fā)布人:機器之心 時間:2022-03-08 來源:工程師 發(fā)布文章

        隨著人工智能技術興起,在化學領域,傳統(tǒng)的基于實驗和物理模型的方式逐漸與基于數(shù)據(jù)的機器學習范式融合。越來越多的用于計算機處理數(shù)據(jù)表示被開發(fā)出來,并不斷適應著以生成式為主的統(tǒng)計模型。


        圖片


        雖然工程、金融和商業(yè)從新算法中獲益匪淺,但獲益不僅僅來自算法。幾十年來,大規(guī)模計算一直是物理科學工具包中不可或缺的一部分 —— 人工智能的一些最新進展已經(jīng)開始改變科學發(fā)現(xiàn)的產(chǎn)生方式。
        物理科學領域的杰出成就令人興奮不已,例如使用機器學習渲染黑洞圖像或 AlphaFold 對蛋白質折疊的貢獻。本文將介紹人工智能在化學領域的一些更突出的用途,而化學是上述蛋白質折疊問題的母學科。
        化學的主要目標之一是了解物質、它的性質以及它可以經(jīng)歷的變化。比如,當我們在尋找新的超導體、疫苗或任何其他具有我們想要特性的材料時,我們會求助于化學這一學科。
        傳統(tǒng)上,我們認為化學是在配有****、燒瓶和燃氣燃燒器的實驗室中完成。但它也受益于計算和量子力學的發(fā)展,這兩者都在 20 世紀中葉開始嶄露頭角。早期的應用包括使用計算機來幫助解決基于物理的公式計算;或者是通過將理論化學與計算機編程相結合,我們能夠模擬(盡管遠非完美)化學系統(tǒng)。最終,這項工作發(fā)展成為現(xiàn)在稱為計算化學(computational chemistry)的子領域。該子領域在 1970 年代開始興起發(fā)展,并在 1998 年和 2013 年有人憑借該領域獲得諾貝爾獎。
        即便如此,盡管計算化學在過去幾十年中獲得了越來越多的認可,但其重要性遠沒有在實驗室所做的實驗重要,而實驗才是化學發(fā)現(xiàn)的基石。
        然而,隨著當前人工智能、以數(shù)據(jù)為中心的技術和不斷增長的數(shù)據(jù)量的進步,我們可能正在目睹一種變化,計算方法不僅用于協(xié)助實驗室實驗,還用于指導實驗
        化學物質發(fā)現(xiàn)過程
        那么人工智能是如何實現(xiàn)這種轉變的呢?一個特別的發(fā)展是將機器學習應用于材料發(fā)現(xiàn)和分子設計,這是化學中的兩個核心問題
        在傳統(tǒng)方法中,分子的設計大致分為四個階段,如下圖所示。需要注意的是,每個階段都可能需要數(shù)年時間和許多資源,并且不能保證成功。

        圖片

        化學物質發(fā)現(xiàn)階段:發(fā)現(xiàn)(discovery)、合成、分離與測試(synthesis, isolation and testing)、驗證(validation)以及批準與市場營銷(approval and marketing)。
        發(fā)現(xiàn)階段依賴于幾個世紀以來發(fā)展起來的用來指導分子設計的理論框架。然而,在尋找「有用」的材料(例如凡士林、鐵氟龍、青霉素)時,我們必須記住,其中許多來自自然界中常見的化合物。此外,這些化合物的效用往往是事后才發(fā)現(xiàn)的。與此相反,有針對性的搜索是一項需要更多時間和資源的工作(即使那樣,人們也可能不得不使用已知的「有用」化合物作為起點)。為了給讀者一些概念,據(jù)估計,****理活性化學空間(即分子的數(shù)量)為 1060!即使在測試和擴展階段之前,在這樣的空間中手動搜索也會花費大量時間和資源。
        那么人工智能是如何進入這一切并加速化學(物質)發(fā)現(xiàn)的呢?
        首先,機器學習改進了現(xiàn)有的模擬化學環(huán)境的方法。我們已經(jīng)提到計算化學允許我們部分繞過實驗室實驗。然而,模擬量子力學過程的計算化學的計算在計算成本和化學模擬的準確性方面都很差。計算化學的核心問題是求解復雜分子的電子薛定諤方程 —— 也就是說,給定原子核集合的位置和電子總數(shù),計算感興趣的性質。只有單電子系統(tǒng)才有可能得到精確的解決方案,而對于其他系統(tǒng),我們必須依賴「足夠好」的近似值。此外,許多用于近似薛定諤方程的流行方法以指數(shù)方式擴展,使得蠻力解決方案難以解決。在上個世紀,人們開發(fā)了許多方法來加速計算而不犧牲太多的準確性。然而,即使是一些「更便宜」的方法也可能導致計算瓶頸。
        人工智能加速這些計算的一種方法是將它們與機器學習相結合。另一種方法通過直接將分子表證映射到所需屬性來完全繞過物理過程的建模。這兩種方法都允許化學家更有效地檢查化學數(shù)據(jù)庫的各種屬性,例如原子電荷、電離能等。
        生成式化學的興起
        雖然更快的計算是一種改進,但它并沒有解決我們仍然局限于已知化合物的事實 —— 這只是活性化學空間的一小部分。我們仍然必須手動指定想要分析的分子。我們如何扭轉這種范式并設計一種算法來搜索化學空間并為我們找到合適的候選物質呢?答案可能在于將生成模型應用于分子發(fā)現(xiàn)問題
        但在我們開始之前,有必要談談如何以數(shù)字方式表示化學結構(以及哪些可以用于生成式建模)。在過去的幾十年中已經(jīng)開發(fā)了許多種表示,其中大部分屬于以下四個類別之一,分別是字符串(string)、文本文件(text )、陣列(array)和圖(graph)。

        圖片

        異戊烷的表示。
        當然,化學結構可以表示為陣列。最初,分子的陣列表示用于輔助化學數(shù)據(jù)庫的搜索;然而 2000 年代初期引入了一種稱為擴展連接指紋 (Extended connectivity fingerprint, ECFP) 的新型陣列表示。ECFP 被專門設計用于捕獲與分子活動相關的特征, 它通常被認為在嘗試預測分子特性方面的第一批表征之一。
        化學結構信息也可以轉儲到文本文件中 —— 這是量子化學計算的常見輸出。這些文本文件可以包含非常豐富的信息,但是,它們作為機器學習模型的輸入通常不是很有用。另一方面,字符串表示在其語法中編碼了很多信息。這使得它們特別適合生成建模,很像文本生成。
        最后,基于圖的表示更加自然,它不僅允許我們在節(jié)點嵌入中編碼特定于原子的屬性,而且還可以捕獲邊緣嵌入中的化學鍵。此外,當與消息傳遞相結合時,圖表征允許我們解釋(和配置)來自其鄰居的節(jié)點對節(jié)點的影響,這反映了化學結構中原子如何相互影響。這些屬性使基于圖的表示成為深度學習模型的首選輸入表示類型。
        上面的表示類型可以有自己的子類型;遺憾的是,對于任何特定問題,哪種表示最有效也沒有定論。例如,數(shù)組表示通常是屬性預測的首選,但圖表示在過去幾年中也成為了強有力的競爭者。同樣需要注意的是,我們可以根據(jù)問題將多種類型的表示結合使用。
        那么如何(以及哪些)表示可以用于探索化學空間?我們已經(jīng)提到字符串表示適用于生成建模。圖表示起初不太容易使用生成模型建模,但最近由于和變分自動編碼器 (VAE) 的結合使它而成為強有力的競爭者;VAE 已被證明特別有用,因為它使我們能夠擁有連續(xù)的、機器可讀性更高的表示。一項研究使用 VAE 表明字符串和圖表示都可以編碼和解碼到隱空間中,在該空間中,分子不再是離散的,而是可以解碼回離散分子表示的實值連續(xù)向量(該向量可能有效也可能無效); 不同向量之間的歐幾里得距離將對應于化學相似性。在編碼器和****之間添加了另一個模型,去預測隱空間中任何點的目標屬性。

        圖片

        連續(xù)隱空間中基于梯度的優(yōu)化。訓練后的模型 f (z) 相對于隱變量 z 進行了優(yōu)化,從而可以找到一個新的 z,使新的隱向量表示具有更高的屬性分數(shù)。
        但是,雖然生成分子本身是一項簡單的任務 —— 人們可以采用任何生成模型并將其應用于他們想要的表示 —— 生成化學上有效并表現(xiàn)出我們想要的特性的結構是一個更具挑戰(zhàn)性的問題。
        實現(xiàn)這一目標的最初方法涉及在現(xiàn)有數(shù)據(jù)集上預訓練模型,然后將其用于遷移學習。通過校準數(shù)據(jù)集對模型進行調整以允許生成偏向特定屬性的結構,之后可以使用不同的算法(例如強化學習)進一步校準。這方面的幾個例子涉及使用字符串或圖表示;然而在化學有效性方面遇到了困難,或者不能成功獲得想要的屬性。此外,依賴預訓練數(shù)據(jù)集會限制搜索空間并引入可能不需要的偏差。
        擺脫預訓練的一種嘗試是使用馬爾可夫決策過程 (MDP) 來確保化學結構的有效性,并通過深度 Q 學習(Q-learning)來優(yōu)化 MDP 以獲得所需的屬性。該模型的一個特別優(yōu)點是它允許用戶可視化不同行為的好感度。下圖顯示了這個想法在實踐中是如何實現(xiàn)的;模型認為有利的增量步驟是從起始結構開始的,以最大化特定屬性。

        圖片

        (a) 可視化某些行為的偏愛程度(1 是最偏愛,0 是最不偏愛),虛線表示去除鍵,實線表示第一步中鍵的添加。(b) 為使起始分子的****物相似性定量估計 (QED) 最大化而采取的步驟,其步驟以黃色顯示。
        盡管還處于起步階段,但使用人工智能探索化學空間已經(jīng)顯示出巨大的前景。它為我們提供了探索化學空間的新范式,以及一種新的檢驗理論和假設的方法。雖然經(jīng)驗主義不像實驗研究那樣準確,但使在可預見的未來,基于計算的方法仍將是一個活躍的研究領域,并且已經(jīng)成為任何研究團隊的一部分。
        其它使用案例以及面臨的挑戰(zhàn)
        到目前為止,我們已經(jīng)討論了 AI 如何通過利用生成算法來搜索化學空間,從而幫助更快地發(fā)現(xiàn)新化學物質。雖然這是最值得注意的用例之一,但并不僅限于此。人工智能正被應用于化學中的許多其他問題,其中包括:

        • 實驗室中的自動化工作。我們可以使用機器學習技術來加速合成工作流程。一種方法使用 “自動駕駛實驗室” 來自動化日常任務、優(yōu)化資源支出并節(jié)省時間。一個相對較新的,但值得注意的案例是使用機器人平臺 Ada 來自動化薄膜材料的合成、處理和特征化(請參閱此處的平臺)。另一項研究展示了使用移動機器人化學家能夠操作儀器,并在八天內對 688 次實驗進行測量;

        • 化學反應預測。我們可以使用分類模型來預測將發(fā)生的反應類型,或者簡化問題并預測某個化學反應是否會發(fā)生。這個問題有很多不同的建模方法;

        • 化學數(shù)據(jù)挖掘。像許多其他學科一樣,化學有大量可用于研究趨勢和相關性的科學文獻。一個值得注意的例子是對人類基因組計劃提供的大量信息進行數(shù)據(jù)挖掘,以識別基因組數(shù)據(jù)的趨勢。


        最后,雖然新的基于數(shù)據(jù)驅動的趨勢正在迅速發(fā)展并已經(jīng)產(chǎn)生很大的影響,但它也給我們帶來了許多新挑戰(zhàn),包括:

        • 計算和實驗之間的差距。雖然計算方法的目標是幫助實現(xiàn)實驗的目標,但前者的結果并不總是可以遷移到后者。例如,在使用機器學習尋找候選分子時,我們必須牢記分子在其合成途徑中很少是獨一無二的,而且通常很難知道未經(jīng)探索的化學反應是否會在實踐中起作用。即便可以起作用,目標化合物的收率、純度和分離也存在問題。計算工作和實驗工作之間的差距甚至會變得更大,因為計算方法所采用的指標并不總是可以轉移到后者(上面提到的 QED 只是眾多例子中的一個)上,而且實驗驗證可能不可行;

        • 需要更好的數(shù)據(jù)庫和缺乏基準。由于整個化學空間是無限的,所以我們最希望有足夠大的樣本量來幫助我們進行之后的泛化。然而,目前大多數(shù)數(shù)據(jù)庫都是為不同目的而設計的,它們通常使用不同的文件格式;其中一些缺乏提交的驗證程序,或者它們在設計時沒有考慮到人工智能的任務。此外,我們擁有的大多數(shù)數(shù)據(jù)庫的化學數(shù)據(jù)范圍有限 —— 它們只包含某些類型的分子。最后,大多數(shù)涉及使用人工智能進行化學預測的任務都缺乏一個基準平臺,這使得許多不同研究的比較變得不可行。AlphaFold 成功的主要原因之一是它提供了上述所有內容作為蛋白質結構預測 (CASP) 競賽的關鍵評估的一部分,這表明需要有組織的努力來簡化和改進涉及化學預測的其他任務。


        總結
        隨著我們繼續(xù)進入數(shù)字時代,新算法和更強大的硬件將繼續(xù)揭開以前難以解決的問題背后的面紗。人工智能與化學發(fā)現(xiàn)的整合仍處于起步階段 —— 但聽到 “數(shù)據(jù)驅動的發(fā)現(xiàn)” 這個詞已經(jīng)很平常了。許多公司 —— 無論是制****巨頭還是年輕的初創(chuàng)公司 —— 已經(jīng)采用了上述許多技術,并為化學帶來了更高的自動化、效率和可重復性。人工智能使我們能夠以前所未有的規(guī)模開展科學,在過去幾年中,這產(chǎn)生了許多舉措并吸引了資金,這些資金將繼續(xù)引領我們進一步進入自主科學發(fā)現(xiàn)的時代。



        *博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。

        電度表相關文章:電度表原理




        關鍵詞: AI

        相關推薦

        技術專區(qū)

        關閉
        主站蜘蛛池模板: 布拖县| 绥中县| 宣威市| 长治县| 中江县| 竹山县| 永登县| 棋牌| 七台河市| 巩留县| 五台县| 铅山县| 无棣县| 鲁山县| 连江县| 遂川县| 杨浦区| 哈尔滨市| 新密市| 牡丹江市| 灵丘县| 绥德县| 湘潭县| 龙泉市| 城步| 汉寿县| 卢湾区| 江孜县| 法库县| 民勤县| 瑞昌市| 彝良县| 仙桃市| 阿克| 瑞金市| 雷山县| 商洛市| 鄂托克前旗| 武山县| 乌拉特中旗| 漳平市|