AI for Science:追求人類智能最光輝的一面
編者按:過去一年里,AI for Science 技術成果集中爆發,在生物醫****、材料、物理、化學、甚至數學中發揮越來越重要的作用,AI 在自然科學領域的巨大潛力也成為學界、業內人士最關注的話題之一。近期,由量子位主辦的 MEET2023 智能未來大會邀請微軟研究院科學智能中心亞洲區負責人、微軟亞洲研究院副院長劉鐵巖共同探討對于 AI for Science 的最新思考與未來趨勢研判。AI for Science 如何點亮科學研究的無限可能性?下面就讓我們一起看一看劉鐵巖對微軟研究院 AI for Science 研究成果的分享和未來之路的展望吧!
AI for Science:第五范式
最近10年里,AI 飛速發展,在很多任務上已經和人類媲美。而且近年來,以 GPT-3、DALL·E 2 為代表的大模型讓人驚艷。
比如大家現在非常關注的 ChatGPT,讓我們覺得通用人工智能離日常生活越來越近。但這些成果主要集中在感知和認知層面,并沒有反映出人類智能里最光輝的一面,即認識世界和改造世界。
如果戴上科學的顯微鏡,就會發現我們之所以成為人類、成為生物,是億萬個細胞、甚至是更多微觀粒子相互作用的結果;而如果戴上科學的望遠鏡,就會發現我們人類不過是地球上百萬物種之一、而地球在蒼茫宇宙里也同樣是不值一提的滄海一粟。
所以,無論是從微觀還是宏觀角度看,我們人類自身都是非常渺小的。我們不應該讓 AI 一味地模擬語音、視覺、語言等人類自身的基本技能,而是要讓 AI 擁有和人類一樣認識世界和改造世界的勇氣和能力。而認識世界和改造世界正是千百年來,自然科學研究的終極目標。
我在微軟的前同事 Jim Gray 曾經寫過一本書,對科學發現四個基本范式做了深刻的總結。
第一個范式叫做經驗范式,基于經驗的觀察,是天才科學家對萬物萬象的總結。比如著名的天文學家開普勒,他通過觀察總結出天體運行的規律:“所有的行星圍繞太陽運行的軌道都是橢圓的,太陽處在所有橢圓的公共焦點上”。
第二個范式是理論范式,指數學家對經驗進行數學抽象和推演,比如用于描述經典力學的牛頓運動方程,用來描述電場磁場關系的麥克斯韋爾方程等。
第三個范式是計算范式,隨著計算機的發明,人們開始有能力求解復雜的物理方程。比如,通過有限元或者有限差分方式求解流體方程,從而有助于人類對于天氣預報進行精準預測。
第四個范式是數據驅動的范式,這個過程中 ML(機器學習)扮演著非常重要的角色,人們使用ML方法來分析數據,尋找規律,并進行預測。
最近這幾年,大家開始關注的一種新的范式,叫做 AI for Science,它是前四種范式的有機結合,發揮了經驗和理論各自的特長,又把 AI 和計算科學融合在一起。AI for Science 是對科學發現更全面的認知,因此我們稱之為科學發現的第五范式。
為了更好地理解 AI for Science,我們可以從如圖的公式講起。
第一、對于物理世界(綠色的 X),我們可以利用理論科學對它進行大體的描述,并且可以用 AI 的手段來加速這些理論方程的求解和推演。這對應了黃色的 X(θ)表示的部分,可以看成 AI 版本的第三范式。
第二、我們需要承認,我們在科學方面的知識仍然非常有限,已有的理論還不能完美解釋所有的科學現象。換句話說,我們承認物理方程的解 X(θ)和實際物理世界X之間存在殘差 ε,這個殘差表達的是現有物理方程的邊界,可以用實驗手段觀察,也可以為 AI 所利用,這就對應了第四范式。當然,這幾年 AI 領域的新發展,比如 RL(強化學習)、DL(深度學習)、大模型等等,會為第四范式提供新的加持。
第三、通過 AI 手段從數據出發,目的不僅僅是為了發掘一些特定的結果,也可以進一步幫助我們修正對已有物理方程的理解,豐富我們的科學知識,讓我們有機會發現新的科學規律,這樣就最終能夠實現科學研究的閉環,這對應了 AI 版本的第一范式和第二范式。
接下來,我們就針對這三個方面進行更加深入的討論,并介紹我們團隊最新的研究成果。
第一,如何用 AI 求解物理方程?
傳統數值解法求解物理方程的效率是一個瓶頸。近年來,人們開始利用 AI 模型來對物理方程進行更加高效的求解。AI 模型的訓練數據可以來源于傳統的數值解法,而一旦訓練成功,在求解新的方程的時候就可以節省大量的時間。
此外,近年來還出現了一種 physics informed training,甚至不需要提前生成訓練數據,只需要在訓練的過程中,動態驗證 AI 模型的輸出是否滿足物理方程,定義損失函數即可,而驗證方程比求解方程簡單得多。
在這個方向上,我們團隊有一些最新研究成果,如發表在 NeurIPS 2021 上的 Graphormer 模型,和發表在國際期刊《流體物理》上的 Deep Vortex Net,分別在分子建模和氣象模擬領域取得了國際領先的結果。
第二,如何用 AI 從科學數據中發掘有效信息?
各種實驗設備每年都產生海量數據,但顯然不能靠人工有效處理;還有每年都有近150萬篇論文發表,但任何科學家都沒有精力讀完。
我和團隊提出利用 AI 方法來自動分析高能粒子對撞的射流數據,在國際期刊《High-energy Physics》上提出了 LorentzNet 模型,將洛倫茲等變性構建在模型之中,在新粒子發現領域取得了比前人顯著提高的精度。
我們還利用科學文獻訓練了 SPT 模型,對科學文獻信息的科學知識進行抽取、總結、和預測。該模型近期在 PubMed 問答任務上首次達到了人類專家的水準。
第三,如何從實驗數據出發,用 AI 發現新的物理方程,形成科學發現的閉環。
比如物理的守恒定律,一旦實驗數據不滿足守恒性,往往暗示著一些新物理規律的存在。我們團隊設計了一個雙通道的 AI 模型,包含一個基于拉格朗日神經網絡的守恒通路和一個基于標準神經網絡的非守恒通路,可精準地從實驗數據中自發地學到很多已有規律。該工作發表在 Physical Review 上,受到了廣泛關注。
我們相信 AI for Science 將會對自然科學產生巨大影響,尤其在解釋生命奧秘以及保障環境可持續發展方面,都有很大的潛力。
沿著這兩個方面,我們進行了很多探索,發表了一系列非常有意思的論文,如果大家感興趣可以參考一下。
為了更好地推動 AI for Science 這個領域高速發展,今年7月,微軟研究院在全球成立了一個新的研究機構,我們稱之為 Microsoft Research AI4Science 或者是微軟研究院科學智能中心。這個研究中心設立的目的就是利用 AI 對分子動力學模擬、流體力學模擬等重要的科學計算工具來進行顛覆式創新,從而推動人類關心的重大問題的求解。
非常榮幸,我作為這個中心的創始成員之一,帶著團隊一起推動 AI for Science 的研究。我們也真誠地希望懷揣著科學夢想的同事們能夠加入我們,一起探索科學的新邊界!
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。